1. Bilder haben eine Auflösung von 256x256 und einen einzigen Farbkanal
2. n Blöcken, die die Auflösung des Bilds mit jeder Convolution halbieren
* MaxPooling Layer reduziert nach jeder Convolution nochmals die Auflösung
3. fasst die 16 Filter-Eingaben des vorherigen Layers in einer einzigen Ausgabe zusammen
* erlaubt aber eine weitere Messpunkt für eine menschlich verständliche Ausgabe
4. 8x8 Bilder mit Graustufen flach geklopft als Eingabe für den Flaschenhals
5. Dimensionierung des Flaschenhalses ist 8 und unterliegt unserer Willkür