Ist es überhaupt wichtig, dass zwischen Staubsauger und Bohrmaschine unterschieden werden kann? Wissenschaftliche Daten belegen oder widerlegen unsere Vorstellungen von den Dingen um uns herum. Wir messen, nehmen Stichproben, und versuchen, daraus allgemeingültige Gesetzmässigkeiten zu formulieren. Mehr Daten können dabei die Zuverlässigkeit unserer Aussagen untermauern, z.B. unser Wasserverbrauch steigt, unsere Leistungsfähigkeit nimmt im Alter ab, oder wir verbringen mehr Zeit im Internet. Besonders unsere online-Aktivitäten werden dabei genauestens untersucht. Bereitwillig teilen wir unsere Vorlieben mit Diensten, die wir auf unseren Smartphones, Fernsehern, Telekommunikationsverbindungen, Fotoarchiven etc. mehr oder weniger freiwillig installiert haben oder nutzen.
Wenn ich meine mit dem Smartphone aufgenommenen Digitalfotos gleich auf dem Computer oder gar im Internet anschauen kann, ist das bequem und bringt mir Vorteile. Dem Dienstanbieter auch. Er kann die Fotos einsehen und analysieren. Er beurteilt das Foto als «Landschaftsbild» oder «Gruppenfoto», und ich fühle mich verstanden. Aha, das hat er ja richtig toll erkannt. Nicht so schlimm, wenn die Einschätzung des analysierenden «Grossen Bruders» mal danebenliegt, und er meine Bilder von der belebten Uferpromenade als «Stau» kennzeichnet.
Zusehends werden die Algorithmen zur Bilderkennung besser. Wir verdanken dies einerseits den Fortschritten im «Deep Learning». Das ist die Bezeichnung für bestimmte Auswerteverfahren, bei denen ein Bild zunächst in seine Bildpunkte, d.h. Pixel zerlegt wird, und anschliessend durch viele Millionen einfacher Rechenschritte (z.B. Multiplikation und Addition) ausgewertet wird. So kann der Algorithmus feststellen, was im Bild gezeigt ist. Früher bezeichnete man diese Rechenverfahren oft als «Künstliches Neuronales Netz», denn die Verbindung der Rechenvorschriften sind an die Verknüpfung von Neuronen im Gehirn angelehnt. Andererseits müssen sehr, sehr viele Bilder analysiert werden, um zuverlässige Aussagen über den jeweiligen Bildinhalt machen zu können. Big Data ist dabei das Schlagwort, und die Bereitschaft, unsere Daten mit Datensammlern wie Microsoft, Google, Facebook etc. zu teilen, ist eine Voraussetzung für diese Entwicklungen.
Die Deep Learning Verfahren haben allerdings eine Reihe von Schwächen: Es kommt zwar immer ein Ergebnis heraus, aber nicht immer liegt das Ergebnis in der Nähe dessen, was eigentlich herauskommen sollte. Im Big Data Bereich ist das oft nicht weiter schlimm, denn von Hand können die Billionen von Digitalbildern längst nicht mehr untersucht werden. Eine «schlechte» Auswertung ist immer noch besser als gar keine Auswertung, und so gibt es eben «Stau» auf der Uferpromenade, obwohl doch eigentlich nur sommerlicher Betrieb herrscht. Für ein zuverlässiges Messgerät ist das Verfahren aber nicht ohne Weiteres geeignet: So könnte das hochmoderne Deep Learning Spannungsmessgerät des Elektrikers harmlose 12V anzeigen, obwohl er die Messung doch eigentlich an der 230V Leitung vornimmt.
Mit der Zeit wurden die neuronalen Netze immer leistungsfähiger, aber auch immer komplexer. Warum der Algorithmus bei der Bildanalyse zu einem bestimmten Ergebnis kommt, kann heute praktisch nicht mehr mit Sicherheit festgestellt werden. Für die Fotos auf Twitter, Facebook, Pinterest, etc. ist das zwar teilweise ärgerlich, hat aber letztlich kaum Konsequenzen. Wenn aber eine Bank die Kreditwürdigkeit einer Firma oder eines Privatkunden einschätzt, sind die Konsequenzen mitunter erheblich. Noch gravierender wiegt der Entscheid bei der Bildauswertung medizinischer Daten: Ist eine Tumorbehandlung notwendig oder nicht? Hier werden weltweit an ethischen Richtlinien gearbeitet, welche sich kritisch mit dem Einsatz von Deep Learning Verfahren auseinandersetzen.
Ein weiteres Problem ergibt sich bei der Anpassung bestehender neuronaler Netze, d.h. durch Updates. Wenn die Rechenvorschriften angepasst werden, kann ich vielleicht zusätzliche neue Objekteklassen im Bild erkennen, z.B. jetzt auch Pinguine und Raketen. Das ist zwar praktisch, dabei wird aber das ganze neuronale Netz geändert. Dies bedeutet, dass die vorangegangenen Auswertungen jetzt vielleicht zu einem ganz anderen Ergebnis kommen würden. Stellen Sie sich das vor in einem Produktionsbetrieb, der die Qualität seiner Produkte sicherstellen möchte. Ist die Qualität nun gegeben oder nicht?
Das Foto der Bohrmaschine wird selbst von relativ einfachen Deep Learning Algorithmen, wie z.B. AlexNet oder GoogLeNet mit nahezu hundertprozentiger Sicherheit richtig erkannt. Allerdings muss ich das Foto richtig herum eingeben. Der Mensch erkennt die Bohrmaschine auch auf dem Kopf. GoogLeNet kommt zu einem anderen Ergebnis, und bezeichnet den gezeigten Gegenstand als «Staubsauger». AlexNet widerspricht: Das ist eine «Schaufel». Lassen wir die beiden ruhig streiten. In der Zwischenzeit könnten wir uns fragen, warum es schwierig ist in einer Online-Bilddatenbank einen bestimmten Gegenstand auf dem Kopf zu finden.
Die Antwort ist klar: die weitaus überwiegende Anzahl Bilder im Internet ist «richtig herum», und diese Vorauswahl bei den zu Grunde liegenden Daten ist eine weitere Herausforderung bei Deep Learning. Die Bildanalyse funktioniert nicht vorurteilsfrei. Nicht alle möglichen Eingangsbilder sind in der gleichen Häufigkeit vertreten. Und so trifft die Bildanalyse nebenbei auch eine Vorauswahl, denn das Analyseergebnis entspricht mit sehr viel höherer Wahrscheinlichkeit einem der häufig vorkommenden Eingangsdaten.
PD Dr. Udo Birk
PD Dr. Udo Birk ist Dozent und unterrichtet im CAS Weiterbildungsstudiengang industrielle Bildverarbeitung. Die Hochschule für Technik und Wirtschaft HTW Chur teilt in der Südostschweiz einmal im Monat Wissen, das den Horizont erweitert.