Bin ich ein Roboter?

Manchmal echt ärgerlich – Captchas mit verschwommenen Schriftzeichen, die so leicht gar nicht zu entziffern sind. Oder kleine Bildchen, auf denen wir Verkehrsschilder, Zebrastreifen, Busse oder Brücken identifizieren müssen, um auf die gewünschten Inhalte einer Website Zugriff zu bekommen.

Im Netz sind sie allgegenwärtig. Erst nach einer korrekten Antwort dürfen wir mit der Benutzung einer Webseite fortfahren. Doch wozu sind die Abfragen gut? Und wie schafft es Google, mit ihnen sogar Geld zu verdienen?

Was ist ein Captcha?

Captcha steht für completely automated public Turing test to tell computers and humans apart, zu Deutsch etwa vollautomatischer öffentlicher Turing-Test zur Unterscheidung von Computern und Menschen. Benannt nach Alan Turing, der die Enigma-Verschlüsselung der Deutschen im Zweiten Weltkrieg knacken konnte und gemeinhin als ziemlich genial gilt.

Der Turing-Test ist ursprünglich ein Gedankenexperiment. Er soll zeigen, ob eine künstliche Intelligenz über ein Denkvermögen verfügt, das dem des Menschen ähnelt. Dazu befragt ein Interviewer zwei Probanden, von denen einer eine künstliche Intelligenz ist. Er kann keinen der beiden sehen, hören oder auf anderem Wege wahrnehmen. Mithilfe der Fragen soll er nun die KI identifizieren. Gelingt es dem Fragenden nicht, eindeutig festzustellen, wer der Computer ist, hat die Maschine den Test bestanden.

Das Captcha adaptiert diese Idee dahingehend, dass Aufgaben gestellt werden, die Menschen sehr einfach korrekt lösen können, mit denen automatisierte Systeme hingegen große Probleme haben. Die entscheidende Rolle dabei spielt unsere Fähigkeit zum abstrakten Denken, die sich am Computer nicht simulieren lässt. Haben Menschen beispielsweise kein Problem damit, verzerrte Buchstaben korrekt zu identifizieren, stellt eine solche Aufgabe eine künstliche Intelligenz vor enorme Schwierigkeiten, da es theoretisch unendliche Möglichkeiten für eine solche Abweichung gäbe. Diese bei jedem Captcha durchzurechnen, ist zwar möglich, aber mit einem enormen Aufwand verbunden.

Abwehrhaltung

Grund für die Einrichtung einer solchen Abfrage ist Sicherheit. Die Betreiber von Websites schützen sich damit vor Angriffen durch Bots. Das sind automatisierte Programme, die in ihrer harmlosesten Variante Spamnachrichten unter Blogartikel, in Gästebücher und Kontaktformulare schreiben, in ihrer aggressiven Form aber auch für DDoS-Angriffe (Distributed Denial of Service) verwendet werden können, bei denen durch eine enorm hohe Anzahl von gleichzeitigen Anfragen ein Server lahmgelegt wird. Dann geht auf einer Seite gar nichts mehr. Ein Umstand, der beispielsweise im Onlinehandel schnell richtig Geld kosten kann.

Mehrwert für Google

Das am weitesten verbreitete Programm, das ein Captcha auf eine Seite bringt, ist von Google. Es heißt recaptcha und ist auf Millionen von Domains im Einsatz. Die Daten, die über das Tool auf den Alphabet-Servern ankommen, werden nicht einfach wieder gelöscht. Auch sind die gezeigten Bilder oder die einzugebenden Wörter nicht zufällig ausgewählt. Es handelt sich vielmehr um Datensätze, die für verschiedenste Aufgaben verwendet werden. (1)

Erinnern Sie sich noch, dass die Captchas vor Jahren von Ihnen verlangt haben, Wörter einzugeben, die immer so aussahen, als ob sie aus einem Buch kopiert worden wären? Das lag daran, dass genau das passiert ist. Google hat auf diesem Wege zahllose Bücher und Artikel digitalisiert. Um genau zu sein, ist so ziemlich jedes Buch, das unter Google books zu finden ist, auf diese Weise digitalisiert wurde. Die Daten werden an zentralen Stellen gesammelt und zusammengefügt. Und das vollautomatisch.

Ähnliches passiert mit den Bildern von Brücken, Autos oder Lampen. Neuronale Netzwerke werden mit derart strukturierten Daten gefüttert. So lernt das System nach und nach die verschiedenen Erscheinungsformen eines Gegenstandes kennen. Geben Sie dem System beispielsweise zahllose Bilder von Katzen, wird es immer besser wissen, was eine Katze ist. Desto mehr Bilder vorhanden sind, die entsprechen getagt sind, desto besser. Und nichts anderes passiert bei jeder dieser Abfragen.

Der Einsatz dieser Technologie wirft Fragen auf. Wenn Google die Informationen nicht direkt an andere Unternehmen verkauft oder ihnen diese Technik vorstellt, dann setzt der Internetriese sie doch zumindest ein, um die eigenen Arbeiten in dieser Richtung zu unterstützen. Ob das moralisch oder rechtlich fragwürdig ist, wird sich zeigen. Diskussionswürdig ist es allemal.

Das Ende des Captchas

Google schafft es, selbst mit etwas so simplen wie der Captcha-Abfrage noch Geld zu verdienen. (2) Das lässt sich kritisieren, bewundernswert ist dieses Streben danach, allem einen Mehrwert zu geben, allemal. Problem: Die Entwicklung der künstlichen Intelligenz ist durch diese Technik inzwischen so weit fortgeschritten, dass sich die Programme von Captchas nicht mehr aufhalten lassen. (3) Es ist also nur noch eine Frage der Zeit, bis neue Methoden auftauchen, die einen automatisierten Angriff zuverlässig verhindern. Der Schüler besiegt den Meister.