Blog: News & Tipps

Büro & Technik

Was sind eigentlich "CAPTCHAs"? Und wie helfen wir damit Google beim Digitalisieren von Büchern?


Sie haben sich bei einem Internetdienst registriert und endlich alle Eingaben erledigt. Am Ende bekommen Sie ein kleines, buntes Bild gezeigt, das mehr oder weniger offensichtlich aus Buchstaben und/oder Zahlen besteht. Die sehen verschwommen oder verzerrt aus und sind so manches Mal schlicht nicht zu entziffern. Dennoch werden Sie aufgefordert, diese Zeichenfolge einzugeben. Was genau soll das und woher kommen die sogenannten CAPTCHAs?

CAPTCHAs, in Langform "Completely Automated Public Turing test to tell Computers and Humans Apart", ermöglichen es zu erkennen, ob gerade eine Maschine oder ein Mensch am Werk ist. Das funktioniert, weil Menschen diese Zeichenfolgen am besten entziffern können, während Computer sich äußert schwertun. CAPTCHAs dienen letztendlich dazu, Spam zu vermeiden, der über automatische Programme von Robotern (kurz "Bots") massenhaft versendet oder in Formulare eingetragen wird. Denken Sie zum Beispiel an die Kommentare unterhalb eines unserer Blogbeiträge.

Was viele nicht wissen: Immer mehr Formulare nutzen CAPTCHAs von Google. Der Google-Dienst "ReCAPTCHA" ist für Website-Betreiber kostenlos. Als Nutzer erkennen Sie ihn daran, dass nicht ein, sondern zwei unleserliche Worte einzutippen sind, bevor das jeweilige Formular als "von einem Menschen ausgefüllt" akzeptiert wird.

Mit dem Ausfüllen werden Sie unfreiwillig Mitarbeiter des Projekts "Google Books", in dessen Rahmen der Suchmaschinenriese Bücher und Zeitungen digitalisiert und über die Suchmaschine auffindbar macht. Der Clou: Textstellen, die beim Einscannen nicht richtig erkannt wurden, enträtseln nun die Internetnutzer in Form der CAPTCHAs. So werden Texte nach und nach digitalisiert, ein Wort ums andere.

Der große Vorteil: Wenn es den Google-Rechnern nicht gelungen ist, ein Wort zu erkennen, dann dürfte das auch den Spam-Bots im Internet schwerfallen. Als Website-Betreiber freut man sich deshalb über den hohen Sicherheitsgrad, den der Dienst bietet. Vor allem aber profitieren Google und seine Nutzer: Jeden Tag werden weltweit 200 Millionen CAPTCHAs entziffert. Die User setzen dafür insgesamt geschätzte 150.000 Stunden pro Tag ein.

Doch wie kann der Dienst überhaupt erkennen, ob die Lösung richtig oder falsch ist, wenn ein automatisches Entziffern eben gerade nicht möglich ist? Das ist genau der Grund, warum dem Nutzer am Rechner zwei Wörter präsentiert werden. Bei einem davon ist die korrekte Schreibweise bereits bekannt, beim anderen noch nicht. Kann der Mensch den schon bekannten Teil richtig erkennen, wird geschlossen, dass dies auch für den zweiten Teil gilt. Dieses zuvor noch nicht entzifferte Wort wird dann wiederum anderen Nutzern als richtig angeboten, um das Ergebnis abzusichern.

Mehr Informationen zu dem cleveren Konzept enthält der Artikel "Digitizing Books One Word at a Time".

Verfasst von gruendungszuschuss.de-Redaktion am 05.09.2012 10:37
http://www.gruendungszuschuss.de/?id=163&showblog=3263

Newsletter abonnieren oder Beitrag weiterempfehlen

Ihr Berater

Persönliche Beratung kompetent & auf den Punkt

Unsere Experten helfen Ihnen weiter

Liste unserer Berater

Rechner

Wie hoch ist Ihr Gründungszuschuss?
Jetzt ausrechnen