von Timm Richter
In den letzten Wochen gab es eine Flut von Berichten über chatGPT. Auch ich habe die Berichtserstattung aufmerksam verfolgt, chatGPT ausprobiert, mir den Algorithmus näher angeschaut und viele Podcasts mit KI-Forschern gehört. Zeit, ein Zwischenfazit zu ziehen. Dabei habe ich das Gefühl, dass man bei dem Versuch, die diese Form von KI zu verstehen, mindestens genauso viel über uns und unsere Gesellschaft lernt. chatGPT spricht nicht mit uns, sondern wir durch chatGPT mit uns selbst.
Am Anfang steht ungläubiges Erstaunen. Wie kann es sein, dass ein Netzwerk, das aus 175 Mrd unterschiedlich stark gewichteten Verbindungen besteht, in der Lage ist, mit uns ein Gespräch zu führen, auf unsere Fragen, Anmerkungen und Widersprüche so zu reagieren, dass wir die Antworten ernst nehmen? Das Wissen aus 300 Mrd Datensätzen, mit dem das zugrunde liegende Large Language Modell (LLM) GPT trainiert wurde, ist ja nicht abgelegt wie auf einer Festplatte, auf das man dann mit direkten Suchen zugreifen könnte. Sondern die Daten wurden verwendet, um die Verbindungen des Netzwerkes zu gewichten, d.h. zu kalibrieren. Und dieses gewichtete Netzwerk ist in der Lage, auf Eingaben (Prompts) von uns Antworten zu generieren, deren Genese wir uns nicht mit einer zufriedenstellenden kausalen Theorie erklären können. Es ist wie ein Wunder oder etwas profaner ausgedrückt: eine Black Box, die wir (noch?) nicht durchschauen[1]. Wer hätte gedacht, dass uns und vor allem auch den Experten Erzeugnisse von Mathematik und Informatik, Speerspitzen der Wissenschaftlichkeit, wie Magie vorkommen!
Nomenklatur
Die Forschung zur KI (künstliche Intelligenz) setzt zur Zeit vor allem auf neuronale Netze, die man sich ähnlich zu den Neuronen und Synapsen im Gehirn vorstellen kann. Eine besondere Form davon sind LLM (Large Language Models), die mit riesigen Datensätzen darauf trainiert sind, allgemein auf eine Texteingabe (ein sogenanntes „Prompt“) eine passende Ausgabe zu erzeugen. Die Modelle GPT-2, GPT-3 und GPT-4 sind solche LLMs der Firma open.ai, die zur Zeit am Weitesten verbreitet sind. Diese allgemeinen LLMs kann man dann durch ein „Spezialtraining“ so erweitern, dass sie für bestimmte Aufgaben optimiert sind. DALL-E und chatGPT sind solche optimierenden Erweiterungen für die Generierung von Bildern bzw. von Gesprächen aus einem Frage-Antwort-Spiel der Firma open.ai. open.ai ist mit mehr als 10 Mrd. EUR von Microsoft finanziert.
Was wir durch die Nutzung von chatGPT lernen, ist dies: GPT ist ein kontingentes System, das über ein Modell von der Welt verfügt, das – weil wir es mit unserem Wissen über die Welt kalibriert haben – so gut mit unseren Vorstellungen und unseren verschiedenen Sprachen abgestimmt ist, dass eine für uns sinnvolle Kopplung möglich ist. Und zwar sogar so sinnvoll, dass es nützlich wird! chatGPT kann Texte übersetzen, Texte zusammenfassen, Fragen beantworten, neue Texte erstellen. Dabei stellen wir fest: es funktioniert! Zwar nicht immer und nicht immer gleich gut. Aber – wie GPT-4 (mit den im Moment wie Pilze aus dem Boden schießenden Plugins und „Spezialtraining“) zeigt – immer mehr und immer besser. Die KI in Form von GPT ist Technik. Technik zeichnet sich dadurch aus, dass sie genutzt wird, wenn sie denn funktioniert. Das ist Abstimmung mit den Füßen. Wem GPT nützt, der wird GPT nutzen. Wenn chatGPT Service-Hotlines besser machen kann, eine gute Hilfe beim Verfassen von Texten ist, Ärzte bei der Diagnose unterstützen und Computerprogramme schreiben kann, dann wird das alles passieren. Es geht bei der Anwendung von GPT und anderen LLM nicht um ein ob, sondern nur noch um das wie.
Es lassen sich bereits heute verschiedene Anwendungsfälle erkennen, mit jeweils eigenen Chancen und Risiken. Mit chatGPT kann man in natürlicher Sprache kommunizieren. Damit erhält man die Funktion des Interfaces zu GPT und mit ihm verbundenen anderen technischen Systemen. Wir müssen nicht mehr mühsam unsere Wünsche in technischer (=Programmiersprache) oder technik-naher (Google Suchanfrage) Sprache formulieren, also uns an die Maschine anpassen, sondern die Maschine passt sich an uns an und “versteht” uns. Wenn wir uns missverstanden fühlen oder chatGPT auf einen Fehler in der Antwort hinweisen (z.B. dass der von chatGPT vorgeschlagene Code noch Fehler enthält), so ist das System mit GPT-4 als Basismodell sogar in der Lage, auf unseren Hinweis einzugehen und einen veränderten Vorschlag zu machen! “Verstehen” heißt, dass (in den meisten, stetig zunehmenden Fällen) wir die Antworten von chatGPT als angemessen für unsere Antworten verstehen. Aber “versteht” chatGPT uns “wirklich”? Durch chatGPT wird ein Phänomen sichtbar, was auch in Bezug auf andere Menschen gilt, das wir aber nie so genau wahrnehmen: dass auch die anderen Menschen immer nur Black Boxes für uns sind und wir nicht wissen, was und wie sie “wirklich” denken[2]. Verstanden werden heißt, dass wir die Antworten auf unsere Fragen / Äußerungen als möglich bzw. akzeptabel, jedenfalls nicht unpassend bewerten. Damit ist nicht gemeint, dass wir die Antwort gut finden oder ihr zustimmen, sondern nur, dass die Antwort mindestens so passend ist, dass wir die Hypothese (oder Fiktion!) des Verstandenseins nicht in Frage stellen. In diesem Sinne haben wir (zunehmend) das Gefühl, dass chatGPT uns versteht. Als Interface funktioniert chatGPT dann ausreichend gut und wird verwendet werden, wenn wir den Eindruck haben, dass unsere Fragen oder Aufforderungen verstanden wurden. Und solange diese Anschlussfähigkeit aus Sicht der Nutzer:innen besteht, werden sie dieses Angebot auch weiterhin nutzen – man bleibt im Spiel.
Solange der Schwerpunkt der Nutzung auf der Interface-Funktionalität liegt und wir zeitnah sicher sind, unsere Ziele erreicht zu haben, können wir Nützlichkeit schnell feststellen. Einige Beispiel für solche Fälle wären:
- Wir stellen die Frage nach einer Funktion von Microsoft Word und erhalten eine Antwort, die wir sofort überprüfen können
- Wir machen eine Reservierung bei einem Restaurant und erhalten danach eine passende Buchungsbestätigung per Email
- Wir fragen Motto-Ideen für einen Kindergeburtstag … und sind mit den Vorschlägen zufrieden bzw. präzisieren noch einmal und bekommen danach Vorschläge, die uns noch besser gefallen
- Wir bekommen einen Vorschlag für den Einladungstext der Geburtstagsfeier, den wir noch etwas bearbeiten und dann verschicken können
- Wir holen uns Argumente und textliche Anregungen für eine Semesterarbeit, die wir als einen weiteren sehr nützlichen Input empfinden und einbauen
Schwieriger wird es, wenn die sachliche Richtigkeit einer Antwort zu beurteilen ist. Können wir chatGPT vertrauen, wenn es eine schwierige Mathematikaufgabe löst, einen historischen Zusammenhang inklusive Daten darstellt oder uns sagt, zu welcher Krankheit die Symptome passen, die wir gerade spüren? Wir wissen es nicht und werden auch nie mit absoluter Gewissheit wissen können, solange chatGPT für uns eine Black Box bleibt – wovon auszugehen ist. Ich vermute, dass wir mit der KI auf ähnliche Weise umgehen werden wir mit Menschen, die wir ebenfalls nie durchschauen können. Es wird darauf hinauslaufen, dass wir in bestimmten Dingen (deren Umfang über Zeit sicher zunehmen wird) der KI vertrauen werden. Wir werden nach Signalen der Vertrautheit Ausschau halten, die dann für uns ausreichend sind, um den Sprung ins Ungewisse zu machen und den Antworten von chatGPT zu glauben. In der ersten persönlichen Auseinandersetzung testen wir chatGPT schon heute mit Fragen, zu denen wir die Antworten kennen. Wenn für einen bestimmten Anwendungsfall die Antworten zu unserer Zufriedenheit ausfallen, werden wir sukzessive chatGPT mehr zutrauen. Z.B.: man lässt es einen Algorithmus programmieren, den man noch nachvollziehen kann; sodann ein größeres Programm, dessen korrekte Funktion man überprüfen kann; und danach, wenn man sich an das Funktionieren gewöhnt hat, werden die Aufgaben noch größer und überschreiten die Grenzen dessen, was wir wissen bzw. leicht nachprüfen können. Wir verfahren dann nach dem Motto: „It just works!“
Es werden sicherlich auch wissenschaftliche Studien erscheinen und Prüfungen durch vertrauenswürdige (öffentliche) Institutionen stattfinden, die uns durch systematische Tests mehr Sicherheit geben sollen, dass man sich in ausgewählten Bereichen mit hoher Wahrscheinlichkeit auf Antworten verlassen kann – so wie wir z.B. auch darauf vertrauen, dass Ausbildungsprogramme und Prüfungen dafür sorgen, dass Ärzt:innen über ausreichend Kompetenz verfügen. In der Praxis wird KI überall dort zum Einsatz kommen, wo sie statistisch “gut genug” ist. Es ist damit zu rechnen, dass wir uns sehr schnell an sie gewöhnen werden und Aufgaben abgeben werden, die wir vorher selbst gemacht haben – genauso wie es beim Taschenrechner, Google Maps oder den Sprachübersetzungen bereits passiert ist.
Eine große Verführung von chatGPT liegt darin, dass es die gepflegte Konversation, den Smalltalk beherrscht. Das ist eine Fähigkeit, die wir bisher nur von Menschen kennen, weswegen wir dazu neigen, chatGPT auch andere menschliche Fähigkeiten zu unterstellen. Aber die Art und Weise, wie chatGPT zu seinen Aussagen kommt, unterscheidet sich gänzlich von der unseren. Deswegen kann es auch immer dazu kommen, dass chatGTP Fehler macht, die uns nicht in den Sinn kommen würden. chatGPT “denkt” (=operiert) also anders, auf eine Weise, die wir nicht vorhersagen können. Bei der Nutzung stellt man fest, dass leicht geänderte Texteingaben (=Prompts) und die Art der Gesprächsführung starke Einflüsse auf die Ergebnisse haben. Z.B. wird berichtet, dass allein der Hinweis im Prompt, man suche nach den “besten” Antworten, oder ein zweites Prompt, die gegebene Antwort noch einmal kritisch zu überprüfen, bei GPT-4 zu deutlich besseren Ergebnissen führt [3]. Das entbehrt nicht einer gewissen Ironie: während für den Mainstream von Nutzern die Schnittstelle zu technischen Systemen mit natürlicher Spracheingabe deutlich einfacher wird (Stichwort Funktion als Interface), müssen Fachleute (=Programmierer) eine neue (Programmier?-)Sprache lernen, nämlich das Schreiben guter Prompts. Sie müssen ein Gespür für die KI entwickeln, sich einfühlen, Erfahrungen im Dialog mit der KI sammeln, um die besten Ergebnisse herauszukitzeln. Wer hätte gedacht, dass man eine “Programmier”aufgabe einmal so formulieren würde und Programmierer Fähigkeiten entwickeln müssen, die eher Therapeuten und Coaches zugeschrieben werden: anderen genau zuhören und sich auf sie und ihre Welt einlassen …
Ein zusammenfassendes Zwischenfazit
- chatGPT ist für uns eine Black Box, undurchschaubar, und so können wir nie genau wissen, woran wir sind.
- chatGPT ist Technik, die genutzt werden wird, wenn sie funktioniert, d.h. statistisch ausreichend verlässlich ist.
- chatGPT wird im Mainstream viele Aufgaben als Interface übernehmen und somit eine einfachere Schnittstelle zu technischen Systemen herstellen – um den Preis, dass wir uns des “Durchgriffs” und des Eintretens erwarteter Effekte viel weniger sicher sein können als bei anderen technischen Geräten. Gleichzeitig ist es so gut, dass wir es kaum noch von Menschen unterscheiden können. Kommunikation wird niemals mehr so sein, wie sie war, wir haben ab jetzt neue künstliche Gesprächspartner in noch nie dagewesenem Umfang.
- chatGPT erzählt uns Dinge, die wir nicht überprüfen können. Ob es “die Wahrheit” sagt, können wir nicht wissen und müssen vertrauen – eher wie bei Menschen und nicht so sehr wie bei Maschinen oder Computerprogrammen. Wir werden dazu neigen, dass wir aus der sprachlichen Vertrautheit auf Kompetenz schließen – das sollten wir möglichst vermeiden. Es werden Verfahren entwickelt werden, die uns mehr Sicherheit für verlässliche Antworten geben sollen. Dies wird immer nur eine Annäherung bleiben und Vertrauen nicht in dem Maße wie bei anderen Maschinen ersetzen können.
- chatGPT wird den neuen Beruf des KI-Einflüsterers schaffen, der versteht, wie man mit chatGPT spricht (also Prompts schreibt), um beste Ergebnisse zu erzielen.
Wenn dies stimmt, dann ergeben sich daraus einige Chancen und Risiken aus der Nutzung von KI:
Die Chancen
- Anwendungen wie chatGPT können Kreativität fördern, andere Formen von Kunst schaffen und viele Prozesse vereinfachen / beschleunigen.
- LLM können Forschung beschleunigen wie es z.B. heute schon AlphaFold macht, das Proteinstrukturen deutlich schneller identifiziert. Und auch sonst Zusammenhänge und schwache Korrelationen erkennen, die wir nicht sehen – man denke nur an die Auswertung von Röntgenbildern, die Prognose von Hauterkrankungen oder die Überwachung von komplexen industriellen Prozessen. Der Vorteil der KI liegt in der Geschwindigkeit, dem Umfang der bearbeitbaren Daten sowie der ganz anderen „Denkweise“ der LLMs [4]
- Schule, Lehre, Prüfungen werden sich damit auseindersetzen müssen, dass klassische Semester- und Hausarbeiten kaum noch als Leistung beurteilt werden können, da durch KI entstandene Texte nicht als solche identifiziert werden können. Lehr – und Prüfungsmethoden werden sich mit KI verändern und entwickeln müssen, Verbote werden nicht durchzusetzen sein. Die distanzierte Abprüfung von konditioniertem Wissen muss durch eine Wiederbelebung des Dialoges ersetzt werden.
- Ein besseres Verständnis von LLMs kann auch helfen, den menschlichen Geist besser zu verstehen, da strukturelle Ähnlichkeiten sichtbar sind und mit den LLMs einfacher als mit dem menschliche Gehirn experimentiert werden kann.
Die Risiken
- Die Entwicklung von immer größeren LLM kostet sehr schnell sehr viel mehr Geld, so dass sich in der Wirtschaft nur große Konzerne dies leisten können. Wir sehen im Moment einen Goldrausch auf erwartete Monopolgewinne über KI. Staatliche Stellen sollten überlegen, wie KI-Forschung öffentlich gefördert werden kann, um Monopole zu vermeiden.
- Wir werden in (Social) Media nicht mehr an den Inhalten unterscheiden können, was von Menschen und was von KI kommt. KI wird (noch viel mehr als bereits heute) Teil unserer Kommunikation werden. Bots, Fake News, Spam und Scams und die Polarisierung des öffentlichen Diskurs werden massiv zunehmen. Es ist zu vermuten, dass wir Mechanismen brauchen werden, um Authentizität / Urheberschaft zu identifizieren und so auch Verantwortlichkeit (wieder)herstellen zu können. Grundsätzlich ist davon auszugehen, dass diese Bearbeitung bzw. Bändigung des sprunghaft ansteigenden Sinnüberschusses durch KI (D. Baecker) und das Sicherstellen einer gesellschaftsdienlichen, positiven Entwicklung weltweit kaum zu kontrollieren sein wird. Wir benötigen interdisziplinäre Forschung, um in diesem Bereich möglichst gute, wenn auch nicht vollkommen zufriedenstellende Antworten zu finden.
- Die Spaltung der Gesellschaft durch unterschiedliches Wissen wird weiter zunehmen. Die meisten Menschen werde KI nutzen, weil es so nützlich ist, und damit immer weniger die eigene Urteilskraft trainieren. Wenige Menschen werden bestimmen, wie die KI designed und genutzt wird. Die Aufgabe, kritisches Denken und Umgang mit Medien zu schulen, wird noch wichtiger.
- Genau weil die KI für uns eine Black Box ist, kann es passieren, dass wir eine KI erschaffen, die sich selbst weiter optimiert, ohne dass wir es merken. Dies wäre ein gefährlicher „Point of no return“, da wir dann nicht mehr in der Hand haben, was passiert. Es gibt Experten, die davor warnen, und darum fordern, dass wir solange keine größeren LLMs entwickeln sollen, bis wir sie besser verstanden haben. Das kann lange dauern. Ein langsamerer Fortschritt bei der Entwicklung von LLMs wäre vielleicht besser, erscheint aber unwahrscheinlich, wenn gut finanzierte Konzerne oder auch Staaten Quick Wins und ihren Vorsprung für eine bestimmte Zeit als Wettbewerbsvorteil monetarisieren bzw. nutzen können. Daher sollte die Entwicklung wenigstens so kontrolliert wie möglich durch vertrauenswürdige, öffentliche Institutionen erfolgen. Und: wir sollten viel Geld in Forschung stecken, die KI-Sicherheit untersucht.
Bei der Betrachtung der Chancen und Risiken erscheint mir der Vorschlag des LAION gemeinnütziger e.V. aus Hamburg sehr sinnvoll, „ein internationales, aus öffentlichen Mitteln finanziertes Hochleistungsrechenzentrum zu gründen, das dem Open-Source-Gedanken verpflichtet ist und in Größe und Bedeutung mit dem CERN-Projekt vergleichbar wäre.“ Mehr Informationen zu der Petition, die ich auch unterschrieben habe, finden sich hier.
[1] Für mich fühlt sich das im Moment so ähnlich an wie die Grenze, die es auch gibt, wenn wir unser Gehirn und unser Bewusstsein verstehen wollen: auf “elementarer” Ebene, den Neuronen und ihren Mustern, verstehen wir (immer besser), wie sie arbeiten, es fehlt aber eine intuitiv greifbare Erklärung, wie man dann zu den Phänomenen einer anderen Qualität kommt: dem Bewusstsein oder eben bei GPT, das syntaktisch korrekte Texte produziert, die uns semantisch kohärent und sinnvoll erscheinen. Kann es sein, dass wir ab einem bestimmten Niveau in unseren Theorien nicht mehr darauf hoffen können, eine Intuition zu haben?
[2] In seinem Buch “Wahrscheinlichkeit und Wissenschaft” hat George Spencer Brown die Frage gestellt, wie man eine “echte” Maus von einer “simulierten” Maus unterscheiden kann, die exakt das Gleiche tut und von außen genauso aussieht wie die “echte” Maus. Wir können festellen: im Interface sind die beiden Mäuse gleich, man könnte auch sagen: funktional identisch und damit (für uns) gleich wirklich.
[3] Ein weiteres Beispiel: das „rohe“ GPT-4 Modell gibt tatsächlich recht zufällige Zahlen aus, wenn man es danach fragt. Wird es hingegen mit „Spezialtraining“ darauf ausgerichtet, bestimmte Dinge (nicht) zu sagen, z.B. Hassrede zu vermeiden, so sind danach die zufälligen Zahlen nicht mehr ganz so zufällig! Das Trainieren (=Verzerren) des Modells hat wohl immer Seiteneffekte, die wir nicht durchschauen – an Stellen, wo wir es nicht erwarten.
[4] Man denke nur daran, dass die besten GO Spieler bei AlphaGo das Gefühl haben, dass es „anders“ als sie operiert.