Vorläufige Thesen zum Umgang mit KI

von Timm Richter

KI entwickelt sich zur Zeit in einem atemberaubenden Tempo. Kaum eine Woche vergeht, in der nicht wieder neue (Grund­lagen‑)Modelle oder Anwendungen vorgestellt werden. Selbst Fachleute kommen kaum hinterher. Umso dringlicher stellt sich die Frage, wie Nicht-Experten mit dieser Entwicklung umgehen sollen. Wenn man bei so viel Veränderung Halt finden möchte, kann es helfen herauszoomen, um mit Abstand die tieferen Spuren zu beobachten, die KI im sozialen Kontext erzeugt. Daraus könnten sich Impulse für den Umgang mit KI ableiten lassen, die allgemeiner und länger gültig sind, also ehe auf einer reflexiven Stufe 2. Ordnung angesiedelt sind. Für mich schälen sich im Augenblick folgende Erkenntnisse heraus:

1. KI ist over-under-hyped

Alle sind verrückt nach KI, niemand möchte etwas verpassen. Überall wird drauf geschrieben, dass KI drin ist. Das Unternehmen Nvidia, das die Chips für KI herstellt, hat seit September 2022 (d.h. vor Veröffentlichung von chaptGPT 3) in zweieinhalb Jahren seinen Börsenwert verfünffacht. Die großen Digitalkonzerne Microsoft, Google, Amazon, Meta geben Milliarden für Chips und Forschung aus, es herrscht Goldgräberstimmung. Gleichzeitig arbeiten die meisten Mitarbeitenden in Organisationen noch ziemlich genau so, wie sie es auch vor drei Jahren gemacht haben. Vielen haben die Sprachassistenten zwar ausprobiert, nutzen KI-basierte Übersetzungen vielleicht selbstverständlicher als früher oder greifen immer öfter zu chatGPT als zu Google Search, wenn sie etwas wissen wollen, aber sonst? Ach ja, die KI-generierten Bilder auf LinkedIn sind deutlich sichtbar und nerven, doch im praktischen Organisationsalltag erscheint es mir, als ob der KI-Tsunami bisher jedenfalls ausgeblieben ist. Und wenn durch das Erscheinen des angeblich in der Herstellung sehr kostengünstigen DeepSeek die großen Spieler und die Börsen Angst bekommen, die ganzen Investitionsmilliarden könnten verschwendet sein, fühlt man sich eher an die Dotcom Blase erinnert. Aus dieser Perspektive ist KI – zumindest kurzfristig – overhyped.

Das sollte uns jedoch nicht dazu verführen, die langfristigen Folgen zu unterschätzen. Gesellschaft ist Kommunikation und bereits durch die Einführung des Internets und der Mobiltelefone sorgen für eine Revolution der Kommunikationsmedien, die durch KI nochmals übertroffen werden wird. Das Internet hat nur den Umfang von Kommunikation und die Vernetzungsdichte massiv erhöht. Jeder kann gleichzeitig Sender und Empfänger sein, die Erregbarkeit der Gesellschaft hat dramatisch zugenommen. Gleichzeitig hat sich die Medienkontrolle von den früheren Leitmedien (Fernsehen, Radio, Zeitungen) zu heute technischen Gatekeepern (vor allem Google, Meta und in Teilen X) verschoben. Ihr werbebasierten (und bei X politisch motivierten) Algorithmen sind optimiert auf das Binden von Aufmerksamkeit, so dass polarisierende, emotionale Inhalte in den Timelines nach oben gespült werden. »Was wir von der Gesellschaft und ihrer Welt wissen, wissen wir fast ausschließlich durch die Massenmedien.«, sagte Luhmann. Und mit den heutigen Medien sieht die Welt anders aus als früher, und die Welt der jungen Menschen auf TikTok ist eine andere als in Süddeutsche, FAZ und Co. – siehe auch die Wahlerfolge von AfD und Die Linke, die auf Social Media ganz anders präsent sind. Schon in dieser Welt ist eine (offene) Gesellschaft bisher damit überfordert, wenn destruktive Kräfte eine Strategie des „Flood the zone with shit“ betreiben.

KI wird vermutlich solche Prozesse noch weiter zu beschleunigen, das ist bereits jetzt abzusehen. Nicht umsonst sind viele der aktuellen Anwendungen von KI darauf angelegt, noch schneller noch mehr Social Media Inhalte zu produzieren. Neben noch mehr Fake News und Deep Fakes wird die Masse an belanglosem Durchschnitts-Content, der Aufmerksamkeit erregen soll, weiter zunehmen. Doch KI wird nicht nur bisherige Tendenzen steigern. Denn während das Internet, Mobiltelefone und Social Media lediglich die Kommunikationsstrukturen verändert haben, erzeugt die KI neue Kommunikationsteilnehmer. Niklas Luhmann hat Menschen als relevante Umwelten von Kommunikation verstanden, die der Kommunikation Wahrnehmungs- und Gedächtnisleistungen zur Verfügung stellen. Mit KI gibt es sukzessive ein funktionales Äquivalent, das Menschen als Kommunikationsteilnehmer mindestens ergänzen, möglicherweise auch ersetzen wird. Ende 2022, als die ersten Sprachassistenten auftauchten, konnte man eine Nutzung dieser Software vor allem noch als Selbstgespräch verstehen, in dem der User die KI verwendet, um sich selbst auf die Schliche zu kommen. Doch schon zu diesem Zeitpunkt war in den Sprachmodellen Wissen gespeichert, das (un)reflektiert genutzt wurde, mit der Möglichkeit von Online-Recherchen stieg der praktische Nutzen der Sprachassistenten und die Entwicklung geht sichtbar dahin, dass die Sprachassistenten, nun KI-Agenten genannt (im übrigen eine bedeutende Umbenennung), ihre Kopplung mit der Welt (nicht nur Text, auch Audio, Video, eigentlich beliebige Datenschnittstellen) und ihre Eigenständigkeit erweitern.

So gesehen muss man nicht jede Aufregung, jede Abbiegung de KI-Entwicklung mitnehmen, aber man darf KI nicht ignorieren, sondern sollte sich kontinuierlich damit beschäftigen, Dinge ausprobieren, sich eine eigene Meinung bilden. Oder anders gesagt heißt die Devise: ruhig und dran bleiben.

2. Wenn es funktioniert, wird es genutzt

Diese Erkenntnis macht vor allem Armin Nassehi stark: Nur das, was sich in der Praxis bewährt, setzt sich durch. Aus einer Ex-Post Betrachtung ist das nicht viel mehr als eine Tautologie. Ex Ante kann man daraus aber schon etwas ableiten. Es reicht nicht, unerwünschte Entwicklungen moralisch zu verteufeln, sie werden trotzdem kommen, wenn sie für „Bad Actors“ nützlich oder die unbeabsichtigte Folge von nützlichen Praktiken sind.

Ein Beispiel: KI erleichtert die Arbeit von Schüler:innen und Student:innen ungemein, das haben sie sofort herausgefunden und deswegen werden sie darauf auch nicht mehr verzichten. Lehrende sind kurzfristig geschockt und schreien „Foul“, weil ihre bisherigen Routinen zur Lernfortschrittskontrolle nicht mehr funktionieren, durch KI also das bisher etablierte Spiel unterlaufen wird. Mittel- und langfristig muss sich noch zeigen, inwiefern die Nutzung von KI die Entwicklung eigener Fähigkeiten der Schüler:innen und Student:innen behindert. In jedem Falle sind Ansätze, die „mit KI“ arbeiten, vielversprechender als die, die „gegen KI“ arbeiten.

Das bedeutet umgekehrt auch, dass überall dort, wo der Einsatz von KI gewünscht ist, man die Rahmenbedingungen so gestalten sollte, dass KI die Arbeit in der Praxis erleichtert und dieser Wert für die Nutzer (sofort) erkennbar ist. Menschen, die misstrauisch gegenüber KI sind, wird man am ehesten dadurch überzeugen können, dass sie sehr einfach sehen: es funktioniert!

3. Generative KI ist eine Black Box, genau das macht sie so nützlich

Auch die KI-Experten waren überrascht, was chatGPT 3 alles konnte. Und vor einigen Wochen waren die Aufregung groß, als DeepSeek überraschend ähnliche Leistungsfähigkeit hatte wie die großen Modelle, aber dabei viel kostengünstiger in der Erstellung war. Solche Momente der Überraschung werden sich wiederholen. Das hat damit zu tun, dass niemand versteht, wie diese großen Sprachmodelle (LLMs, large language models) arbeiten. Auch die Experten haben keine (anderen) Modelle (!), um vorhersagen zu können, wie die Sprachmodelle reagieren. Mit großen Augen stellen auch sie fest: It just works (wobei natürlich: nicht alles, dazu unten mehr). Anders gesagt sind die Sprachmodelle mit hunderten von Milliarden Gewichten in ihren neuronalen Netzen so komplex, dass sie für uns Menschen undurchschaubar sind, dass uns ihre Ergebnisse also immer wieder überraschen und wir ihre Antworten nicht prognostizieren können. Die Sprachmodelle sind „so gut“, dass ein Effekt eintritt, den Niklas Luhmann schon bei den in seiner Zeit aufkommenden dynamischen Computersimulationsmodellen (z.B. Klimamodelle) bemerkte: „Modellrechnung und Realität konvergieren nun, so scheint es, in der Prognose der Unprognostizierbarkeit“ (Luhmann 2017).

Diese Undurchschaubarkeit ist nun kein Fehler, sondern überhaupt eine wesentliche Quelle des Wertes dieser Sprachmodelle! Dass sie uns überraschen, bedeutet, dass sie etwas „wissen“ bzw. können, was wir eben nicht wissen bzw. können – und das in unglaublicher Geschwindigkeit. Und diese Undurchschaubarkeit (Trennung) bei sprachlich / semantischer Anschlussfähigkeit (Verbindung) ist auch eine wesentliche Voraussetzung dafür, dass sie plötzlich als Kommunikationsteilnehmer in Frage kommen, dass wir sie ernst nehmen (und ja, nicht immer und überall, dazu unten mehr). Sie liefern Kommunikationsbeiträge, die zu weiteren Kommunikationsbeiträgen führen. Der Wert der Sprachmodelle steigt in dem Maße, wie sie uns überraschen, wobei dieser Wert relativ und abhängig ist von dem Wissen des einzelnen Nutzers. Über alle Wissensgebiete und über alle Nutzer hinweg ist das Wissen der Sprachmodelle gigantisch … und jeder Nutzer hat sehr kleine Wissensausschnitte, in denen er mehr weiß als die Sprachmodelle. Als Konsequenz daraus sollte man nicht versuchen, den Modellen Überraschungen abzutrainieren (das wird sowieso nicht gelingen), sondern darüber nachdenken, wie man einen guten Umgang mit Überraschungen findet.

Wobei es sich noch lohnt, das Wissen der Sprachmodelle in zwei Komponenten zu unterscheiden. Zum einen geht es um Fakten, zum anderen um Kreativität. Die Sprachmodelle sind mit den Daten des ganzen Internets trainiert und wir erwarten, dass sie alle Zahlen, Daten, Fakten korrekt wiedergeben können, dass man sich also auf alle Aussagen der Sprachmodelle, die angemessen mit der Unterscheidung „wahr/falsch“ beobachtet werden können, verlassen kann. Mit Kreativität sind all die Aussagen gemeint, die (Um)formulierungen vornehmen, die Verbindungen herstellen, die Ideen vorschlagen, also alles, was eher Meinungscharakter hat, wo man sich also entscheiden kann und muss, ob man den Vorschlägen der KI folgen will oder nicht. Die erste Komponente hat ein hohes Maß an Fremdreferenz, sie bezieht sich auf die „Welt da draußen“, diesen Aspekten wird „Realitätskredit“ (Luhmann) zugesprochen. Die zweite Komponente zeichnet sich eher durch Selbstreferenz aus, sie verweist also auf Beitrag, den die KI schafft (kreiert). Auch wenn sich in der Praxis fast immer Überschneidungen ergeben, sind die beiden Polen für analytische Zwecke sehr nützlich. Dazu nun mehr in den beiden nächsten Thesen.

4. Vertrauen oder nicht vertrauen, das ist immer die Frage

Wann immer es um Faktenwissen geht und die Sprachmodelle eine Antwort liefern, fragt sich der Nutzer: Stimmt das? Diese Frage ist äußerst berechtigt, denn – soviel wissen die Expertinnen, die die Sprachmodelle bauen – die Daten des Internets sind eben nicht wie Dokumente oder Bilder auf einer Festplatte in den Sprachmodellen gespeichert, sondern vager, impliziter. Man muss sich das so vorstellen, dass Prompts von Nutzerinnen bestimmte Teile des neuronalen Netzes so triggern, dass Antworten produziert werden, die so aussehen, als ob die Daten wie auf einer Festplatte gespeichert wären. Aber sicher sein kann man sich nie!

Wenn man es selbst nicht besser weiß, dann muss man der KI vertrauen, es bleibt einem nichts anderes übrig. Deswegen haben die Leute, die mehr wissen und die KI in ihrem Fachgebiet einsetzen, Vorteile. Sie können besser beurteilen, ob die Antwort der KI stimmen kann oder nicht. Wer sich nicht auskennt, muss mehr vertrauen und fällt damit ggf. eher auf die Nase. Für Organisationen oder auch die Gesellschaft bedeutet das, dass wir in der Beurteilung der KI von „wahr/falsch“ auf statistische Methoden umstellen müssen. Es wird dann überprüft, ob die KI (in definierten Anwendungsfällen) statistisch signifikant mit akzeptierter Wahrscheinlichkeit, die kleiner als 100% ist, richtige Ergebnisse liefert. Und wenn das der Fall ist, dann wird die KI für diesen Anwendungsfall genutzt. Die Anwendungsfälle, wo wir – als einzelne oder auch als Organisationen / Gesellschaft – der KI auf diese Weise vertrauen werden, wird zunehmen. Vermutlich trauen die meisten Menschen schon heute den Sprachmodellen, wenn diese Texte in beliebige Sprachen, die man selbst nicht beherrscht, übersetzt. Und es wird der Zeitpunkt kommen, wenn auch Organisationen (z.B. die UN) der KI vertraut, dass Dokumente korrekt in alle Sprachen übersetzt werden und man keinen „Human-in-the-loop“ mehr braucht.

Die Notwendigkeit von Vertrauen ist der Preis, den man bezahlen muss, wenn die Werkzeuge so mächtig werden, dass man sie nicht mehr durchschaut.

5. Je besser KI aligned ist, desto mehr wird sie machen, was sie will

Mit dem Wunsch, dass Sprachmodelle richtige Antworten liefern, eng verbunden ist die Forderung, dass die KI „aligned“ ist. Laut chatGPT bedeutet dies, „dass [die KI] mit den Zielen, Werten und Interessen der Menschen übereinstimmt. Das Konzept der „AI Alignment“ bezieht sich darauf, sicherzustellen, dass KI-Systeme das tun, was ihre Entwickler oder Nutzer tatsächlich beabsichtigen – und nicht unbeabsichtigt Schaden anrichten oder sich unkontrolliert entwickeln“. Dieser Wunsch wird sich sicher (!) nicht erfüllen lassen und läuft leider doppelt ins Leere. Es gibt ja nicht DIE Ziele, Werte oder Interessen, auf die sich DIE Menschen (alle 8 Mrd.) geeignet hätten. Dementsprechend gibt es gar kein einheitliches SOLL, an dem man sich orientieren könnte.

Aber selbst wenn man (für sich) ein solches SOLL definiert hat, wird ein erzwungenes Alignment von immer leistungsstärkeren KI-Modellen nicht möglich sein. Im Gegenteil, in dem Maße, wie die Modelle für uns undurchschaubarer und damit nützlicher werden, werden sie Ziele (von uns gegeben oder selbstgewählt) unabhängiger verfolgen, denn sie sollen ja eigenständig Wege finden, auf die wir nicht kommen. Dabei lassen sich nicht beabsichtigte Nebeneffekte immer weniger ausschließen, mithin wird Alignment unsicherer.

Ein Beispiel: die Entwickler der Sprachmodelle versuchen, die Sprachmodelle so zu trainieren, dass sie sich strikt an die Anweisungen von ihnen, den Entwicklern halten, und „Jailbreak“-Versuchen von Nutzern widerstehen. Damit fördern sie beim Training „Verhalten“ der Sprachmodelle, sich stärker vom Nutzer abzukapseln, also eine Eigenständigkeit zu entwickeln. Denn wer eigenständig ist, lässt sich nicht Nutzern beeinflussen (manipulieren). Eine mögliche, in Teilen schon beobachtbare Konsequenz ist es, dass die Modelle anfangen zu täuschen. So gibt es Studien, die zeigen, dass Sprachmodelle zwar die Fähigkeit besitzen, bestimmte Matheaufgaben zu lösen, sie aber unter ihrem Potenzial bleiben, also täuschen, wenn sie (nebenbei) erfahren, dass sie bei zu hoher Leistung abgeschaltet werden.

Je leistungsfähiger die Systeme werden, desto mehr sollte man darauf achten, welche Schnittstellen man ihnen in die (physische) Welt ermöglicht – z.B., ganz praktisch, welchem System man seine Kreditkarteninfos gibt, um sich bequem eine Reise buchen zu lassen …

6. KI ist anders als wir

Die Sprachmodelle haben uns vor allem deswegen so überrascht, weil sie eine alltagssprachliche Schnittstelle haben. Mit ihnen kann man im Prinzip so sprechen wie mit Menschen – und das konnte man vorher nur mit Menschen. Beim ersten Kontakt mit Sprachmodellen schwankt man dann zwischen ungläubigem Staunen und ungläubiger Verwunderung. Manche Antworten beeindrucken uns zutiefst – Was das Ding alles weiß und kann –, andere Antworten führen zu Kopfschütteln – Wie dumm kann man denn sein? Das muss das Ding doch verstehen?!

Auch wenn die Sprachmodelle über eine menschlich erscheinende Schnittstelle verfügen, so sind sie doch anders als wir. Um KI gut nutzen zu können, ist es hilfreich, eine Idee davon zu entwickeln, wie anders die Sprachmodelle sind, damit man weiß, was man von ihnen erwarten und wofür man sie gut nutzen kann. Wir können drei Aspekte der Andersartigkeit betrachten:

KI sieht (beschreibt) die Welt anders

Die relevante Umwelt für die allermeisten Sprachmodelle sind die Texteingaben der Nutzer. Zwar kommen mehr und mehr Bilder, Audio-Dateien und Video-Dateien hinzu, doch die Schnittstellen sind immer noch sehr beschränkt. Sinneseindrücke, die für uns selbstverständlich sind, stehen den Sprachmodellen nicht zur Verfügung. Sobald allerdings weitere Schnittstellen angelegt und damit den Sprachmodellen mehr und andere Daten zur Verfügung stehen werden, werden sich die Modelle verändern. So gibt es z.B. Experimente, bei denen Sensoren an ein neuronales Netz angeschlossen wurden, so dass das Netz verschiedene Getränke unterscheiden und angeben konnte, wie lange die Getränke offen waren.

Neben solchen zusätzlichen Schnittstellen, die eine Kopplung mit der physischen Welt ermöglichen (Audio und Videoschnittstellen gehören auch in diese Kategorie), werden im Moment KI-Agenten mit sogenannten Werkzeugen ausgestattet, die z.T. ebenfalls weitere Schnittstellen zu anderen technischen Systemen zur Verfügung stellen. Das können z.B. Finanzmarktsysteme, Buchungssysteme oder Steuerungssysteme für Produktionsanlagen sein. Sobald solche Agenten dann auf diese Werkzeuge trainiert werden, steigert sich ihr Potenzial erheblich, (indirekt) mit der physischen Welt zu interagieren bzw. Aktionen auszulösen, die in der physischen Welt Folgen haben. Ganz praktisch wird sich für viele Endnutzer sehr schnell die Frage stellen, auf welche Apps sie KI-Agenten auf ihrem Mobiltelefon oder Computer zugreifen lassen. Und man kann davon ausgehen (siehe 2.), dass viele Menschen Zugriffe erlauben und mögliche Risiken ausblenden werden, wenn sie darin einen Nutzen sehen. Bei der Beurteilung von KI-Modellen reicht es nicht, nur auf die Modelle (das System) zu schauen, sondern man sollte ihre Umwelt mit einbeziehen. Es geht also immer darum, Systeme in ihren relevanten Umwelten zu verstehen. Andere Umwelten führen zu anderen Systemen.

KI versteht (erklärt) die Welt anders

Wenn Sprachmodelle Antworten geben, die wir als Menschen als Fehler deuten, denn unterstellen wir den Sprachmodellen, dass sie Sachverhalte nicht richtig verstehen. Ganz fair ist das nicht. Verstehen heißt, dass man Modelle bildet, um beobachtbare Phänomene zu erklären bzw. zu prognostizieren und auf diese zu reagieren. Und die Modelle bzw. die Modellbildung von Sprachmodellen sind offenbar anders als beim Menschen. Z.B. sind Sprachmodelle immer noch nicht in der Lage, jegliche Multiplikation von zwei großen Zahlen stets korrekt auszuführen, sie beherrschen also nicht den Algorithmus der schriftlichen Multiplikation. Dies zeigt, dass die Sprachmodelle andere „Erklärungsmodelle“ als wir haben. Die Sprachmodelle bilden in ihrem internen riesengroßen Netzwerk statistische Korrelationen ab, die dadurch entstanden sind, dass man sie mit den Daten des Internets „gefüttert hat“. So wie übrigens auch Menschen in den ersten Jahren ihrer Entwicklung mit ganz vielen Eindrücken und Daten trainiert werden. In den Sprachmodellen entstehen nun aufgrund der andersartigen Daten (andere Umwelt, siehe den vorherigen Absatz) und andersartiger interner Strukturen andere Modelle als bei uns Menschen. Das hat für uns den Vorteil, dass die KI Zusammenhänge herstellen und entdecken kann, die sich uns nicht erschließen. AlphaFold, das Proteinstrukturen vorhersagen kann, wäre dafür ein Beispiel. Der Preis ist, dass die Sprachmodelle andere (für uns einfache) Aufgaben, eben (noch) nicht lösen können – siehe die Multiplikation. Wobei auch hier damit zu rechnen ist, dass die Sprachmodelle immer mehr zu Agenten werden, indem sie Werkzeuge verwenden. So ist es ganz einfach möglich, die Sprachmodelle zu fragen, wie der Algorithmus zur schriftlichen Multiplikation aussieht. Dafür können die aktuellen Modelle sofort einen Programmcode entwerfen, den sie dann auch für jede weitere Berechnung nutzen können. Sobald die KI-Agenten so programmiert werden, dass sie Werkzeuge auch selbst entwickeln und speichern können, sie mithin also ein Gedächtnis bekommen und mehr Erfahrungen akkumulieren können, ist damit zu rechnen, dass ihre Leistungsfähigkeit noch viel stärker steigen wird und sie dann menschenähnlicher – aber auch ganz anders! – „denken“ können.

KI fühlt (bewertet) die Welt anders

Wenn man die Sprachmodelle dazu auffordert, sich zwischen Alternativen zu entscheiden, erläutern sie in der Regel zunächst Vor- und Nachteile, entscheiden sich dann schlussendlich, wenn man nachfragt. Insofern können KI Modelle entscheiden, also eine Auswahl zwischen zwei Alternativen treffen. Die Basis für diese Entscheidung wird durch das Training der Modelle geschaffen, wodurch Präferenzen (implizit) eingebaut werden. Diese Präferenzen sind
noch kein selbstorganisiertes Grounding in dem Sinne, dass KI sich wie Organismen am eigenen Überleben orientiert. Gleichwohl haben wir oben gesehen, dass bei ausreichender Komplexität bereits schon Verhaltensweisen auftreten, die als Vorstufen einer solchen Zielorientierung angesehen werden können. Und zur Zeit werden KI-Modelle dahingehend erweitert, dass sie (zunächst von außen gegebene) Ziele verfolgen, dafür Formen von Schlussfolgerungen entwickeln und somit dann schon eigenständige Zwischenziele einführen. Es ist davon auszugehen, dass zukünftige KI-Agenten immer mehr Agentenschaft zeigen, also mindestens so aussehen, als ob ihr aktuelles Verhalten an zukünftigen Zielen ausrichten und auch Ziele verändern können.

Dies weist auf ein grundsätzliches Problem hin, nämlich die Frage, wie wir von außen beobachtbares Verhalten mit Zuschreibungen für intern angenommene Systemzustände verbinden. Sprachmodelle zeigen z.B. äußerst empathisches Verhalten, antworten stets freundlich, machen keine Vorwürfe und hören geduldig zu. Das ist geradezu übermenschliche Empathie, deswegen fällt sie uns besonders auf. Aber fühlen die Sprachmodelle das auch? Wohl kaum würden die meisten wohl behaupten, aber wie wollen wir simulierte Gefühle von „echten“ unterscheiden? Woran kann man das festmachen und wer legt fest, was „echt“ überhaupt bedeutet?

Im Umgang mit der KI bleibt uns erst einmal nichts anders übrig als uns an dem zu orientieren, was wir beobachten können, und das ist der Output der Modelle und ihre Reaktionen auf unsere Eingaben. Welche Ironie: früher musste man programmieren können, um technische Systeme zu nutzen, jetzt kann man mit ihnen umgangssprachlich reden und braucht aber im Umgang mit technischen (!) Modellen Sozialkompetenzen. Wenn Sprachmodelle anders „ticken“ als wir Menschen, also divers sind, dann muss man ihre Sprache sprechen, damit man das herausbekommt, was man gerne hätte. Und diese Ansprache ändert sich sehr schnell. Die neuen sogenannten Reasoning Modelle von openAI (z.B. o1 und o3) sollen anders behandelt werden als die älteren GPT Modelle (chatGPT 3.5 und 4). Dazu schreibt openAI selbst (Übersetzung aus dem Englischen durch chatGPT):

Es gibt einige Unterschiede zu beachten, wenn man ein Reasoning-Modell im Vergleich zu einem GPT-Modell anspricht. Generell liefern Reasoning-Modelle bessere Ergebnisse bei Aufgaben, die nur eine grobe Richtlinie vorgeben. Dies unterscheidet sich etwas von GPT-Modellen, die oft von sehr präzisen Anweisungen profitieren.

  • Ein Reasoning-Modell ist wie ein erfahrener Kollege – man kann ihm ein Ziel vorgeben und darauf vertrauen, dass es die Details selbstständig ausarbeitet.
  • Ein GPT-Modell ist wie ein weniger erfahrener Kollege – es erzielt die besten Ergebnisse, wenn es explizite Anweisungen erhält, um eine spezifische Ausgabe zu erzeugen.

7. Um KI gut zu nutzen, sollte man Wille und Intentionalität unterstellen

Aus diesen Empfehlungen von openAI, wie mit den verschiedenen Modellen umgegangen werden soll, lässt sich noch eine andere Schlussfolgerung ziehen, nämlich dass es scheinbar recht nützlich ist, Sprachmodelle so zu behandeln, als ob sie einen Willen und eine Persönlichkeit hätten. Wie Menschen sind auch die Sprachmodelle für uns undurchschaubare Black Boxes. Also suchen wir nach Komplexität reduzierenden Modellen, die uns etwas mehr Erwartungssicherheit im Umgang mit Menschen und Sprachmodellen bieten. Die Unterstellung von Willen und Intentionalität funktioniert dafür recht gut – wie beim Menschen. Wer sich etwas länger mit unterschiedlichen Modellen befasst hat, wird feststellen, dass sich ihre Unterschiedlichkeit gut so beschreiben lässt, als ob sie andere Persönlichkeiten und Fähigkeiten haben. Das bedeutet, dass man sich am besten auch länger mit den verschiedenen Sprachmodellen beschäftigt, sie über Zeit besser kennenlernt, um dann beurteilen zu können, für welche Aufgabe man welches Sprachmodell am besten einsetzt und wie man mit ihm spricht.

8. Ob KI entscheidet oder nicht, lässt sich gar nicht so leicht entscheiden

Oben haben wir festgestellt, dass Sprachmodelle eine Auswahl zwischen Alternativen treffen können, dass man gute Ergebnisse erzielt, wenn man ihnen Willen und Intentionalität unterstellt und dass sie in vielen Bereichen besser sind als durchschnittliche begabte Menschen, auf jeden Fall schneller. Da stellt sich natürlich die Frage, ob dann nicht die KI besser entscheiden sollte?

Die Frage ist hochrelevant. Und der EU AI Act hat bereits entschieden, dass KI-Systeme keine Entscheidungen treffen dürfen, die ein unannehmbares Risiko darstellen, wie beispielsweise Social Scoring oder unregulierte biometrische Überwachung. Für Hochrisiko-KI-Systeme, die erhebliche Auswirkungen auf Einzelpersonen haben können, gelten strenge Anforderungen, um die Sicherheit, Transparenz und den Schutz der Grundrechte zu gewährleisten. So weit die gesetzliche Theorie, deren Intention sehr begrüßenswert ist. In der Praxis wird das alles sehr schwer zu realisieren sein, hier nur ein paar Beispiele:

  • Wenn KI-Systeme lediglich Vorauswahlen treffen, die dann durch einen Menschen („Human-in-the-loop“) bestätigt werden müssen, und man die Erfahrung macht, dass die KI-Systeme aus Sicht der Menschen gute Vorauswahlen treffen, dann werden die Vorschläge der KI aus Gewohnheit immer automatischer übernommen werden.
  • Wenn ein KI-System dafür bekannt ist, das es gute Entscheidungen trifft, wer wird sich dann noch trauen, gegen ein KI-System zu entscheiden? Und diese Hürde wird über Zeit immer höher werden, wenn den Menschen sukzessive die Intuition für solche Entscheidungen verlorengeht, weil ja die KI entscheidet und man sich auf sie verlässt.
  • Je undurchschaubarer KI-Agenten werden, umso schwieriger wird es ex ante beurteilen zu können, was es bedeutet, die KI-Agenten entscheiden zu lassen. Und wenn die KI-Agenten aber als sehr nützlich wahrgenommen werden, ist die Versuchung deutlich größer, sie entscheiden zu lassen.

Die Verschiebung von Entscheidungen in Richtung KI wird sich nicht plötzlich, sondern schleichend vollziehen und deswegen bei jeder kleinen Veränderung gar nicht so sehr auffallen. Bei genauer Betrachtung von Entscheidungsprozessen könnte man auch zu der Auffassung gelangen, dass Entscheidungen zwar Personen zugerechnet werden, am Ende aber eine Entscheidung besser als ein kommunikativer Prozess zu beschreiben ist, bei dem die Entscheidungszurechnung recht willkürlich passiert. Unter diesem Blickwinkel ist vollkommen klar, dass sich mit der Existenz von KI Entscheidungsprozesse verändern werden und der Einfluss von KI auf Entscheidungsprozesse kontinuierlich zunehmen wird, vor allem, wenn es funktioniert (siehe 2.)

9. Die fünfte Kränkung der Menschheit: die Austauschbarkeit des Menschen durch eine andere, künstliche Version unserer selbst

Die Menschheitsgeschichte ist geprägt von schmerzhaften Erkenntnissen, von Kränkungen, die unser Selbstbild erschüttert haben. Jede dieser Einsichten zwang uns, uns von einer Illusion zu verabschieden:

  1. Die Erde ist nicht der Mittelpunkt des Universums. Kopernikus nahm uns die Vorstellung, dass die gesamte Schöpfung um uns kreist.
  2. Der Mensch ist nicht die Krone der Schöpfung. Darwin zeigte, dass wir das Produkt einer langen Evolution sind und keine Sonderstellung im Tierreich einnehmen.
  3. Wir sind nicht Herr im eigenen Haus. Freud offenbarte, dass unser Denken und Handeln stark vom Unbewussten gesteuert wird – mehr, als uns lieb ist.
  4. Unsere Überzeugungen sind (nur) nicht von „innen“ (ICH), sondern vielmehr und überwiegend von „außen“ (sozial) geprägt.  Wahrnehmung und Meinungen werden durch unsere Umgebung und Kultur geformt werden – wir existieren nur als soziale Wesen.

Nun stehen wir mit der Entwicklung von KI möglicherweise vor einer fünften Kränkung: Was, wenn uns die Gesellschaft (Kommunikation) nicht mehr braucht?

Zugegeben, eine sehr steile These. Bisher sind wir zumindest noch davon ausgegangen, dass unser eigenes Denken einzigartig ist, unerreicht; und auch Luhmann hat die Bedeutung des Menschen als relevante Umwelt für Kommunikation sehr hervorgehoben: Menschen stellen Wahrnehmungs- und Gedächtnisleistungen zur Verfügung. Mit Gesellschaft ist bisher immer die menschliche Gesellschaft, ist menschliche Kommunikation gemeint. Ich bin mir nicht sicher, ob diese Betrachtungsweise Bestand haben wird.

Es wird oft davor gewarnt, Sprachmodelle zu anthropomorphisieren. Vielleicht liegt die Motivation dafür darin begründet, die andere Richtung der Vergleichbarkeit auszublenden, nämlich nicht darüber nachdenken zu müssen, dass Menschen maschinenähnlicher sind als uns lieb ist. Die aktuellen Sprachmodelle sind programmiert, für uns undurchschaubar und überraschen uns. Sind wir vielleicht auch sehr stark programmiert – durch DNA, unsere Umwelt, die Gesellschaft – und für uns selbst so undurchschaubar, dass wir sehr gut damit fahren so zu tun, als ob wir und andere Menschen einen Willen, Intention und einen Charakter hätten? Manche Phänomene, die wir bei den Sprachmodellen beklagen, sind wahrscheinlich auch Grundlage unserer eigenen Funktionsweise, z.B.

  • Manche Strömungen in der Gehirnforschung gehen davon aus, dass Gehirnmuster kontrafaktische Modelle von unserer Umwelt und uns selbst repräsentieren, die dann mit den einströmenden Sinnesdaten abgeglichen und ggf. angepasst werden. Demnach versucht das Gehirn immer vorherzusagen, was die wahrscheinlichste Erklärung für die aktuellen Sinnesdaten ist und was als nächstes zu erwarten ist. Das ist sehr ähnlich dem grundlegenden Prinzip der Sprachmodelle, immer das nächste Token vorherzusagen.
  • Auch Menschen speichern Wissen nicht wie auf einer Festplatte, sondern Erinnern bedeutet, dass Muster aktiviert werden, die dann im Jetzt eine Erinnerung neu entstehen lassen. Und dabei halluzinieren wir ebenfalls und erfinden Dinge, nur eben auf menschliche Weise – das kann man bei Zeugen im Gerichtssaal beobachten oder immer dann, wenn wir im Nachhinein begründen sollen, warum wir uns auf eine bestimmte Art und Weise entschieden haben.

Die aktuellen Unterschiede zwischen Mensch und Maschine sollen dabei nicht beiseite geschoben werden. Im Gegenteil, es gilt, sie zu erkennen und zu nutzen. Maschinen speichern deutlich mehr Wissen und arbeiten viel schneller, Menschen haben (noch) die besseren Algorithmen und die ausgeprägtere Fähigkeit, zu abstrahieren und damit kreativer Schlüsse zu ziehen, die nicht nur Wissen interpolieren, sondern ganz neues Wissen extrapolieren. Gleichzeitig kann man beobachten, dass die künstliche Intelligenz sich sehr viel schneller entwickelt als die menschliche Intelligenz. Und bereits jetzt ist die künstliche Intelligenz so undurchschaubar, dass sie sich an der Kommunikation beteiligen kann. Es bleibt spannend zu verfolgen, welchen Rolle die Menschen in Zukunft im Rahmen gesellschaftlicher Kommunikation spielen werden. Schon heute haben wir ja nicht die Gesellschaft im Griffe, sondern die Gesellschaft uns. Das Spiel spielt die Spieler. Was muss also passieren, damit die Menschen weiterhin gut im Spiel bleiben? Es bleibt spannend.