In diesem Beitrag geht es um die Verbesserung, oder Neuerfindung der klassischen Internet-Suche. Also jener Suche, welche relevante Resultate aus dem öffentlichen Internet liefert. Bis vor nicht all zu langer Zeit funktionierte stark vereinfacht formuliert so, dass man einen oder mehrere Suchbegriffe eintippte und im Anschluss eine lange Liste von Links auf Internetseite mit Vorschau bekam. Vereinzelt wurden Resultate berechnet, bspw. wenn man 4 + 1 als Suchterm erfasste, bekam man neben den üblichen Links zuoberst auch gleich das Resultat 5.
Die Firma OpenAI präsentierte mit ChatGPT gegen Ende 2022 ein Produkt, mit welchem man auf natürliche Art und Weise textlich (Chat) kommunizieren konnte und welches scheinbar alles wusste. Der Rest ist Geschichte.
Google, welche bis dahin eigentlich in Sache KI in der Forschung und Entwicklung als kommerzielle Firma als führend galt - und tatsächlich beruhte dieses ChatGPT mindestens auch auf Forschungsarbeit von Google (mehr zu Transformer später) - geriet unter Zugzwang und präsentierte nach dem einen oder anderen Stolpern mit Shakespeare Gemini als ernst zu nehmendes Konkurrenzprodukt.
Es gibt bis heute unzählige Beiträge und Studien zu diesen LLM-Produkten. Ich habe an dieser Stelle relativ früh, bereits im Dezember 2022, über erste Erfahrungen von ChatGPT geschrieben (Link). Seither ist einiges gegangen.
Obwohl die Modelle immer besser werden, eines blieb bis heute: Sie halluzinieren. Sowohl ChatGPT wie auch Gemini erzählen einfach manchmal wortwörtlich Märchen und tun so, als seien es Fakten.
Und damit zurück zur Einleitung. Es geht hier in diesem Beitrag um die klassische Internet-Suche. Also um die Suche nach Fakten. Nicht im Fokus sind die Fähigkeiten, kreativ zu sein. Geschichten zu erzählen. Individuelle Briefe zu schreiben. Oder neue Ideen für ein Projekt zu generieren. Bei solchen Tätigkeiten ist Halluzination ja durchaus hilfreich, wenn nicht gar erwünscht und die Modelle erfüllen durchaus den Zweck.
Die meisten Benutzer wissen, dass sie Antworten von ChatGPT, Gemini & Co. überprüfen müssen, wenn es wichtig ist, dass diese korrekt sind. Ich habe hier in einem LinkedIn-Kommentar zu diesem Verhalten das neue Verb "nachgooglen" vorgestellt. Es widerspiegelt die Tatsache die notwendig ist, wenn man solche Werkzeuge für wichtige Dinge nutzt.
Perplexity ist ein junges Startup aus den USA, gegründet 2022. Die beiden bekanntesten Investoren sind die Firma NVIDIA und der Amazon-Gründer Jeff Bezos. Perplexity fokussiert sich nach eigenen Angaben in erster Linie (aber nicht nur) genau auf die Internet-Suche und geht dabei, ebenfalls nach eigenen Angaben, einen neuen Weg.
Die grossen Sprachmodelle (Large Language Model, kurz LLM), sind, wie es der Name schon sagt, Modelle der Sprache. Sie konstruieren aus den Trainingsdaten anhand der Abfragen, sogenannte Prompts, Antworten. Dabei sind diese meist sprachlich "perfekt", aber inhaltlich nicht selten unpräzis bis komplett falsch. Die Modelle halluzinieren wie bereits erwähnt. Die Kombination von klassischer Suche mit einem LLM-Chatbot führt zu einem unbefriedigenden Gesamtergebnis. Dies nicht zuletzt deshalb, weil die Aussagen, die das LLM generiert, nicht immer mit den Aussagen übereinstimmen, welche die Quellen machen, welche die klassische Suche als relevant ausgegeben hat. Gemini bietet die Funktion an, dass man die Ergebnisse überprüfen kann. Das ist automatisiertes "nachgooglen". Eine nette Funktion die mindestens mir häufig anzeigt, dass zu gemachten Aussagen keine relevanten Referenzen gefunden wurden. Im Fachjargon nennt man den Prozess des automatisierten Nachprüfen von Ergebnissen eines Modells auch "Grounding". Man verifiziert die Aussagen gegenüber Quellen, die man als verlässlich einstuft. Dieser Grounding-Prozess ist wichtig für die Qualitätssicherung.
Exkurs Transformers: Die heutigen LLM basieren meist auf sogenannten Transformer. Diese Transformer hat Google Bain (das Team wurde 2023 in die Firma DeepMind integriert) 2017 erstmals der Öffentlichkeit präsentiert. Das Grundlagenpapier mit dem Titel "Attention Is All You Need" hat dabei gerade mal 15 Seiten: https://arxiv.org/pdf/1706.03762 - Reduce to the max! Das Georgia Institut Of Technology (Georgia Tech) hat eine Anwendung publiziert, welche diese Transformer-Architektur visualisiert: https://poloclub.github.io/transformer-explainer/
Damit zurück zu Perplexity und deren Ansatz.
Mein Verständnis der Funktionsweise von Perplexity ist wie folgt: Zuerst wird 1) mittels Sprachmodell und weiteren linguistischen Methoden der Kontext der Suche - des Prompts - interpretiert. Mit diesem erweiterten Kontext, man könnte wohl sagen, generierte Abfrage - werden im klassischen Sinne 2) die relevanten Quellen gesucht. Wie es scheint, sind für Perplexity jeweils maximal die ersten 8 Ergebnisse relevant. Das scheint empirisch zu sein, zumindest deckt sich dies mit meiner Erfahrung, dass ich in den meisten Fällen die gesuchte Information in den ersten 8-10 Ergebnisse finden. Ich muss selten weiterblättern. Diese 8 Quellen (manchmal sind es auch weniger) werden sodann 3) mit Hilfe von LLM (und weiteren Funktionen?) zusammengefasst.
Dadurch entstehen auf den ersten Blick scheinbar drei Vorteile:
- Die 8 (oder weniger) Quellen stehen direkt zur Verfügung, die ersten 3 direkt ganz oben wie bei einer klassischen Suche. Es sind verfügbare Quellen, deren Link funktioniert (bei mir hat jedenfalls bislang keiner nicht funktioniert).
- Die Zusammenfassung deckt sich insgesamt mit dem Inhalt aller Quellen (zusammen).
- Die Ergebnisse sind nicht halluziniert, da sie eine Zusammenfassung aus einer überschaubaren Anzahl an Quellen sind.
Dass Perplexity die Zusammenfassung in real-time anhand der Quellen macht zeigt sich zum einen daran, dass man Quellen entfernen kann und im Anschluss eine neu berechnete Zusammenfassung bekommt. Zum anderen kann man ihm eine bisher unbekannte URL angeben und Perplexitiy beantwortet die Frage umgehend anhand dieser Website.
Exkurs RAG: Das Vorgehen von Perplexity wird in allgemeiner Form auch als RAG, Retrieval Augmented Generation, bezeichnet. Durch Retrieval (klassische Suche/Erschliessung) gefütterte/angereicherte Text-Generierung. Perplexity geht in seiner Umsetzung meiner Ansicht nach weiter, als dass allgemein unter RAG verstanden wird. Man könnte es vielleicht als extended RAG bezeichnen.
Die rote Pille
Das klingt bis jetzt vielversprechend. Die rote Pille schluckt man, wenn man eine ihm bisher unbekannte Quelle angibt und dazu Fragen stellt oder einfach eine Zusammenfassung möchte. Und sie ist wirklich rot. Denn das Problem ist, dass die neue Quelle nicht gelernt (trainiert) wird. Sie wird offensichtlich einzig dazu verwendet, den sog. Prompt für ein Transformer-LLM zu füttern. Und die Visualisierung der Georgia Tech zeigt schön auf, weshalb das für neue Informationen nicht funktionieren kann. Schauen wir uns dazu ein konkretes Beispiel an. Die von mir entwickelte Python-Library Papys ist unbekannt und war kaum in den Trainingsdaten gängiger LLM und damit ein gutes Beispiel, da sie einen neuen deklarativen Ansatz für die Definition von Rest-API anbietet:
![]() |
Die erste Antwort von Perplexity ist erwartungsgemäss unzutreffend. Perplexity könnte hier allenfalls den Hinweis geben, dass er keine solche Library gefunden hat mit der Frage, ob ich anstelle von Papys vielleicht die Library PaPy meinte. Ich gebe ihm also den Link auf GitHub zur Library, die ich meine:
Jetzt hat man das Gefühl, dass er real-time auf das Repository zugreift, er extrahiert den Namen "asderix" als Benutzer. Die Beschreibung passt aber nach wie vor nicht auf das gegebene Repository.
Im Code liegt Wahrheit. Schauen wir, ob Perplexity ein korrektes Code-Beispiel erstellen kann. Denn das würde bedeuten, dass Perplexity die neue Quelle wirklich verstanden hat:
Und genau an diesem Beispiel sieht man gut, dass die Wahrscheinlichkeiten des nächsten Token aus dem Transformer zum Prompt aus dem GitHub-Repository zu einem FastAPI/Flask-Code führt, weil es dafür jede Menge Trainingsdaten gab. Die Papys-Syntax ist dem Modell dagegen völlig unbekannt (man könnte auch interpretieren, dass mein Rest-API-Ansatz wirklich neu ist. Aber das ist ein anderes Thema).
Diese Problematik zieht sich durch bei LLM, man sieht sie auch bei anderen Produkten. Bspw. ChatGPT:
Man merke: Ein Transformer-LLM kann keinen Text zusammenfassen, welcher komplett neue Informationen enthält. Die Zusammenfassung basiert immer auf dem gelernten (trainierten) Content. Für Texte, welche so oder in ähnlicher Form trainiert wurden, funktioniert es verblüffend gut. Was schon gar nicht funktioniert ist, dieses neue Wissen - aus dem Prompt, resp. der neuen Quelle - selber anzuwenden (dazu müsste es wieder zuerst umfassend trainiert werden).
Das ist generell ein Problem, welches bei RAG beobachtet werden kann. Die Prompts werden besser, die Ergebnisse aber nicht, wenn auch die besten Prompts nicht helfen.
Die menschliche Intelligenz funktioniert in Sache Sprache dahingehend anders, als dass Menschen eine wesentlich stärkere Abstraktion von Inhalt und Sprache im engeren Sinne habe. Zum einen können neue Informationen sofort verwendet werden und zum anderen kann mit der neue Information differenziert im Verhältnis zum bestehenden Wissen umgegangen werden. Das zeigt sich bspw. bei Kindern, die einen gelesenen Text zusammenfassen müssen. Sie können den Text auf 10 Sätze kürzen, auch wenn der Inhalt für sie neu ist und sie den Inhalt selber nicht abschliessend verstanden haben. Und dennoch vermischen sie dabei in der Regel die neuen Informationen nicht mit den alten und brauchen um den Text mit neuen Informationen zusammen zu fassen auch nicht dutzende, hunderte oder tausende Trainingsdaten - der eine Text reicht. Da ist etwas, dass es uns Menschen ermöglicht, bekannte Begriffe im neuen Kontext zu verwenden, ohne dass dabei die bisherig bekannte Information anstelle der neuen Information wiedergegeben wird. Kurz: Die Transformer liefern zwar erstaunliche Ergebnisse, kommen beim Sprachgebrauch aber nicht an die menschlichen Fähigkeiten der Sprach-Abstraktion heran. "Attention" scheint nicht alles zu sein, was man braucht.
Content-Less Language Model - CLLM
Perplexity scheitert zurzeit mit ihrem Ansatz, weil sie für den wichtigen Teil Transformer-LLM verwenden, welche gerade für diesen Teil nicht so geeignet sind. Mir gefällt grundsätzlich den Ansatz, so wie ich ihn verstanden habe. Die beiden Probleme der aktuellen LLM: Halluzination und Context bezogene Sprachverwendung, kommen aber auch bei Perplexity zum Vorschein.
Damit der Ansatz von Perplexity funktioniert, bräuchte es ein Sprachmodell, welches Texte zusammenfassen und Informationen extrahieren kann, ohne diese (inhaltlich) mit bestehenden Informationen zu vermischen. Kurz: Es bräuchte ein Content-Less Language Model, CLLM.
Mini-Modelle
Ein alternativer (allenfalls temporärer) Ansatz könnte sein, dass verstärkt auf Mini-Modelle gesetzt wird. Diese Mini-Modelle werden real-time mit wenigen Quellen trainiert und für die Informationsextraktion verwendet. LLM kommen im Anschluss zum Einsatz, um die Mini-Model-Ergebnisse textuell aufzubereiten. Dabei braucht es ein Supervisor-Model/Prozess, welcher das LLM befähigt, bspw. neue Begriffe aus dem Mini-Modell, zu integrieren. Dies kann durch ergänzende NLP-Prozesse erfolgen, welche solche Begriffe klassieren und mit Attributen wie der Wortart und Stemming etc. ergänzen.
Es bleibt spannend, die Weiterentwicklung von AI weiter zu verfolgen. Ich bin aktuell überzeugt, dass es keine grossen Sprünge mehr gibt in den aktuellen Problemfeldern, in dem man die Transformer-LLM einfach weiter vergrössert. Es braucht einen neuen grossen Wurf wie die Transformer 2017, oder eine weitere Verbesserung dahingehend, dass die LLM besser mit weitern Modellen/Ansätzen kombiniert und ergänzt werden können. Dies immer mit der Perspektive auf das Finden und Anwenden von Fakten. Wie erwähnt gibt es durchaus Anwendungsfälle, in denen Halluzination erwünscht ist. RAG ist aktuell in aller Munde. Wer weiss, hilft diese Motivation für einen nächsten grossen Sprung.
Disclaimer:
Die Aussagen in diesem Artikel zur Funktionsweise von einzelnen Produkten und Systemen beruhen auf meinen Beobachtungen und Einschätzungen. Sie wurden weder wissenschaftlich verifiziert noch von den jeweiligen Hersteller bestätigt oder dementiert.