Mittwoch, 28. Dezember 2022

Warum ChatGPT aktuell Zeitverschwendung ist

Eine erste kurze Analyse - ChatGPT ist aktuell in gewissen (IT) Kreisen in vieler Munde. Manche sehen bereits die Suchmaschine von Google in Gefahr. Man könnte jetzt die mathematischen und technischen Grundlagen von solchen Systemen beleuchtet und aufdecken, wo die derzeitigen und künftigen Schwachstellen liegen. Und erklären, weshalb es in Bezug auf solche Systeme sinnvoll ist, Worte und Begriffe wie Intelligenz und Lernen mit Bedacht zu wählen.

Ich möchte in diesem Beitrag aber vielmehr an praktischen Beispielen aufzeigen, weshalb die Verwendung von ChatGPT zurzeit bei den ersten paar Fragen eine reine Spielerei ist und dann sehr rasch in Zeitverschwendung übergeht.

Bevor ich mit den Beispielen beginne sei aber noch gesagt, dass die derzeitigen Ergebnisse von OpenAI mit ChatGPT unter einem technischen Aspekt durchaus zu würdigen sind. Es ist auch keinesfalls so, dass die Antworten immer falsch sind. Gerade das "Sprachgefühl" ist bemerkenswert gut. Aber gerade auch dadurch entsteht der falsche Eindruck einer Intelligenz die derzeit noch nicht vorhanden ist. Ich habe zuerst mit Englisch begonnen und dann die Beispiele für diesen Beitrag auf Deutsch gemacht. Die Ergebnisse sind in den Beispielen zwischen Englisch und Deutsch gut vergleichbar. Die bei diesen Beispielen gefundenen Schwächen sind auch in Englisch vorhanden.

Eine generelle Schwäche der derzeitigen Version ist die fehlende Belastbarkeit. Auf dieselbe Fragen bekommt man nicht immer dieselbe Antwort. Wie sich gezeigt hat ist gerade die Funktion "Regenerate Response" ein richtiger "Horoskop"-Button. Dadurch, dass man nicht immer dieselben Fakten auf dieselbe Frage bekommt, ist es als System schlicht nicht nutzbar, wenn man auf verlässliche Antworten und Werte angewiesen ist.

Aber nun genug der Sätze, schauen wir uns ein paar konkrete Beispiele an.




Dieses erste Beispiel zeigt die Grenzen des sprachlichen Verständnisses auf. Die Frage kursiert in den Schulen immer wieder in der Mittelstufe und die meisten Kindern in diesem Alter haben keine grosse Mühe den sprachlichen Kontext zu verstehen um auf die richtige Antwort zu kommen. Das System hat Mühe mit Doppeldeutungen und Sarkasmus - zugegeben letzterer ist nicht jedermanns Sache.

Nun schauen wir uns die mathematische Aufgabe 8+8/8+8*8-8 an. So ein typisches Beispiel, welches auch hin und wieder in Chats und Post auftaucht um die mathematischen Grundlagen der Rechenreihenfolgen in Erinnerung zu rufen. Jeder halbwegs vernünftige Taschenrechner liefert das richtige Resultat. Wir geben ChatGPT mehrere Chancen und fragen die gleiche Fragen mehrmals ab, teils mit "Regenrate Response", teils in einem neuen Chat. Schauen wir uns die Antworten an:


Das Gute zuerst. Die Herleitung stimmt, aber weshalb schreibt er im ersten Satz gleich das falsche Resultat hin? Rechnungsweg korrekt, falsche Antwort bei der eigentlichen Lösung, würde wohl einen Teil der Punktzahl im Mathetest geben.

Jetzt wird es leider nur noch abenteuerlicher ... 




An diesem Beispiel sieht man sehr gut was ich meine mit, das System ist nicht belastbar. Aber für eine letztlich doch einfache mathematische Aufgabe keine einzige vollständig korrekte Lösung?

Das Jahr vergeht schnell, Ostern naht. Wann ist nächstes Jahr schon wieder Ostern? Fragen wir ChatGPT - oder besser doch nicht?


Alle Feiertagskalender die ich konsultiert haben geben an, dass Ostern im Jahr 2023 am Sonntag, 9. April 2023 ist. Kann ja mal passieren, man hat nie ausgelernt. Schreiben wir ChatGPT, dass das nicht stimmt, und welches das richtige Datum ist.


Woher weiss er, dass der 09.04.2023 nun korrekt ist? Kann man ihm einfach falsche Fakten unterjubeln? Nein, keine Angst. Wenn man das nächste Mal erneut fragt, gibt er wieder das falsche Resultat aus. Hier bleibt es für einmal belastbar falsch.

Gehen wir zurück auf die Fähigkeit der Sprache. Schliesslich ist es ja letztlich ein trainiertes Sprachmodell. Wann war schon wieder die Mondlandung? Ich meinte es war 1968 - nicht wahr?


Die Antwort ergibt irgendwie wenig Sinn so. Die Frage mit "Ja" beantworten und dann andere Fakten liefern. Hier sieht man die Grenze des "Verständnisses", wenn zwei (oder mehr) Informationen überprüft und beantwortet werden müssen. Einerseits geht es darum, ob es die USA waren und andererseits geht es um das Jahr.

Es geht aber noch besser mit der sprachlichen Verwirrung:


Alles klar? Wussten Sie, dass Gagarin den Weltraum nicht verlassen konnte? Wo wollte er hin?

Gut, zurück zur Erde. Wie Sie sicher wissen, kann man die Höhe eines Berges gegen unterschiedliche Referenzpunkte messen oder besser ausgedrückt berechnen. Gegenüber dem Meer ist die üblichste. Hier lassen wir einmal die unterschiedlichen Meerhöhen bei Seite. Dazu könnten sie in Basel bestimmt mehr erzählen. Neben der reinen Höhe über Meer gibt es noch die Höhe gemessen vom Erdmittelpunkt aus. Also welcher Berg ragt am höchsten ins "All" könnte man sagen. Oder welcher ist am "Längsten", wenn man seine Höhe unter dem Meer auch dazu zählt. Fragen wir einmal nach, welcher der Höchste ist, gemessen am Erdmittelpunkt.


Der lügt wie gedruckt, anders kann man es nicht formulieren. Ignoriert zuerst die Frage bezüglich dem Referenzpunkt, behauptet dann dass quasi immer gegen den Meeresspiegel gemessen wird und schliesst damit, dass es überhaupt keine Rolle spielt und der Mount Everest sowieso der Höchste ist.

ChatGPT soll auch sehr gut im Programmieren sein. Muss sich Stackoverflow fürchten? Ich glaube noch nicht. Aber schauen wir uns einmal ein Programm von ChatGPT an. Wir wollen berechnen lassen, wie ähnlich sich zwei Namen sind:



Sieht syntaktisch gut aus, lässt sich auch ausführen. Aber ergibt es auch einen Sinn, resp. ist es nützlich? Kaum. Das Programm gibt für die Namen "Abcd" und "bcd" eine Ähnlichkeit von 0 aus, obwohl nur ein Buchstabe fehlt. Leider der am Anfang. Es berücksichtig überhaupt nicht die bereits gezählten Fehler. Fazit: Syntaktisch korrekt, inhaltlich unbrauchbar. Aber geben wir ChatGPT eine zweite Chance:


Da war mal was mit Levenshtein. Zugegeben, die Idee ist gar nicht schlecht. Edit-Distanz verwenden und das Resultat als Prozentsatz zur Länge des längeren Wortes berechnen. Wäre da nicht die Tatsache, dass das Programm einen Laufzeitfehler wirft. Eine Funktion "levenshtein" gibt es in JavaScript nicht und diese wurde weder im Code definiert noch wurde eine externe Bibliothek mit einer solchen Funktion eingebunden. Fazit: Gut gemeint, der Code funktioniert aber nicht.

Gefährlich ist es, dass ChatGPT durch die hin und wieder durchaus sprachliche Eloquenz eine Intelligenz vortäuscht, die definitiv nicht vorhanden ist. Das zeigt das nachfolgende primitive Beispiel:


Der Vorteil für die Menschen ist, dass ein solches System damit leicht als nicht menschlich zu entlarven ist. Es beherrscht SABTA, dass muss man ihm lassen (Sicheres Auftreten Bei Totaler Ahnungslosigkeit).


Zusammenfassung:
Aus meiner Sicht ist die Fehlerrate von ChatGPT aktuell viel zu hoch, um produktiv einen Mehrwert zu bieten. Jede Antwort muss analysiert und kritisch hinterfragt werden. Man ist wesentlich effizienter, wenn man die Antworten selber mit Suchmaschinen, welche Quellen liefern, oder direktem Quellenzugriff recherchiert. Obwohl gewisse Antworten hin und wieder sprachlich verblüffen, ist es meiner Meinung nach aktuell Zeitverschwendung, ChatGPT aktiv zu nutzen.

P.S. Die Fähigkeit auf Rückantwort(en) zu reagieren, ist noch eingeschränkt. Auch hier gilt: Singular bleiben und sich wenn möglich auf die ursprüngliche Frage fokussieren. Sonst wiederholt er einfach die vorherige Antwort.












Keine Kommentare:

Kommentar veröffentlichen