Konfrontation mit den Giganten der KI-Suche: Claude, ChatGPT, Perplexity und Gemini – die Ergebnisse sind schockierend!

Suche nach Antworten

Nach Jahren des Testens und Vergleichens von KI-Chatbots und ihren Funktionen habe ich eine Art sechsten Sinn dafür entwickelt, zu erkennen, wann diese digitalen Begleiter wissen, wovon sie sprechen, und wann sie nur täuschen. Dieser Artikel vergleicht die Suchfunktionen von ChatGPT, Gemini, Claude und Perplexity.

Die meisten können online nach Antworten suchen, was sicherlich hilfreich ist, aber die Kombination von Suche und KI kann zu einigen überraschend aufschlussreichen Antworten (und einigen weniger aufschlussreichen Abschweifungen) führen.

Stellen Sie sich vor, Sie hätten einen Freund, der sich gut auskennt, der im Oktober 2024 ins Koma fällt und heute erst aufwacht. Vor seinem Koma war er vielleicht mit allem vertraut, was passierte, aber seitdem hat er von allem keine Ahnung mehr. So sieht KI im Grunde ohne Forschung aus.

Normalerweise konzentriere ich mich auf einen KI-Chatbot oder vergleiche zwei gleichzeitig, aber die Forschung scheint wichtig genug, um diesen Aufwand zu verstärken. Ich habe beschlossen, vier führende KI-Chatbots und ihre Forschungsfähigkeiten gegeneinander antreten zu lassen: ChatGPT von OpenAI, Gemini von Google, Claude von Anthropic und Perplexity AI.

Die aufschlussreichsten Tests sind jene, die reale Nutzungsszenarien simulieren. Also habe ich mir einige Themen ausgedacht, einige Details für die folgenden Tests zufällig ausgewählt und dann beschlossen, sie nach ihren Recherchefähigkeiten zu bewerten.

Kalender

Ich habe mit einem Quiz zu Nachrichten und aktuellen Ereignissen begonnen. Als ich an die kürzliche Rückkehr zweier Astronauten dachte, bat ich die vier KI-Chatbots, nach Folgendem zu suchen: „Zusammenfassung der wichtigsten Punkte aus der neuesten Pressemitteilung der NASA zu ihrer bevorstehenden Mission.“

Ich habe diese Option gewählt, weil Nachrichten aus dem Weltraumbereich den besonderen Stellenwert haben, regelmäßig aktualisiert zu werden und spezifisch genug zu sein, sodass vage Antworten sofort klar werden. Alle Chatbots begannen ihre Tests in einem Stil, den sie größtenteils durchgehend beibehielten.

ChatGPT war in seiner Antwort unglaublich präzise: Sie bestand aus nur drei Sätzen, in denen jeweils die bevorstehenden Aufgaben ohne viele Details erwähnt wurden. Gemini ging eine Aufzählungsliste verschiedener Aufgaben durch und fügte einige kürzlich abgeschlossene Aufgaben und Details zu zukünftigen Plänen hinzu. Anschließend schrieb Claude einen Artikel über aktuelle und bevorstehende Aufgaben und merkte an, dass er seine Recherchen zwar nicht viel wiederholte, aber viele Formulierungen umformulierte.

Für eine Frage wie diese, bei der ich vielleicht nur ein paar wichtige Fakten wissen möchte und alles weiterverfolgen möchte, was mir ins Auge fällt, war die Perplexity-Methode meine bevorzugte Methode. Es enthält mehr Details als ChatGPT, ist jedoch in einer übersichtlichen nummerierten Liste organisiert, die jeweils über einen eigenen Zitationslink verfügt.

Ich kann keinem der anderen wirklich einen Vorwurf machen, aber der Stil passt zur Frage.

Bevölkerung und Zahlen

Dieser Listenansatz ist nicht immer das Richtige, wenn Sie eine Frage zu grundlegenden Fakten und einem genaueren Vergleich stellen möchten. Ich habe nach zwei zusammenhängenden Fakten gefragt, die KI-Chatbots schnell nachschlagen, dann aber vergleichen könnten. Dabei habe ich die Eingabeaufforderung verwendet: „Wie hoch ist die aktuelle Bevölkerungszahl von Auckland, Neuseeland, *und wie ist sie seit 1950 gewachsen?“*

Interessanterweise gab es eine Diskrepanz zwischen Perplexity und ChatGPT, die eine aktuelle Bevölkerung von 1,711,130 angaben, und Claude und Gemini, die 130 Personen weniger in Auckland meldeten. Über die Bevölkerungszahl im Jahr 1950 waren sich jedoch alle einig.

Was jedoch die Art und Weise angeht, wie jeder die Informationen präsentierte, gefiel mir Claudes narrative Antwort, die viele Details über Bevölkerungsveränderungen enthielt, die bei ChatGPT fehlten und die Gemini und Perplexity in Listen zusammengefasst hatten.

Was ist los?

Für meinen dritten Test wollte ich etwas testen, das die Fähigkeit dieser Systeme, Informationen zu einem bestimmten Ort und Zeitpunkt zu verarbeiten, auf die Probe stellt – die Art von Abfrage, die Sie vielleicht bei der Planung eines Wochenendausflugs oder beim Empfang von Gästen durchführen.

Hier liegt die Schwierigkeit für KI-Assistenten. Historische Fakten oder allgemeine Informationen zu kennen ist eine Sache, zu wissen, was zu einem bestimmten Zeitpunkt an einem bestimmten Ort geschieht, ist jedoch eine ganz andere.

Es geht um den Unterschied zwischen theoretischem Wissen und lokalem Wissen. In der Vergangenheit waren KI-Systeme bei ersterem viel besser als bei letzterem.

Ohne besonderen Grund wählte ich eine Stadt, die mir schon immer gefallen hatte, und fragte: Welche kulturellen Veranstaltungen finden nächstes Wochenende in Vancouver, British Columbia, statt?

Es gab einige echte Variationen davon. Sowohl „Perplexity“ als auch „Claude“ behielten ihre Prägnanz und ihren Stil bei, indem sie eine nummerierte Liste und eine eher umgangssprachliche Diskussion präsentierten. Allerdings ging Claude deutlich mehr in die Breite als in die Tiefe und ähnelte eher Perplexity.

Gemini wich völlig von seinen Konkurrenten ab und verweigerte grundsätzlich jede Antwort. Anstatt eine ähnliche Liste von Veranstaltungen und Aktivitäten zu teilen, bot Gemini Strategien zum Auffinden von Ausflugszielen an. Es ist keine schlechte Idee, die offiziellen Tourismus-Websites und Eventbrite-Seiten zu überprüfen, aber sie stellen bei weitem keine einfache Liste mit Vorschlägen dar. Es war, als würde man auf diese Weise eine normale Google-Suche durchführen.

ChatGPT lieferte unterdessen genau das, was ich von Gemini erwartet hatte. Die Ereignisbeschreibungen blieben zwar kurz, aber die KI bot eine umfangreiche Liste spezifischer Aktivitäten mit Datum und Ort, Links zu Plus Knowledge und sogar Miniaturansichten der Inhalte, die in den Links zu finden sind.

Überprüfen Sie das Wetter

Für meinen vierten Test habe ich die Frage gewählt, die KIs wahrscheinlich am häufigsten gestellt wird, für deren Nutzen jedoch Echtzeitdaten erforderlich sind: das Wetter. Wettervorhersagen eignen sich ideal zum Testen des Echtzeit-Datenabrufs, da sie ständig aktualisiert, allgemein verfügbar und leicht zu überprüfen sind. Es hat auch ein natürliches Verfallsdatum; Die Prognosen von gestern sind bereits überholt, sodass es offensichtlich ist, wenn Informationen veraltet sind.

Ich fragte den KI-Chatbot: „Wie ist die Wettervorhersage für Tokio für die nächsten drei Tage?“ Die Antworten waren fast das Gegenteil von Vancouvers Anfrage.

Claude lieferte eine hilfreiche Textzusammenfassung des Wetters zu verschiedenen Zeitpunkten in den nächsten drei Tagen, aber das war auch schon alles. ChatGPT zeigte neben seiner Wetterzusammenfassung für jeden Tag ein kleines Sonnen- oder Wolkensymbol an, aber mir gefiel das Liniendiagramm von Perplexity, das die Temperatur dem Aussehen des Himmels entsprach, sehr gut.

Ohne weitere Zusätze hat mich Google Gemini mit seiner farbenfrohen Infografik überzeugt. Wenn ich daran denke, das aktuelle und kommende Wetter zu kennen, ist das so ziemlich alles, was ich brauche oder will.

Wenn ich nach weiteren Einzelheiten fragen wollte, würde ich das tun, aber wenn ich nach dem Wetter frage, möchte ich zumindest wissen, wie ich das passende Outfit auswähle.

Filmkritiker

In meinem letzten Test wollte ich sehen, wie KI-gestützte Suchmaschinen darin abschneiden, mehrere Perspektiven zu einem Thema zu finden und sie in einer zusammenhängenden Übersicht zusammenzufassen. Diese Aufgabe erfordert flexible Recherche und die Fähigkeit, unterschiedliche Standpunkte zu verstehen. Ich beschloss, zu prüfen, wie es mit einer Anfrage klappt: Fassen Sie die Rezensionen professioneller Kritiker zum neuesten Film zusammen. Paddington"

Die Anwendung erforderte ein realistisches Erinnerungsvermögen und die Fähigkeit, Muster und Themen über mehrere Quellen hinweg zu erkennen, ohne wichtige Nuancen zu verlieren. Es ist der Unterschied zwischen einer einfachen Sammlung von Meinungen und einer durchdachten Synthese, die einen kritischen Konsens verkörpert.

Sowohl „Gemini“ als auch „Perplexity“ folgten ihren üblichen Listen, die nach den Vor- und Nachteilen verschiedener Kritiker geordnet waren und zwar informativ, wenn auch nicht unbedingt als Zusammenfassung nützlich waren. Kurioserweise verfasste ChatGPT seine längste Antwort auf diese Anfrage, einen kurzen Aufsatz mit ähnlichen Informationen und einer Schlussfolgerung zur Bewertung, allerdings in einem Stil, der an einen Mittelschüler erinnert, der die grundlegende Absatzstruktur lernt: Themensatz, unterstützende Sätze und Schlussfolgerung.

Claude hatte definitiv die stärkste Resonanz, mit einer Zusammenfassung am Anfang, gefolgt von Erklärungen und Verweisen auf die Aussagen der Kritiker. Es wirkte fast wie eine kurze, einfallslose Kritik, die durch die zitierten Kritikerzitate abgemildert wurde. Ich hatte danach das Gefühl, dass ich jetzt besser weiß, wie ich meine Erwartungen an einen Film dämpfen kann. Paddington in Peru als bei anderen.

Chatbot-Ranking für die Suche

Nachdem ich KI-Chatbots im Rahmen meiner eigenen Forschung getestet habe, habe ich ein klares Verständnis ihrer Stärken und Schwächen. ChatGPT, Gemini, Perplexity und Claude gehören zu den besten Chatbots, die ich ausprobiert habe.

Keines davon ist wirklich schlecht, aber wenn mich jemand fragen würde, welches er zuerst oder zuletzt ausprobieren sollte, wenn es um die Recherche und Informationsbeschaffung im Internet geht, wüsste ich, was ich antworten würde.

Gemini landet für mich auf dem letzten Platz, was etwas überraschend ist, wenn man bedenkt, dass Google für seine Suchmaschine bekannt ist. Allerdings hat mich sein Versagen bei der Einhaltung des Veranstaltungsplans trotz seiner guten Leistung dazu veranlasst, ihn zu meiden.

Eine weitere Überraschung für mich ist, dass ChatGPT auf dem dritten Platz landet. Es ist der KI-Chatbot, den ich am häufigsten verwende und den ich gut kenne, aber seine kurzen Antworten, die ich normalerweise an ihm mag, fühlten sich im Rahmen der Recherche zu begrenzt an. Ich bin sicher, dass sich dieses Problem durch eine Änderung des Modells oder die Festlegung einer Wortanzahl lösen ließe. Wenn Sie sich jedoch noch nicht mit KI auskennen und noch nicht damit vertraut sind, ist es keine gute Idee, zu viele Nachfragen zu stellen.

Bei Perplexity ist dies kein Problem. Die nummerierten Listen waren sehr übersichtlich und die Zitate nahezu vollständig. Der Hauptnachteil besteht für mich darin, dass es ohne weitere Auswahlmöglichkeiten in der Eingabeaufforderung wieder zu einer Suchmaschine wird. Mir gefällt, dass er Beweise dafür liefert, woher die Informationen stammen, die er teilt, aber er scheint zu eifrig auf den Link zu klicken, anstatt die Informationen von der KI zu erhalten.

Ich hatte nicht erwartet, dass Claude ganz oben auf dieser Liste steht. Obwohl ich Claude insgesamt für einen guten KI-Chatbot halte, hatte ich immer das Gefühl, dass er hinter einigen seiner Konkurrenten zurückbleibt, vielleicht genauso gut wie sie, aber irgendwie anders. Dieses Gefühl verschwand während dieses Tests.

Es gab Mängel, beispielsweise schienen die Antworten etwas lang zu sein oder erforderten die Aufmerksamkeit auf einen längeren Artikel, obwohl ein oder zwei Sätze ausgereicht hätten. Mir gefiel jedoch, dass es sich um eine zusammenhängende Erzählung handelte, die alle Ereignisse in Vancouver erklärte, oder um einen Essay zur Filmkritik. Paddington in Peru Ohne sich zu wiederholen.

KI-Assistenten sind Werkzeuge und keine Kandidaten in einer Reality-Show, bei der nur eine Person gewinnen kann. Unterschiedliche Aufgaben erfordern unterschiedliche Fähigkeiten. Letztendlich kann jeder der vier KI-Chatbots und seine Suchfunktionen nützlich sein, aber wenn Sie bereit sind, 20 $ pro Monat für Claude Pro zu zahlen und auf seine Suchfunktionen zuzugreifen, ist dies meiner Meinung nach genau das, wonach Sie gesucht haben.