Ich habe die Verkörperung von Gemini Live erlebt, um die Welt zu verstehen: Schock!

Es ist beunruhigend, eine KI in einem seltsam freundlichen Ton sprechen zu hören und mich zu bitten, das Chaos auf meinem Arbeitsplatz aufzuräumen. Ich bin ziemlich stolz darauf, aber ich denke, es ist Zeit, die wahllos verstreuten Werkzeuge aufzustapeln und das Kabelgewirr aufzuräumen.

Meine Schwester würde dem auch zustimmen. Aber das größere Ganze besteht darin, aktiv zu werden, nachdem die KI meinen Schreibtisch „sieht“, die Unordnung erkennt und Tipps zur Haushaltsführung gibt. Der KI-Chatbot Gemini von Google kann jetzt genau das. Und vieles mehr.

Die Geheimzutat ist hier ein aktuelles Funktionsupdate namens Project Astra. Die Entwicklung war jahrelang in Gang und die Einführung begann Anfang dieses Monats endlich. Die Grundidee besteht darin, eine alles sehende, alles hörende und offen intelligente KI auf Ihr Telefon zu bringen.

Google vermarktet diese Superkräfte unter einem eher uninspirierenden Namen: Gemini Live mit Kamera und Bildschirmfreigabe. Das Unternehmen begann mit der Entwicklung des von der DeepMind-Abteilung des Unternehmens entwickelten Produkts als universeller KI-Assistent. Es ist schade, dass der endgültige Name nicht ambitioniert ist.

Beginnen wir mit dem Zugriffsmodus. Diese Funktion steht den Benutzern jetzt zur Verfügung. Pixel 9 Und Galaxy S25. Wenn Sie jedoch ein Android-Telefon mit einem Gemini Advanced-Abonnement besitzen, können Sie auf das neue Toolkit zugreifen.

Das wären übrigens 20 Dollar pro Monat. Ich habe es auf den beiden oben genannten Telefonen ausprobiert und jetzt funktioniert es auch auf meinem OnePlus 13. Der süßeste Teil? Sie müssen keine technischen Hürden überwinden, um dorthin zu gelangen.

Um Gemini aufzurufen, genügt eine Kombination aus den Ein-/Aus-/Lautstärketasten oder ein Wischen über die Bildschirmecke. Unabhängig davon, welche App Sie ausführen, können Sie in jeder Ecke des Betriebssystems auf eine neue Kamera und Bildschirmfreigabe als Overlay zugreifen.

Die Welt um Sie herum verstehen

Ich richtete die Kamera auf ein Gemälde und stellte Fragen dazu. Gemini Live konnte es anhand der kräftigen Farbgebung und der Tierdarstellung eindeutig als Gemälde im Madhubani-Stil identifizieren.

Anschließend erteilte er mir eine kurze Lektion in Geschichte und den Unterschieden, die sich im Laufe der Jahre entwickelt haben. Die Informationen waren bis ins kleinste Detail korrekt. Glücklicherweise können Sie auch eine Textkonversation mit Gemini führen, wenn Sie sich an einem Ort befinden, an dem Sprachkonversationen unangenehm sein könnten.

Was mir an der neuen Kamera- und Bildschirmfreigabefunktion von Gemini Live am besten gefällt, ist, dass sie nicht zu gesprächig ist. Sie können jederzeit unterbrechen, was den Reiz „natürlicher“ Gespräche noch erhöht.

Ich habe Gemini in verschiedenen Szenarien ausprobiert. Darauf war ich nicht vorbereitet.

Seine Antworten sind normalerweise kurz, als ob er Ihnen die Möglichkeit geben (oder Sie sogar dazu anregen) möchte, eine Anschlussfrage zu stellen, anstatt eine übermäßig lange Antwort zu geben. Es zeichnet sich durch eine ganze Reihe visueller Themen und Szenarien aus, hat jedoch auch einige Fallstricke.

Google Lens kann noch nicht verwendet werden, was bedeutet, dass Gemini die Bilder, die es auf Ihrem Telefonbildschirm sieht, nicht mit entsprechenden Ergebnissen im Internet vergleichen kann. Darüber hinaus kann es nicht auf Echtzeitinformationen zugreifen, wenn Sie Gemini bitten, nach den neuesten Entwicklungen zu einem Thema oder einer Figur zu suchen.

Ich fragte ihn nach Pflanzenarten, Restaurantmenüs, der Datenerfassung von Anschlagtafeln und meinem Rezept für eine kürzliche Grippe. Gemini hat sehr gut abgeschnitten, besser als jeder KI-Chatbot, den ich bisher erlebt habe.

Die Wissensbank entfesseln: Eine eingehende Analyse

Als nächstes drängt Sie der Zwilling dazu, komplexe akademische Themen zu verstehen. Ich habe ein Buch über maschinelles Lernen in den Kamerarahmen gelegt. Gemini Live hat dies nicht nur erkannt, sondern mir auch einen Überblick über den Inhalt und die Hauptthemen des Buches gegeben. Diese Fähigkeit spiegelt ein fortgeschrittenes Verständnis des maschinellen Lernens und die Fähigkeit wider, komplexe Informationen zusammenzufassen.

Neugierig begann ich, die Seiten durchzublättern und stieß auf die Kapitelliste. Die KI erkannte den Fortschritt, hörte auf zu sprechen und fragte mich, ob ich an einem bestimmten Kurs interessiert sei, jetzt wo ich mir die Themenliste ansah. Diese Funktion demonstriert die Fähigkeit von Gemini, sich an Benutzerinteraktionen anzupassen und in Echtzeit darauf zu reagieren, was es zu einem leistungsstarken Tool für interaktives Lernen macht.

Ich war in diesem Moment völlig überrascht.

Ich habe die KI gebeten, einige komplexe Themen zu analysieren, und sie hat dabei beachtliche Arbeit geleistet. Dabei ist sie sogar über das Material auf der Seite hinausgegangen und hat auf ihre eigene umfangreiche Wissensdatenbank zurückgegriffen.

Als ich sie beispielsweise nach dem Inhalt der Einführungsseite von Bhisham Sahnis Roman „Tamas“ fragte, erkannte die KI den Hinweis auf den Sahitya Akademi Award richtig. Dann erwähnte er Einzelheiten, die auf der Seite nicht einmal aufgeführt waren, etwa das Jahr, in dem sie den renommierten Literaturpreis gewann, und worum es in dem Roman geht. Dies zeigt die Fähigkeit der KI, Kontexte zu verstehen und zusätzliche Informationen zu extrahieren.

Andererseits war das Lesen von Hindi mit Gemini Live schrecklich. Es war nicht nur ein schlechter Akzent, Gemini gab häufig Kauderwelsch und Unsinn von sich. Beim Versuch, Urdu, Persisch und Arabisch zu lesen, gelang ihm dies erheblich besser, allerdings verwechselte er häufig Wörter aus zufälligen Zeilen. Dies deutet darauf hin, dass die Leistung von Gemini je nach Sprache variiert und in einigen Sprachen möglicherweise erhebliche Verbesserungen erforderlich sind.

Bei meinem ersten Versuch mit Urdu-Poesie erkannte er nicht nur den Urdu-Text, sondern gab auch eine genaue Zusammenfassung des Gedichts. Die größte Herausforderung war wiederum die Erzählung. Die englische Version von Urdu zu hören, tat meinen Ohren wirklich weh. Dies unterstreicht die Bedeutung der Aussprache und Akzentqualität für das Benutzererlebnis, insbesondere beim Umgang mit Fremdsprachen.

zeichnet sich an unerwarteten Orten aus

Künstliche Intelligenz ist ein großartiges Werkzeug zur Problemlösung und es gibt viele Benchmarks, die dies beweisen. Ich habe es anhand von physikalischen Problemen im Zusammenhang mit Thermodynamik, elektrochemischen Gleichungen und Statistikproblemen getestet, die in einem handschriftlichen Notizbuch erschienen. Gemini Live hat bei diesen Aufgaben großartige Arbeit geleistet.

Auch bei kreativen Aufgaben war er hervorragend. Meine Schwester, eine Modedesignerin, zeigte eine ihrer Skizzen im Kamerablick und bat um Feedback und Verbesserungen. Gemini Live begann damit, das Design zu loben, Vergleiche mit den Designideologien einiger Modemarken anzustellen und einige Empfehlungen abzugeben. Diese Empfehlungen waren für die Verbesserung des Designs sehr hilfreich.

Als AI Plus einführte, beriet er meine Schwester auch über die besten Tools zur Umwandlung handgezeichneter Skizzen in digitale Konzepte. Er ergänzte diese Ratschläge mit hilfreichen Informationen zum Softwarepaket und den Bezugsquellen für Lehrmaterialien. Diese Ratschläge waren für die Optimierung des digitalen Designprozesses von unschätzbarem Wert.

Als ich ein Paar Duracell-Batterien in das Blickfeld der Kamera legte, wurden sie nicht nur genau erkannt, sondern ich erhielt auch Hinweise auf lokale E-Commerce-Plattformen, die sie mir innerhalb weniger Minuten liefern konnten. Diese Fähigkeit war besonders nützlich bei der Identifizierung von Produkten und ihrer lokalen Verfügbarkeit.

Die Dienste – Blinkit und Swiggy Instamart genannt – sind nur in Indien verfügbar und hauptsächlich für städtische Gebiete gedacht. Selbst in einem schwach beleuchteten Raum konnte es beim ersten Versuch ein Paar kabelgebundene Kopfhörer identifizieren. Dies zeigt die Fähigkeit künstlicher Intelligenz, Objekte unter unterschiedlichen Bedingungen zu erkennen.

Seine größte Stärke ist das Situationsbewusstsein.

Im Vergleich zu einem normalen Gemini-Chat oder dem, was Sie im Abschnitt „KI-Übersicht“ der Google-Suche finden, gehen Gemini-Live-Chats bei der Verbreitung von Wissen vorsichtiger vor, insbesondere wenn es sich um vertrauliche Informationen handelt. Mir ist aufgefallen, dass Themen wie Ernährungsempfehlungen und medizinische Behandlung mit zunehmender Zurückhaltung behandelt werden und die Benutzer häufig dazu verwiesen werden, sich an die entsprechende Expertenquelle zu wenden. Diese Vorsicht spiegelt den Fokus von Google wider, genaue und zuverlässige Informationen bereitzustellen, insbesondere in Bereichen, die spezielles Fachwissen erfordern.

Einige bekannte Herausforderungen

Mein wichtigstes Fazit ist, dass die Umwandlung von Projekt Astra in Gemini sehr beeindruckend ist. Es ist ein Blick in die Zukunft dessen, was Smartphones leisten können. Mit einigen Verbesserungen, Integrationen und anwendungsübergreifenden Workflows könnte die Google-Suche Ihnen das Gefühl geben, ein Relikt zu sein. Aber im Moment gibt es einige eklatante Mängel.

Bei einigen Gelegenheiten bemerkte ich, dass mein Gedächtnis verrückt spielte. Als die KI aufgefordert wurde, ein Fitnessarmband in der Kameraansicht zu identifizieren, identifizierte sie es korrekt als Samsung Galaxy Fit 3. Als ich jedoch eine Folgefrage stellte, wurde das Gerät fälschlicherweise als Huawei-Fitnessarmband identifiziert.

Er kann auch dreist lügen. Und ich würde sagen, mit vollem Vertrauen. Als ich sie beispielsweise bat, meine Rezension des Wearables zusammenzufassen, antwortete die KI, dass Digital Trends es noch nicht rezensiert habe. Tatsächlich wurde der Artikel vor einer Woche veröffentlicht.

Als Nächstes bat ich ihn, nach der Aktivierung der Bildschirmfreigabe einige Artikel auf meiner Autorenseite durchzusehen. Gemini hat die Geschichten ganz gut erklärt, hatte aber manchmal Probleme, den Kontext zu verstehen. So wurde beispielsweise fälschlicherweise angegeben, dass nur Intel und AMD Neural Processing Units (NPUs) für das Abzeichen qualifizieren könnten. Copilot+.

Andererseits heißt es in dem Artikel eindeutig, dass Qualcomm diesen Standard als erstes Unternehmen und damit noch vor der Konkurrenz erfüllt habe. Erst Ende letzten Jahres gelang es AMD und Intel endlich, mit einer neuen Prozessorreihe den Maßstab für KI-Chips zu setzen.

Mitten in einem Gespräch über einen Artikel hatte er erneut ein Gedächtnisproblem. Anstatt die besprochene Geschichte zusammenzufassen, sprach er weiter über den ersten Artikel, den er per Bildschirmfreigabe gesehen hatte. Als ich ihn mitten in seiner Erzählung unterbrach, korrigierte Gemini seinen Fehler.

Ein weiteres Problem, das mir bei nicht-englischsprachigen Erzählungen aufgefallen ist, war, dass Gemini Live mitten in der Erzählung zufällig die Stimme und Geschwindigkeit änderte. Es war äußerst nervig und die Aussprache war völlig roboterhaft und unterschied sich völlig von seinen menschenähnlichen Englischkenntnissen.

Auch bei glatten Linien treten bei der maschinellen Bildverarbeitung Schwierigkeiten auf. In einigen Fällen spuckte sie selbstbewusst falsche Informationen aus, und als sie aufgefordert wurde, sich zu korrigieren, äußerte die KI ihre Unfähigkeit, die aktuellsten Informationen zu dem Thema zu finden. Solche Szenarien kommen selten vor, aber Zwillinge machen immer noch Fehler.

Zusammenfassend denke ich, dass Gemini Live mit seiner Kamera und Bildschirmfreigabe einer der größten Fortschritte ist, die die KI bisher gemacht hat. Es handelt sich um eine der praktischsten und lohnendsten Anwendungen der generativen KI, die es bisher gibt. Er braucht nur ein wenig Abwechslung und eine Lösung für sein „selbstbewusster Lügner“-Syndrom.

Die Dinge sind jetzt definitiv auf dem richtigen Weg, und zwar überwiegend, aber wir sind noch einige entscheidende Meilensteine davon entfernt, der perfekte KI-Begleiter für techno-futuristische Träume zu sein.

Gemini