Googles Gemini könnte schon bald Ihre Arbeit erledigen.

Berichten zufolge arbeitet Google an einem umfassenden Upgrade seines generativen KI-Assistenten. GeminiDies könnte es von einem bloßen Konversationsassistenten zu etwas entwickeln, das einem echten Geschäftsagenten näherkommt. Eine kürzlich durchgeführte experimentelle Analyse des App-Codes von Google durch [Name des Autors/der Autorin] 9to5GoogleEntwickler haben Code-Schnipsel entdeckt, die auf eine intern als „Bildschirmautomatisierung“ bekannte Funktion hinweisen. Dies lässt vermuten, dass Gemini bald in der Lage sein könnte, Aktionen direkt in Ihrem Namen in bestimmten Android-Apps auszuführen, wie z. B. Bestellungen aufzugeben oder Flüge zu buchen, ohne dass der Benutzer manuell auf verschiedenen Bildschirmen tippen muss.

Googles Gemini könnte schon bald in der Lage sein, Ihre Aufgaben zu erledigen.

Gemini übernimmt zwar bereits Aufgaben wie das Verfassen von E-Mails oder das Erstellen von Rechercheplänen, doch dieses Update scheint darauf abzuzielen, die Interaktion mit App-Oberflächen zu ermöglichen. So kann die App beispielsweise durch Antippen von Schaltflächen und Navigieren durch Bildschirme Aufgaben erledigen, die Sie normalerweise selbst ausführen würden. Erste Erkenntnisse aus der Beta-Version deuten darauf hin, dass diese Funktionen zunächst auf wenige unterstützte Apps beschränkt sein werden und die Nutzerkontrolle im Vordergrund steht. Google warnt: „Gemini kann Fehler machen“ und die Nutzer bleiben für die in ihrem Namen ausgeführten Aktionen verantwortlich.

Wie wandelt dieses Upgrade die KI vom Assistenten zum Agenten?

Das Konzept der Bildschirmautomatisierung stellt einen bedeutenden Schritt hin zu mehr Autonomie für KI in alltäglichen digitalen Arbeitsabläufen dar. Anstatt lediglich Handlungsvorschläge zu unterbreiten, könnte Gemini diese bald direkt in Apps implementieren. Erste Code-Ausschnitte aus Googles Beta-Version deuten zudem auf Datenschutzvorkehrungen hin, wie beispielsweise den Hinweis, keine Anmelde- oder Zahlungsinformationen in KI-Konversationen einzugeben, und den Hinweis, dass Screenshots zur Verbesserung der Funktion ausgewertet werden können. Google bietet bereits einige Agentenfunktionen über seine Gemini Agent-Plattform in Workspace und im Web an, wo KI komplexe Arbeitsabläufe verwalten und Dienste koordinieren kann. Die Bildschirmautomatisierung könnte diese Funktionen nun direkt auf Smartphones und in die alltägliche App-Nutzung bringen.

Sollten diese Funktionen flächendeckend eingeführt werden, könnte dies einen Wandel in der Interaktion mit Mobilgeräten bedeuten: vom manuellen Tippen und Wischen hin zur Erteilung von Berechtigungen an KI-Tools, in ihrem Namen zu handeln. Dies könnte alltägliche Abläufe vereinfachen, wirft aber auch Fragen hinsichtlich Kontrolle, Sicherheit und Aufsicht auf, insbesondere wenn die Automatisierung sensible Aufgaben wie Buchungen oder Finanztransaktionen betrifft.

Berichten zufolge positioniert Google diese Aktualisierungen als optional und überwacht, sodass Nutzer Gemini jederzeit deaktivieren oder überschreiben können. Die Bildschirmautomatisierungsfunktion befindet sich jedoch noch in der Entwicklung und ist noch nicht in einer stabilen Version verfügbar.

Gemini