Meine Erfahrung mit Copilot Vision: Ein komisches Gefühl, aber irgendwie nützlich – hier ist meine Meinung

Copilot Vision von Microsoft soll Ihren Bildschirm sehen und Ihnen mit künstlicher Intelligenz helfen, verhält sich jedoch oft wie ein unbeholfener technischer Support-Agent.

Nutzer in den USA können jetzt Copilot Vision unter Windows 11 (und 10) nutzen, einen KI-Assistenten, der Sie bei fast allen Aufgaben am PC unterstützt. Möchten Sie wissen, ob er wirklich funktioniert? Ich habe ihn ausprobiert und erkläre in diesem Leitfaden ausführlich, was diese Funktion bietet, wie Sie sie erhalten und teile meine persönlichen Erfahrungen damit.

Windows 11 Copilot Vision

In der Copilot-App ist die Funktion: "Vision" Mit dieser Funktion können Sie Ihren Bildschirm mit einem Chatbot teilen, sodass dieser sehen und interpretieren kann, was auf Ihrem Bildschirm angezeigt wird. Er fungiert als zweites Augenpaar und bietet Ihnen in Echtzeit Hilfe, Antworten und Einblicke basierend auf den in Ihren Apps oder Ihrem Browser angezeigten Inhalten.

Dies ist ebenfalls eine optionale Funktion, daher müssen Sie sie in Copilot Version 1.25061.104.0 und höher manuell aktivieren. Wenn Sie einen Browser verwenden Microsoft EdgeSie können auf die Funktion auch über die Copilot-Integration zugreifen.

Es ist wichtig zu beachten, dass KI fast jeden Inhalt anzeigen kann, solange es sich nicht um DRM-geschütztes Material oder eine andere Art von eingeschränktem Inhalt handelt.

Diese Funktion steht allen zur Verfügung, die kein Abonnement haben. Copilot Pro Unter Windows 10 und 11. Sie können auch unter iOS und Android auf Copilot Vision zugreifen, für die Nutzung auf diesen Mobilgeräten benötigen Sie jedoch ein Abonnement.

In dieser Anleitung beschreibe ich die erforderlichen Schritte für den Einstieg in die Nutzung dieser Funktion und teile meine Erfahrungen.

So erhalten und aktivieren Sie Copilot Vision unter Windows 11

Copilot Vision ist derzeit in den USA ab Version 1.25061.104.0 verfügbar. Öffnen Sie daher zunächst die Microsoft Store-App, gehen Sie zum Bereich „Downloads & Updates“ und klicken Sie auf „Updates abrufen“, um sicherzustellen, dass die neueste Version der App auf Ihrem Computer installiert ist. Dieser Schritt ist notwendig, um die Kompatibilität Ihres Geräts mit neuen Funktionen sicherzustellen und die Gesamtleistung von Copilot zu verbessern.

Sie können die App im Microsoft Store herunterladen, wenn Sie sie zuvor deinstalliert haben. Suchen Sie im Store nach Copilot und installieren Sie es, um alle Funktionen zu nutzen.

Microsoft erklärt, dass Vision eine optionale Funktion ist. Das stimmt technisch gesehen auch, da Sie die Berechtigung zur Bildschirmfreigabe erteilen müssen. Standardmäßig ist sie jedoch verfügbar, da es in den Einstellungen keine Möglichkeit gibt, die Funktion vollständig zu deaktivieren. Das bedeutet, dass Vision nach der Aktualisierung der App einsatzbereit ist, jedoch Ihre ausdrückliche Zustimmung benötigt, bevor Sie auf Bildschirminhalte zugreifen können.

Auf der Copilot-Einstellungsseite finden Sie lediglich die Option zum Ein- und Ausschalten von „Highlights“. Diese Funktion steuert jedoch nur die Fähigkeit der KI, Aktionen auf dem Bildschirm visuell anzuzeigen. Sie beeinflusst nicht die Verfügbarkeit der Funktion in der App. Anders ausgedrückt: Selbst wenn Sie „Highlights“ deaktivieren, ist die Vision-Funktion weiterhin verfügbar, hebt jedoch keine visuellen Elemente auf dem Bildschirm hervor.

Wenn Sie Copilot generell nicht nutzen möchten, deinstallieren Sie es am besten über Einstellungen > Apps > Installierte Apps und tippen Sie auf „Deinstallieren“, um „Copilot“ aufzurufen. Dadurch wird die App vollständig von Ihrem Gerät entfernt und stellt sicher, dass sie nicht auf Ihre Daten oder Systemressourcen zugreift.

Meine Erfahrungen mit Copilot Vision unter Windows 11: Ein erster Blick

Meine erste Interaktion mit Copilot Vision unter Windows 11 fühlte sich etwas seltsam an, da sie einen Paradigmenwechsel darstellte, den ich noch nie zuvor erlebt hatte. Anstatt detaillierte Text- oder Sprachbefehle formulieren zu müssen, um den Kontext zu bestimmen, schien Copilots intelligenter Assistent den Kontext automatisch zu verstehen und konnte so sofort und effektiv helfen. Diese Fähigkeit, Kontext ohne spezifische Anweisungen zu verstehen, stellt einen bedeutenden Wandel in der Art und Weise dar, wie wir mit Computern interagieren.

Obwohl die Genauigkeit von Copilot Vision noch in der Entwicklung ist, bietet es einen ersten Blick in die Zukunft der Computertechnik. Es stellt einen vielversprechenden Schritt hin zu einem nahtloseren und integrierteren Computererlebnis dar, bei dem der Computer zu einem intelligenten Partner wird, der unsere Bedürfnisse versteht und antizipiert, anstatt nur ein Werkzeug zu sein, dem wir bestimmte Befehle ausführen. Diese Technologie hat das Potenzial, unsere Art zu arbeiten, zu kreieren und zu lernen radikal zu verändern.

Erste Schritte mit Copilot Vision

Nachdem ich bestätigt hatte, dass Copilot Vision auf meinem Computer verfügbar war, begann ich mit dem Testen. Ich öffnete einige Anwendungen und startete dann die Copilot Klicken Sie im Startmenü auf die Schaltfläche "Vision" (Glasses), wählen Sie dann die App aus, die Sie mit Copilot teilen möchten, und aktivieren Sie die Option "Teilen".

Testfrage zur Bewerbung

Während ich Notepad verwendete, bat ich Copilot, mir zu zeigen, wie ich die Standardschriftart für die Anwendung ändern kann, aber es gab eine falsche Antwort.

Copilot hat vorgeschlagen, die Liste zu durchsuchen. "Aussicht" (Ansicht), aber diese Option war an dieser Stelle nicht vorhanden. Der Grund dafür liegt laut dem aktuellen Design von Notepad darin, dass sich die Einstellungen zum Ändern der Schriftart auf der Seite „Einstellungen“ befinden, die über das Menü aufgerufen werden kann. "Bearbeiten" (Bearbeiten) oder durch Klicken auf die Schaltfläche "Ausrüstung" (Zahnrad) in der oberen rechten Ecke der Anwendung.

Schließlich gelangte Copilot durch schrittweises Ausschließen zur richtigen Antwort. Interessanterweise gab der Chatbot an, dass ihm ein Fehler unterlaufen sei, da er verschiedene Versionen von Notepad verwechselt hatte. Ich kann mich jedoch nicht erinnern, dass es bei einer Notepad-Version Schriftarteinstellungen im Menü gab. "Aussicht" (Anzeigen) überhaupt nicht. Dies deutet darauf hin, dass Copilot möglicherweise auf veralteten oder ungenauen Informationen basiert.

Einstellungen für Testfragen

Im Rahmen des Testvorgangs habe ich die App „Einstellungen“ in Windows 11 gestartet und dann Copilot gebeten, meinen PC mit den neuesten Systemupdates zu aktualisieren.

In diesem Fall war es möglich Microsoft Copilot Mit Vision wurde korrekt erkannt, dass ich mich in der App „Einstellungen“ befand. Es führte mich direkt zum Abschnitt "Windows Update" Und markierte die Schaltfläche "Auf Updates prüfen".

Als Nächstes stellte ich ihm eine weniger gebräuchliche (aber dennoch relevante) Frage. Ich fragte, wie ich verhindern könne, dass mein Computer während des Update-Vorgangs Updates auf andere Geräte herunterlädt. Obwohl diese Anfrage nicht besonders komplex war, stellte sie die Fähigkeit des Assistenten auf die Probe, subtilere Benutzerabsichten zu interpretieren.

Beim ersten Versuch hat Vision die Abfrage falsch verstanden und standardmäßig allgemeine Anweisungen zur Geräteaktualisierung ausgegeben. Beim zweiten Versuch, nachdem ich meine Formulierung verfeinert hatte, wurde die Frage korrekt erkannt.

Die Anleitung stimmte jedoch nicht mit dem überein, was ich auf dem Bildschirm sah. Beispielsweise wurde mir angezeigt, dass ich die Update-Freigabefunktion erfolgreich deaktiviert hatte, obwohl ich nichts unternommen hatte. Dies deutet darauf hin, dass der Assistent Annahmen basierend auf dem erwarteten Verhalten traf, anstatt den tatsächlichen Systemzustand zu analysieren. Dies unterstreicht die Notwendigkeit, Microsoft Copilot zu verbessern, um den Benutzerkontext genauer zu verstehen und präzisere und zuverlässigere Antworten zu liefern, insbesondere in Bezug auf die Einstellungen und Update-Optionen von Windows 11.

Elementerkennungstest: Stufe 3

Im nächsten Test wollte ich Copilots Fähigkeit testen, visuelle Elemente auf dem Bildschirm zu erkennen. Dazu öffnete ich ein bestimmtes Bild und bat Copilot, das darin enthaltene Element genau zu identifizieren.

In diesem Fall wurde Copilot das Bild einer roten Jacke gezeigt. Der Chatbot konnte das Produkt präzise identifizieren, beschreiben und auf Anfrage sogar zusätzliche relevante Informationen liefern. Dies zeigt die Fähigkeit von Copilot Vision, Bilder zu analysieren und detaillierte Informationen zu deren Inhalt bereitzustellen.

Obwohl der Chatbot erkannte, dass die Jacke auf Amazon zum Verkauf stand, konnte er trotz des in einem separaten Tab geöffneten Bildes nicht feststellen, dass ich nicht die eigentliche Produktseite besuchte. Daher konnte er mir keine Informationen zur Live-Produktseite auf Amazon liefern. Dies deutet darauf hin, dass Copilot visuelle Informationen nur eingeschränkt mit dem aktuellen Browserkontext des Benutzers verknüpfen kann.

Textextraktionstest

Eine weitere Funktion von Copilot Vision ist die Textextraktion aus Bildern. Bisher konnten Betriebssysteme Text in Bildern nicht erkennen und extrahieren. Heute stehen verschiedene Methoden zur Verfügung, um diese Aufgabe effizient zu erledigen.

Beispielsweise stehen Ihnen jetzt spezielle Textextraktionstools zur Verfügung, wie die Text Extractor-Funktion von PowerToys, das Snipping Tool sowie Klicken Sie hier, um es zu tunJetzt können Sie auch bei diesem Vorgang auf Copilot Vision zurückgreifen.

Um diese Funktion zu testen, öffnete ich die App „Einstellungen“ auf der Seite „Spielmodus“ und fragte Copilot, ob es vorhandenen Text extrahieren könne. Der intelligente Bot las den gesamten Text auf der Seite erfolgreich vor.

Einziger Nachteil: Ich konnte extrahierten Text nicht in die Zwischenablage kopieren oder direkt auswählen, wie es in Click to Do möglich ist. Der Bot kopierte jedoch alles in die Copilot-App und speicherte es im Gesprächsverlauf.

Textschreibtest: Fähigkeiten der KI bei der Inhaltsanalyse und -optimierung

Technisch gesehen können Sie jede beliebige Frage zu allem auf dem Bildschirm stellen. Wenn Sie beispielsweise an einer bestimmten Datei arbeiten, können Sie die KI anweisen, ein Diagramm oder eine andere Art von angezeigten Daten zu analysieren.

Mit dieser Technologie können Sie auch eine Beschreibung einer bestimmten Szene oder eines Bildes anfordern, ein Wahrzeichen oder einen geografischen Ort identifizieren oder alles andere, was Sie sich vorstellen können. Die Möglichkeiten sind endlos.

Wenn Sie an einem Text arbeiten, können Sie ihn von einer KI lesen und Verbesserungsvorschläge unterbreiten lassen. Diese Funktion ist besonders nützlich für Autoren, Blogger und Studenten, die die Qualität ihrer Texte verbessern möchten.

In meinem letzten Test habe ich einen einfachen Text in Notepad geladen und den Chatbot gebeten, ihn zu verlängern. Er schlug erfolgreich eine verbesserte Alternativversion des Originaltextes vor.

Die Fähigkeit des intelligenten Assistenten, den auf dem Bildschirm angezeigten Text zu verstehen und eine alternative Version vorzuschlagen, war zwar beeindruckend, er war jedoch nicht sehr genau darin, die nächsten erforderlichen Aktionen zu verstehen.

Obwohl ich wusste, dass es nicht möglich war, den Text direkt durch den Vorschlag zu kopieren und zu ersetzen, fragte ich, ob es möglich sei, die Ersatzversion des Textes zu kopieren und einzufügen, aber er verwies mich auf einen Abschnitt in der Datei, den ich stattdessen einfügen sollte.

Die Lösung besteht darin, Copilot Vision zu öffnen und zu schließen und dann über die Copilot-Oberfläche Text aus Ihrem Chatverlauf auszuwählen und zu kopieren. So können Sie KI-Vorschläge einfach und effektiv nutzen.

Das Endergebnis

Aus der Perspektive eines Menschen, der seit vielen Jahren Anleitungen schreibt, finde ich diese Technologie wirklich beeindruckend, was das Verstehen von Bildschirminhalten und die Bereitstellung der erforderlichen Unterstützung angeht.

Man muss jedoch zugeben, dass es viele Fehler macht und möglicherweise nicht sehr nützlich ist, wenn man nicht bereits über ein grundlegendes Verständnis des durchzuführenden Verfahrens verfügt. Mit anderen Worten: Vorkenntnisse sind unerlässlich, um das Beste daraus zu machen.

Darüber hinaus scheint es, als würde es mit vollem Bewusstsein agieren, doch in Wirklichkeit handelt es sich lediglich um eine künstliche Intelligenz, die bereits online verfügbare Inhalte repliziert. Dies mindert seinen Wert als innovatives Werkzeug.

Manchmal fühlt sich die Nutzung von Copilot Vision an, als würde man mit dem technischen Support telefonieren. Obwohl der Chatbot den Bildschirm sehen kann, führt er Sie wie ein technischer Support-Mitarbeiter und erkennt oft nicht, ob Sie die Aufgabe erledigt haben. Dieser Mangel an Kontextbewusstsein stellt eine erhebliche Herausforderung dar.

Darüber hinaus müssen Sie in den meisten Fällen äußerst präzise Anweisungen geben und oft sogar die genaue Aktion angeben, die Sie ausführen möchten. Dies widerspricht grundsätzlich dem Zweck einer KI, die die Absicht des Benutzers natürlich verstehen soll. Es ist wichtig zu bedenken, dass diese Funktion in erster Linie für nicht-technische Benutzer konzipiert ist, da Personen mit technischem Fachwissen sie wahrscheinlich nicht nutzen werden.

Insgesamt ist Vision zwar als persönlicher Assistent vielversprechend, sein Kontextbewusstsein und seine Genauigkeit müssen jedoch noch verbessert werden. Es fühlt sich eher so an, als würde es auf Befehlen „raten“, anstatt den aktuellen Zustand des Bildschirminhalts aktiv zu überwachen und darauf zu reagieren. Dies macht es in komplexen Szenarien weniger zuverlässig.

Abschließend möchte ich darauf hinweisen, dass ich die spezifischen Fragen, die ich für diesen Leitfaden verwendet habe, nicht erwähne, da sie irrelevant sind. Die Idee eines Chatbots besteht darin, ein normales Gespräch zu führen, als würde man mit einem anderen Menschen sprechen. Der Fokus sollte auf einer reibungslosen Interaktion liegen.

Diese Funktion kann außerdem nicht in Ihrem Namen Maßnahmen ergreifen. Sie kann lediglich den Inhalt Ihres Bildschirms analysieren. Um Maßnahmen ergreifen zu können, muss die KI als Agent fungieren. Derzeit verfügen jedoch nur Copilot+-PCs über diese Funktion, mit eingeschränkter Funktion in der App „Einstellungen“.

Obwohl die Funktion kostenlos ist, hat sie Einschränkungen. Obwohl ich beispielsweise ein Microsoft 365-Abonnement habe, fordert mich die App nach einigen Interaktionen auf, auf Copilot Pro zu aktualisieren.

Wenn Sie also ein Problem beheben und sich mitten im Prozess befinden, werden Sie möglicherweise aufgefordert, für den KI-Assistenten zu bezahlen, um die Lösung abzuschließen. Dieser Ansatz kann Benutzer verärgern, die auf kostenlose Unterstützung angewiesen sind.

Kommentare sind geschlossen.