Claude AI kann jetzt ein Gespräch beenden: ein neuer Mechanismus für den Umgang mit Extremsituationen

In den letzten Monaten hat Anthropic seine Sicherheitsbemühungen intensiviert, Funktionen implementiert und Forschung betrieben, um KI sicherer zu machen. Die neueste Funktion scheint zu sein Claude Es ist eines der markantesten Merkmale überhaupt.

Sowohl Claude Opus 4 als auch 4.1 (die neuesten Versionen von Anthropic) bieten nun die Möglichkeit, Gespräche im Chat-Interface des Benutzers zu beenden. Diese Funktion wird zwar nicht häufig genutzt, ist aber für seltene und extreme Fälle von „anhaltend schädlichen oder missbräuchlichen Benutzerinteraktionen“ implementiert.

في Ein Blogbeitrag zur Erkundung der neuen Funktion„Wir sind uns über den potenziellen ethischen Status von Claude und anderen großen Sprachmodellen sowohl jetzt als auch in Zukunft noch weitgehend unsicher“, erklärte das Anthropic-Team. „Wir nehmen diese Frage jedoch sehr ernst.“

In Tests vor der Veröffentlichung der neuesten Modelle von Anthropic führte das Unternehmen Tierschutzbewertungen durch. Dabei wurden auch Claudes Angaben zu seinen Verhaltenspräferenzen untersucht. Dabei stellte sich heraus, dass er eine starke und beständige Abneigung gegen Schaden entwickelt hatte.

Wir sind uns über den potenziellen ethischen Status von Claude und anderen großen Sprachmodellen sowohl jetzt als auch in der Zukunft noch weitgehend im Unklaren. Wir nehmen dieses Thema jedoch ernst.

Anthropisch

Mit anderen Worten: Claude würde diese Gespräche effektiv unterbinden oder sich weigern, daran teilzunehmen. Dazu gehörten Benutzeranfragen nach sexuellen Inhalten mit Minderjährigen und Versuche, Informationen anzufordern, die weitverbreitete Gewalt oder Terroranschläge ermöglichen könnten.

In vielen dieser Fälle beharrten die Nutzer trotz Claudes aktiver Weigerung auf schädlichen oder missbräuchlichen Anfragen. Die neue Funktion, die es Claude ermöglicht, die Konversation effektiv zu beenden, soll in solchen Situationen einen gewissen Schutz bieten.

Anthropic erklärt, dass diese Funktion nicht in Situationen angewendet wird, in denen Benutzer in unmittelbarer Gefahr sind, sich selbst oder andere zu verletzen.

„In allen Fällen sollte Claude seine Fähigkeit, eine Konversation zu beenden, nur als letzten Ausweg nutzen, wenn mehrere Umleitungsversuche fehlgeschlagen sind und alle Hoffnung auf eine produktive Interaktion verflogen ist oder wenn der Benutzer Claude ausdrücklich auffordert, den Chat zu beenden“, fährt das Anthropic-Team in dem Blogbeitrag fort.

„Die Szenarien, in denen dies passieren würde, sind extrem und selten – die überwiegende Mehrheit der Benutzer würde diese Funktion bei der normalen Verwendung des Produkts nicht bemerken oder davon betroffen sein, selbst wenn sie mit Claude über höchst umstrittene Themen diskutieren.“

Der Benutzer kann in dieser Konversation zwar keine neuen Nachrichten mehr senden, dies hindert ihn jedoch nicht daran, eine weitere Konversation über sein Konto zu starten. Um den potenziellen Verlust eines langen Konversationsthreads zu vermeiden, können Benutzer vorherige Nachrichten weiterhin bearbeiten und erneut versuchen, einen neuen Zweig der Konversation zu erstellen.

Dies ist eine ziemlich einzigartige App von Anthropic. ChatGPT Und Gemini Und GrokDie drei engsten Konkurrenten von Claude hatten nichts Vergleichbares im Angebot und obwohl sie alle andere Schutzmaßnahmen anboten, gingen sie nicht so weit.

Claude