DeepSeek bereitet sich mit selbstverbessernden Modellen auf die nächste KI-Revolution vor.

Noch vor wenigen Monaten erlebte die große Wette der Wall Street auf generative KI einen entscheidenden Moment, als sie auftauchte DeepSeek In der Szene. Trotz seines stark kontrollierten Charakters hat das Open-Source-Projekt DeepSeek bewiesen, dass ein bahnbrechendes inferenzielles KI-Modell nicht unbedingt Milliarden von Dollar erfordert und mit bescheidenen Ressourcen erreicht werden kann. Dies stellt einen großen Wandel in unserem Verständnis der Entwicklung fortschrittlicher KI-Modelle dar.

Es wurde schnell von riesigen Unternehmen wie Huawei, Oppo und Vivo kommerziell übernommen, während Unternehmen wie Microsoft, Alibaba und Tencent ihm schnell einen Platz auf ihren Plattformen einräumten. Das nächste Ziel des angesagten chinesischen Unternehmens sind nun selbstverbessernde KI-Modelle, die zur Selbstverbesserung einen zyklischen „Beurteilungs-Belohnungs“-Ansatz verwenden. Dieser Trend spiegelt das anhaltende Streben der Unternehmen wider, effizientere und effektivere KI-Systeme zu entwickeln.

In einem Vorabdruck (via BloombergForscher von DeepSeek und der chinesischen Tsinghua-Universität beschreiben einen neuen Ansatz, der KI-Modelle auf selbstverbessernde Weise intelligenter und effizienter machen könnte. Die zugrunde liegende Technik ist als „Self-Principled Critical Control“ (SPCT) bekannt, und dieser Ansatz ist technisch als „Generative Reward Modeling“ (GRM) bekannt. Dieser Ansatz stellt eine bedeutende Entwicklung auf dem Gebiet des bestärkenden Lernens für künstliche Intelligenz dar.

Vereinfacht ausgedrückt ist es ein bisschen so, als würde man eine Echtzeit-Feedbackschleife erstellen. Die Verbesserung eines KI-Modells erfolgt in erster Linie durch die Erweiterung der Modellgröße während des Trainings. Dies erfordert viel menschliche Arbeitskraft und Rechenressourcen. DeepSeek schlägt ein System vor, bei dem ein primärer „Schiedsrichter“ seine eigenen Kritikpunkte und Prinzipien für das KI-Modell entwickelt, während es eine Antwort auf Benutzeranfragen vorbereitet. Ziel dieses Ansatzes ist es, die Abhängigkeit von intensiven Personalressourcen im Schulungsprozess zu verringern.

Dieser Satz an Kritikpunkten und Prinzipien wird dann mit den etablierten Regeln verglichen, die dem KI-Modell und dem gewünschten Ergebnis zugrunde liegen. Bei einem hohen Übereinstimmungsgrad wird ein Belohnungssignal generiert, welches die KI effektiv anweist, in der nächsten Runde eine bessere Leistung zu erbringen. Dieser kontinuierliche Prozess der Bewertung und Belohnung verbessert die Lern- und Anpassungsfähigkeit des Modells.

Die Experten dahinter weisen darauf hin, dass Forschungsarbeit Zur nächsten Generation selbstverbessernder KI-Modelle namens DeepSeek-GRM. Die im Dokument enthaltenen Benchmarks zeigen, dass diese Modelle eine bessere Leistung erbringen als Google Gemini, Meta Llama und OpenAI GPT-4o. DeepSeek sagt, dass diese KI-Modelle der nächsten Generation als Open Source veröffentlicht werden. Dieses Engagement für Offenheit kann das Innovationstempo im Bereich der KI beschleunigen.

Selbstverbessernde KI: Ist das möglich?

Die Idee einer künstlichen Intelligenz, die sich selbst verbessern kann, hat ehrgeizige und kontroverse Diskussionen ausgelöst. Der ehemalige CEO von Google, Eric Schmidt, hat erklärt, dass wir für solche Systeme möglicherweise einen „Aus-Schalter“ benötigen. Und es wurde übertragen Vermögen Schmidt sagte: „Wenn ein System sich selbst verbessern kann, sollten wir ernsthaft darüber nachdenken, es abzuschalten.“ Selbstverbessernde KI-Systeme gehören zu den wichtigsten Entwicklungen im Bereich der KI.

Das Konzept der sich iterativ selbst verbessernden KI ist nicht ganz neu. Die Idee einer superintelligenten Maschine, die in der Lage ist, bessere Maschinen zu bauen, Zurückkehren Tatsächlich an den Mathematiker I. J. Good im Jahr 1965. Im Jahr 2007 stellte der Experte für künstliche Intelligenz Eliezer Yudkowsky eine Hypothese auf über Seed-KI, eine künstliche Intelligenz, „die auf Selbstverständnis, Selbstmodifikation und iterative Selbstverbesserung ausgelegt ist.“

Im Jahr 2024 präsentierte das japanische Unternehmen Sakana AI Details zu Konzept Bei „AI World“ geht es um ein System, das in der Lage ist, eine komplette Produktionslinie für Forschungsarbeiten von Anfang bis Ende zu steuern. Und in ein Blatt In einem im März dieses Jahres veröffentlichten Forschungspapier stellten Meta-Experten selbstbelohnende Sprachmodelle vor, bei denen die KI selbst als Richter fungiert und während des Trainings Belohnungen vergibt. Dieser Schritt hin zu selbstlernenden KI-Systemen stellt einen Paradigmenwechsel in der Entwicklung künstlicher Intelligenz dar.

Microsoft-CEO Satya Nadella sagt, dass die KI-Entwicklung durch das o1-Modell von OpenAI optimiert wird und in eine rekursive Phase eingetreten ist: „Wir nutzen KI, um KI-Tools zu entwickeln, um bessere KI zu entwickeln.“ pic.twitter.com/IHuFIpQl2C

— Zarathustra (@tsarnick) 21. Oktober 2024

Die internen Tests des KI-Modells Llama 2 von Meta, das eine innovative selbstbelohnende Technologie verwendet, haben gezeigt, dass es Konkurrenten wie Claude 2 von Anthropics, Gemini Pro von Google und GPT-4-Modelle von OpenAI übertrifft. Anthropic, unterstützt von Amazon Angegebene Details Sie nannte es Belohnungsmanipulation, einen unvorhersehbaren Prozess, „bei dem das Modell seinen eigenen Belohnungsmechanismus direkt modifiziert“.

Google ist mit dieser Idee nicht weit dahinter. In einer Studie, die in der Zeitschrift veröffentlicht wurde Natur Anfang des Monats demonstrierten Experten von Google DeepMind einen KI-Algorithmus namens Dreamer, der sich selbst verbessern kann, und verwendeten dabei Minecraft als Übungsbeispiel.

Arbeiten IBM-Experten Auf ihrem eigenen Ansatz namens Inferential Closure Training, bei dem ein KI-Modell seine eigenen Antworten verwendet und sie anhand von Trainingsdaten evaluiert, um sich selbst zu verbessern. Allerdings ist die Hypothese nicht durchweg positiv.

Untersuchungen legen nahe, dass KI-Modelle beim Versuch, sich anhand selbst generierter synthetischer Daten zu trainieren, Fehler aufweisen, die umgangssprachlich als „Modellabstürze“ bezeichnet werden. Es wird interessant sein zu sehen, wie DeepSeek die Idee umsetzt und ob es dabei wirtschaftlicher sein kann als seine westlichen Konkurrenten.

DeepSeek