KI-Startup übertrifft Gemini 3 in wichtigem Inferenztest

Da es so schien Zwillinge 3 Zum ersten Mal konnte er seine Position an der Spitze erfolgreich verteidigen. LMArena-RanglisteDiese Liste ist ein kollektives Ranking, in dem Tausende von echten Nutzern Modelle vergleichen. Künstliche Intelligenz Sie messen sich in einer Vielzahl von Aufgaben im direkten Vergleich und stimmen über die beste Antwort ab. Doch wenn es darum geht, die anspruchsvollsten Inferenzkriterien zu erfüllen, gibt es einen neuen Aufsteiger, der Google bereits übertroffen hat – und das, ohne ein eigenes Modell trainiert zu haben.

Ein sechsköpfiges Startup namens Poetiq behauptet, den ersten Platz belegt zu haben in ARC-AGI-2 Halbspezial-TestkitDies ist eine extrem schwierige Inferenzaufgabe, die vom KI-Forscher François Chollet entwickelt wurde. Das System des Startups erreichte 54 Prozent und übertraf damit Googles zuvor gemeldeten Wert von rund 45 Prozent für Gemini 3 Deep Think.

Um das in den richtigen Kontext zu setzen: Die meisten KI-Modelle lagen vor nur sechs Monaten bei diesem Benchmark noch unter 5 Prozent. Forscher gingen allgemein davon aus, dass es Jahre dauern würde, die 50-Prozent-Marke zu überschreiten.

Und das Überraschendste daran: Poetiqs Durchbruch beruhte nicht auf einem neuen Zukunftsmodell, sondern auf einer intelligenteren Organisation bestehender Modelle.

Wie gelang Poetiq dieses Kunststück?

Anstatt einen komplett neuen, aufwendigen Konverter zu entwickeln, entwickelte Poetiq ein sogenanntes Metasystem – im Wesentlichen einen KI-Controller, der die Ausgabe jedes angeschlossenen Modells überwacht, analysiert und verbessert. Für ihre Arbeit an ARC-AGI-2 nutzte das Team den Gemini 3 Pro als Basismodell.

Poetiq beschreibt das System als einen streng kontrollierten Optimierungskreislauf: Erstellen > Kritisieren > Verbessern > Überprüfen.

Das macht es so besonders:

Keine Umschulung erforderlich: Das System passt sich innerhalb weniger Stunden an neue Modelle an.
Es basiert vollständig auf großen, vorgefertigten Sprachmodellen: Keine benutzerdefinierte Bearbeitung möglich
niedrigerer Preis oder günstiger: Googles Deep Think kostet Berichten zufolge 77 US-Dollar pro Aufgabe; das System von Poetiq liegt eher bei 30 US-Dollar.
Open Source: Die Lösung ist öffentlich verfügbar und überprüfbar.
Selbstprüfung: Das System wertet seine eigenen Antworten aus, bevor es das Endergebnis zurückgibt.

على Die Webseite Das Poetiq-Team erklärt, dass dieser Ansatz für das Unternehmen funktioniert, indem Plus aus der Inferenzleistung bestehender großer Sprachmodelle extrahiert wird – und nicht durch eine brachiale Steigerung der Rechenleistung.

Warum ist der ARC-AGI-2-Test wichtig?

Während die meisten standardisierten Tests nur begrenzte Fähigkeiten wie Programmierung oder Mathematik messen, wurde ARC-AGI-2 entwickelt, um etwas Tiefergehendes zu testen: Mustererkennung, Messung, abstraktes Denken und die Art von Generalisierung, die Menschen in der frühen Kindheit erlernen.

Es ist absichtlich schwierig und ausgesprochen ungeeignet für aktuelle große Sprachmodelle (LLMs). Selbst viele hochentwickelte Modelle versagen hier spektakulär.

Aus diesem Grund war der sprunghafte Anstieg von einstelligen Ergebnissen auf 54 Prozent innerhalb eines halben Jahres überraschend. Dies deutet auf Fortschritte bei den Inferenzmethoden hin, nicht nur auf eine Vergrößerung des ursprünglichen Modells.

Das Ergebnis von Poetiq bezieht sich jedoch speziell auf die halböffentliche Testgruppe. Laut Unternehmenswebsite wurde das Ergebnis von der Benchmark-Organisation bestätigt – eine unabhängige Bestätigung durch Dritte steht jedoch noch aus, was für einen Benchmark-Test dieser Größenordnung von Bedeutung ist.

Der nächste Durchbruch wird möglicherweise nicht von größeren Modellen kommen, denn die Arbeit von Poetiq verdeutlicht einen wachsenden Trend in der künstlichen Intelligenz: Fortschritt erfordert nicht immer Milliarden von Dollar für Infrastruktur oder ein riesiges Forschungslabor.

Gelingt es solchen Systemen, über die Standardparameter hinauszugehen und Planung, Programmierung, Forschung oder sogar Entscheidungsfindung in der realen Welt zu ermöglichen, könnten sie die Entwicklung künstlicher Intelligenz grundlegend verändern. Anstatt auf den nächsten Supercomputer zu warten, könnten sich Unternehmen darauf konzentrieren, eine Art Verbundintelligenz zu entwickeln, die die heutigen Modelle intelligenter, kostengünstiger und konsistenter macht.

Fazit

Poetiq hat eine Open-Source-Lösung für ARC-AGI veröffentlicht, damit Forschende die Ergebnisse testen, erweitern oder sogar infrage stellen können. Der Standard enthält einen versteckten Testdatensatz, und die Erfahrung zeigt, dass sich die Ergebnisse ändern können, sobald eine signifikante Anzahl unabhängiger Bewertungen durchgeführt wird.

Sollten sich die Ergebnisse von Poetiq bestätigen, könnte dies einen Wendepunkt in der KI-Inferenzforschung darstellen. Ein sechsköpfiges Team hat möglicherweise gerade gezeigt, dass die Modellorganisation mit dem Training deutlich größerer Modelle mithalten oder diese sogar übertreffen kann. Poetiq hat bewiesen, dass man kein riesiges Labor braucht, um erfolgreich zu sein.

Gemini