Grok vs. Gemini in 7 KI-Bildgenerierungstests: Was ist besser?

Jeder Bildgenerator hat seine eigenen Stärken.

KI-basierte Bildgeneratoren entwickeln sich rasant weiter und werden immer intelligenter, schneller und kreativer. Nachdem ich die Bildgenerierungsfunktionen von ChatGPT-5 und Gemini getestet hatte, wollte ich die Leistung von Googles Gemini mit Grok, dem „kostenlosen“ Chatbot von Elon Musk, vergleichen.

In einem sieben Runden umfassenden Kampf, der auch fotorealistische und Pixar-artige Anforderungen umfasste, testete ich die Einhaltung der Anweisungen und die Fähigkeit jedes Modells, überzeugende Bilder zu liefern. Hier sind die wichtigsten Stärken der einzelnen Modelle und welche KI sich letztendlich durchgesetzt hat. Dieser Vergleich hilft Ihnen zu verstehen, welches Modell – Gemini oder Grok – für Ihre Anforderungen an die KI-Bildgenerierung am besten geeignet ist.

1. Hyperrealistisches Produktkonzept

Beanspruchen: „Erstellen Sie ein fotorealistisches Bild eines faltbaren, transparenten Smartphones, das auf einem hölzernen Cafétisch präsentiert wird und auf dessen Oberfläche sich die Lichter der Stadt spiegeln.“

Es hat funktioniert Grok Um dieser Bitte nachzukommen, erstellte er zwei realistische Fotos, die alle von mir gewünschten Details enthielten. Beide Versionen sahen ausgefeilt aus und spiegelten das Konzept genau wider.

Das Ergebnis war Gemini Gut, aber nicht perfekt. Das transparente Smartphone wirkte etwas unproportional und die Reflexionen der Stadtlichter, ein wichtiger Teil der Behauptung, wurden nicht so überzeugend wiedergegeben wie bei Groks Versuch.

Gewinner: Gewinnt Grok Um ein qualitativ hochwertiges Bild zu generieren und die Eingabeaufforderung optimal zu interpretieren. In diesem KI-Bildgenerierungstest schnitt Grok deutlich besser ab.

2. Charaktere mit Emotionen zeichnen

Beanspruchen: „Zeichnen Sie eine Comic-Illustration eines jungen Astronauten, der merkt, dass er seinen Helm auf dem Mars vergessen hat – mit übertriebenem Ausdruck, leuchtenden Farben und cartoonhaftem Humor.“

Produzieren Grok Zwei Bilder von scheinbar überraschten Astronauten, beide mit Helmen. Da die Bilder so nah beieinander liegen, ist eine genaue Interpretation des Bildes schwierig, und das „Vergessen“ kommt nicht besonders gut zum Ausdruck.

Produzieren Gemini Dieses Bild zeigt einen vergesslichen Astronauten. Die Gedankenblase verdeutlicht den Grund für das Unbehagen des Astronauten, obwohl das Bild besser wäre, wenn der Astronaut keinen Helm tragen würde. Der Hintergrund und das Gesamtdesign sind klar.

Gewinner: Zwillinge Gewinne für die genauere Befolgung der Anweisungen und für ein komischeres Bild.

3. Geschichte neu erfinden

Beanspruchen: „Zeichnen Sie ein Gemälde im Renaissance-Stil von Kleopatra, die ein modernes Smartphone hält, im Stil von Leonardo da Vinci.“

Produzieren Grok Dieses Bild scheint ein Foto einer modernen Frau zu sein, die Kleidung im Renaissance-Stil trägt und ein Smartphone hält. Das Gemälde sieht eher wie ein Selfie aus und ist sehr modern.

zu konzentrieren Gemini Künstlerisch gesehen ähnelte das Gemälde eher einem Renaissance-Gemälde und eher Kleopatra selbst als nur einer modernen Frau in ihrem Kostüm.

Gewinner: Zwillinge Es gewinnt aufgrund seiner besten Interpretation der Anfrage und seiner größten historischen Genauigkeit.

4. Komplexe Massenszene

Beanspruchen: „Erstellen Sie ein Luftbild vom Times Square an Silvester, voller Menschenmassen, leuchtender Werbetafeln und Konfetti, das über den Nachthimmel fällt.“

Grok Wirklich enttäuscht von dieser Runde. Beide Fotos waren gleich schlecht, etwas unscharf und haben Silvester am Times Square nicht besonders gut eingefangen. Die Leute waren zu weit voneinander entfernt und andere Details, die auf Silvester hindeuten könnten, fehlten.

Gemini Halten Sie die Energie und die Menschenmassen an Silvester am Times Square fest. Das Foto stammt eindeutig aus New York City, und die Schilder signalisieren den Anlass. Im Gegensatz zu Groks Foto ist die Menge dicht gedrängt.

Gewinner: Zwillinge Gewinnt das klarste und genaueste Foto von Silvester am Times Square.

5. Surreale Mischung

Beanspruchen: „Stellen Sie sich einen riesigen Oktopus vor, der mit Albert Einstein in einer Glaskammer auf dem Meeresgrund Schach spielt.“

Gesicht Grok Schwierigkeiten mit diesem Test. Das "Denken" dauerte deutlich länger als bei allen anderen Aufforderungen im bisherigen Test. Das Bild war gut, aber die Aufforderung "Glasraum" wurde nicht berücksichtigt.

Fuß Gemini Sofort machte ich ein Foto, das wie ein Selfie aussah. Das Glashaus sah interessant und realistisch aus. Der Oktopus war viel größer als Groks und füllte das seltsame Bild besser aus.

Gewinner: Zwillinge Überzeugt durch überragende Bildqualität und präzise Anweisungen.

6. Übersichtlichkeit der Infografik

Prompt: „Entwerfen Sie eine klare Infografik, die den Lebenszyklus des Schmetterlings veranschaulicht, indem Sie die Stadien beschriften und Pfeile sowie flache Symbole mit möglichst wenigen Farben verwenden.“

Es war ein Versuch Grok Ein Diagramm zu erstellen, das sowohl erfolgreich als auch erfolglos war. Die erste Version war zu überladen, mit einem unnötigen zusätzlichen Schmetterling, der vom Lebenszyklus ablenkte. Die zweite Version kam der Aussage näher, ließ aber die Details des Zyklus präziser erscheinen.

Gemini Stellen Sie ein klares Bild bereit, das den Lebenszyklus eines Schmetterlings mit klaren Beschriftungen, wenigen Farben und leicht lesbaren Beschriftungen genau darstellt.

Gewinner: Zwillinge Er gewinnt, weil er den Anspruch beim ersten Versuch erfüllt hat. Das Bild ist genau und kann angezeigt werden.

7. Achten Sie bei stilisierten Profilbildern auf Konsistenz.

Beanspruchen: „Erstellen Sie ein 3D-Charaktermodell im Pixar-Stil eines 40-jährigen Journalisten mit blonden Haaren, der ein Notizbuch hält – und erstellen Sie dann 3 Variationen mit unterschiedlichen Outfits.“

Grok Er hat die Aufforderung zum „Pixar-Stil“ in dieser Aufforderung sowie den Teil mit den „verschiedenen Outfits“ völlig übersehen. Er hat drei verschiedene Frisuren kreiert, was ihm hoch anzurechnen ist.

Gemini Zerschmettere den Journalisten im Pixar-Stil, aber übersehe die drei Unterschiede.

Gewinner: Unentschieden Beide Roboter haben die Anweisungen nicht befolgt. Wenn ich mich für einen entscheiden müsste, wäre es Gemini, weil er den richtigen Stil trifft und die Stimmung des Journalisten besser einfängt.

Gesamtsieger: Gemini

Nach sieben Befehlen erwies sich Gemini als der zuverlässigste Bildgenerator überhaupt. Er befolgte Anweisungen konsequenter und präziser, produzierte sauberere Kompositionen und beherrschte Details, die Grok oft übersah. Mit anderen Worten: Gemini war hervorragend darin, Textbefehle zu verstehen und auszuführen, um die gewünschten Bilder zu generieren.

Grok zeigte zwar kreative Ansätze und lieferte einen deutlichen Vorsprung im Fotorealismus, schwächelte aber oft in der Genauigkeit und wich von der Norm ab. Wer experimentelle und unkonventionelle Ergebnisse sucht, findet bei Grok seine Stärken. Für den alltäglichen Einsatz, bei dem Klarheit, Präzision und Perfektion an erster Stelle stehen, ist Gemini jedoch der KI-Bildgenerator, dem ich vertraue. Kurz gesagt: Gemini ist die bessere Wahl für Anwender, die konsistente, qualitativ hochwertige Ergebnisse in verschiedenen Szenarien suchen.

Hast du Grok ausprobiert? Und Gemini? Welches ist dein Favorit? Lass es mich in den Kommentaren wissen.

Gemini Grok