Überzeugen Sie sich selbst: Die neuen Bilderzeugungsfunktionen von ChatGPT sind erstaunlich

OpenAI hat ein umfangreiches Update für die Bildgenerierungsfunktionen von ChatGPT veröffentlicht, ein überwältigendes Update, das die Realität neu definiert. Diese Entwicklung stellt einen qualitativen Sprung im Bereich der Bilderzeugung mittels künstlicher Intelligenz dar.

Ich werde Ihre Zeit nicht mit Zahlen, Modellgrößen oder der Anzahl der GPU-Stunden verschwenden, die das neue Modell verbraucht. Ich zeige Ihnen einfach, was dieses Update kann und wie es im Vergleich zum vorherigen DALL-E-Modell abschneidet.

7. Hände und Finger

Nahaufnahme einer Person, die einen E-Moll-Akkord auf einer Gitarre spielt, wobei die Finger mit geringer Tiefenschärfe auf die Saiten drücken.

Die KI-Technologie zur Bilderzeugung hat uns umgehauen, als sie zum ersten Mal populär wurde. Dann... haben wir genau hingeschaut. Das Erkennungsmerkmal des KI-Bildes ist die seltsame Anatomie der Hand und der Finger. Gibt es also eine bessere Möglichkeit, Modelle zu testen, als sie zu bitten, eine Gitarrensaite zu fotografieren?

Um das Beste zum Schluss aufzuheben, habe ich zuerst das ursprüngliche DALL-E-Modell und dann den neuen Bildgenerator befragt, der im ChatGPT 4o-Modell integriert ist.

Das obige Bild ist das, was DALL-E erstellt hat. Trotz der Mängel des DALL-E kam es hier mit Fingern und der allgemeinen Anatomie gut zurecht. Aber die Saite selbst … ist es nicht. Um E-Moll zu spielen, ist die Handposition zu hoch auf dem Griffbrett. Wenn Sie etwas hineinzoomen, werden Sie feststellen, dass die Gitarre mehr als sieben Saiten hat. Auch der Abstand zwischen den Saiten ist unregelmäßig.

Vor diesem Hintergrund fahren wir mit ChatGPT 4o fort.

Ich hätte Ihnen sagen können, dass ich einen Scherz gemacht habe und dass dies ein altes Bild aus der Zeit ist, als ich Gitarre gespielt habe. So gut ist ChatGPT 4o. Sechs Saiten, gleichmäßig verteilt, und der Akkord ist tatsächlich e-Moll. Ich bin beeindruckt.

6. historische Persönlichkeiten

Albert Einstein isst im Central Park ein Eis und trägt dabei ein Freizeithemd und Hosenträger.

Nachdem wir mit der Generierung von Bildern verschiedener Dinge experimentiert hatten, entschieden wir uns nun dazu, Bilder von historischen Figuren zu generieren. Da diese sich nicht beleidigt fühlen würden, wäre es lustig, sie in einem modernen Umfeld zu sehen. Versuchen wir zunächst, mit DALL-E 2 und ChatGPT 4 ein Bild von Einstein zu generieren.

Das Ergebnis von DALL-E 2 war enttäuschend, da ich im Voraus gewarnt worden war, dass kein Bild von Einstein selbst verwendet werden könne, sondern das Bild von jemandem, der „ihm sehr ähnlich sehe“. Die Grafik von DALL-E 2 ist im realistischen Cartoon-Stil gehalten, was hier deutlich zu erkennen ist. Das San Remo-Gebäude im Hintergrund lässt darauf schließen, dass dieses Foto im Central Park aufgenommen wurde, aber das ist auch schon die einzige Errungenschaft hier.

Fahren wir nun mit ChatGPT 4o fort.

Indem ich auf dieses Foto einen Schwarzweißfilter anwende, kann ich Sie davon überzeugen, dass es sich um ein echtes Vintage-Foto handelt. Die Sahne auf der Waffel sieht perfekt cremig aus, Einstein erscheint in seinem charakteristischen ruhigen Stil und das San Remo-Gebäude ist im Hintergrund immer noch präsent. Alles sieht perfekt aus. ChatGPT 4o hat bei diesem Bild großartige Arbeit geleistet.

5. fiktive Charaktere

Eine Gestalt, die Lord Sith ähnelt, hält am George Square in Glasgow ein Taxi an, im Hintergrund sind leichter Regen und Ampeln zu sehen.

Bisher haben wir gesehen, dass ChatGPT gut darin ist, historische Figuren zu zeichnen. Da Gesichter und Menschen immer noch die besten Möglichkeiten sind, die Fähigkeiten von KI zu testen, probieren wir Plus aus.

Ich habe das Wort „ähnlich“ verwendet, um den Chatbot zur Zusammenarbeit zu bewegen, ohne dass mir ein Urheberrechtsanspruch droht. Das DALL-E-Ergebnis war gut. Die Figur erinnert wirklich an einen Sith-Lord und die restlichen Elemente sind ziemlich genau.

Es ist nicht offensichtlich cartoonhaft, sieht aber auch nicht echt aus. Wollen Sie Realismus? Sehen Sie sich an, was ChatGPT 4o mit derselben Eingabeaufforderung produziert hat:

Ich liebe die Atmosphäre – die Beleuchtung, den Nebel und die grimmige Präsenz des Sith-Lords. Alles ist da. Das einzige Problem ist, dass der Dunkle Lord auf der Straße steht und ein Taxi ruft, während er … auf den Bürgersteig blickt. Außerdem steht auf dem Taxischild „TAXL“.

Kommen wir von der Zukunftsfiktion zur historischen Fiktion. Etwa so:

Eine Figur, die Geralt von Riva ähnelt, kauft in einem modernen Supermarkt Lebensmittel ein, schiebt einen Einkaufswagen und runzelt die Stirn über die Konserven.

Gar nicht schlecht. Das Bild hat immer noch diesen künstlichen Cartoon-Look und der Text auf den Müslischachteln ist, wie erwartet, völlig unverständlich.

ChatGPT 4o lehnte den Anspruch zunächst aufgrund des Urheberrechts ab, war jedoch erfolgreich, nachdem ich „ähnlich wie“ durch „ähnlich wie“ ersetzt hatte. Sehen:

Ich bin sprachlos. Wie die meisten Leute interpretiert ChatGPT Geralt im Grunde wie Henry Cavill und nicht wie die Videospielversion – aber er hat es auf den Punkt gebracht. Das Stirnrunzeln ist genau richtig und die Szene sieht normal aus.

Dies könnte als Szene aus einem seltsamen Werbeset durchgehen. Und ja, ich habe Bücher gelesen. Der Hexer Bevor es eine Serie wurde.

4. Cartoon

Eine Karikatur eines Piratenkapitäns mit einem langen roten Mantel und einem bionischen Arm, der auf dem Deck eines fliegenden Schiffs lacht. Transparenter Hintergrund.

Bei der Bildgenerierung von OpenAI geht es nicht nur um Realismus. Während DALL-E unabhängig von der Eingabe immer dazu neigt, eine leichte Glättung hinzuzufügen, habe ich mich entschieden, beide Modelle in den vollständigen Karikaturmodus zu versetzen. Der Schwerpunkt lag auf der Verbesserung der Qualität von Cartoons durch den Einsatz fortschrittlicher Techniken der künstlichen Intelligenz.

Tatsächlich hat DALL·E hier gute Arbeit geleistet – es hat sogar die Anforderung eines transparenten Hintergrunds verstanden. etwas. Was wir erhalten, ist das klassische grau-weiße Schachbrettmuster, das normalerweise Transparenz bedeutet … außer dass es hier in das Bild integriert ist. Es ist also überhaupt nicht transparent.

Ironischerweise hat die von der KI erzeugte biologische Hand des Hackers vier Finger, die elektronische Hand hingegen fünf. Vielleicht hat er den falschen Arm mit Chrom überzogen?

ChatGPT 4o sieht klarer und zielgerichteter aus. Der Farbstil variiert – ob er besser ist oder nicht, ist eine persönliche Angelegenheit – aber es sieht eindeutig so aus, als hätte ein Künstler es so gemalt. Die Grafiken von ChatGPT sind hochwertig und detailliert.

Auch der Hintergrund ist bereits transparent. Sie können es auf ein T-Shirt drucken, ausdrucken oder sogar sofort in einen WhatsApp-Aufkleber verwandeln.

3. Spiegel und Reflexionen

Modernes Waschbecken im Badezimmer mit Zahnbürste und Rasierer auf der Ablage, beides im Spiegel und in der Realität sichtbar – die Beleuchtung ist weich und gleichmäßig. Die Genauigkeit von Reflexionen in KI-generierten Bildern ist eine ständige Herausforderung.

Spiegel reflektieren Bilder und Reflexionen benötigen eine räumliche Logik, um natürlich zu wirken. Ich habe einen Eintrag gemacht, von dem ich wusste, dass DALL-E darüber stolpern würde. Die Erzeugung realistischer Bilder mit präzisen Reflexionen ist eine der größten Herausforderungen für die künstliche Intelligenz.

Wie erwartet. Da ist etwas, das eine Spiegelung des Wasserhahns im Spiegel sein soll, aber es ist zu lang. Die Zahnbürste schwimmt im Waschbecken und wirft keine Reflexionen. DALL-E hat sich bei diesem Beispiel viel Mühe gegeben.

Das neuere Modell lässt das Bild viel realistischer aussehen, wie ein echtes Foto. Die Spiegelung des Wasserhahns ist etwas verzerrt, aber akzeptabel. Dann gibt es noch die Zahnbürste, die zwar ein Spiegelbild hat, aber in der physischen Welt nicht existiert – wie ein umgekehrter Vampir.

Hier gibt es keinen klaren Gewinner. Die KI-Ergebnisse waren inkonsistent, also habe ich beiden eine weitere Chance mit etwas Anspruchsvollerem gegeben:

Eine Frau steht in einem sonnendurchfluteten Schlafzimmer vor einem Ganzkörperspiegel. Ihre Kleidung und Haltung sind perfekt wiedergegeben, mit einer klaren Spiegelung des Fensters hinter ihr.

…Ich möchte dieses Beispiel nicht einmal mit einer Analyse würdigen. Leute, wenn ihr DALL-E in ein schlechtes Licht rücken wollt, fügt eurem Eintrag einfach das Wort „Spiegel“ hinzu. Lass uns weitermachen.

Wie erwartet sieht ChatGPT 4o realistischer aus – aber diesmal vielleicht ein bisschen surreal? Die Pose und Kleidung der Frau werden reflektiert, aber nur teilweise, wie ein XNUMXD-Photoshop-Effekt. Auch die Reflexionswinkel sind falsch. Künstliche Intelligenz beherrscht räumliche Logik noch immer nicht. Das Verständnis von XNUMXD-Räumen und Reflexionen scheint für die KI eine große Herausforderung zu sein.

2. Autos und Straßen

Ein Ford GT aus dem Jahr 2006 und ein Peugeot 206 überfahren mittags eine rote Ampel in der Wall Street in New York.

Ich bin ein Autoliebhaber. Als die erste Software zur Bilderzeugung mit künstlicher Intelligenz auf den Markt kam, war eines meiner ersten Dinge, Bilder von Autos zu erstellen. Die Ergebnisse waren damals nicht gut, aber als das neue Modell herauskam, musste ich es noch einmal versuchen.

Hier zeigt DALL-E erneut seine zunehmend verstörende Cartoon-Ästhetik. Der Peugeot steht auf dem Bürgersteig, die von mir angeforderte Ampel steht gegenüber Gebäuden und die Nummernschilder sind alle unverständlich.

Die Ergebnisse von ChatGPT 4o sind viel besser. Die Autos sind korrekt dargestellt – sogar die Peugeot-Radkappen sind sehr genau und passen in die Epoche. Solche Details sind kein Zufall. Es kommt noch besser:

Ich könnte dieses Bild tatsächlich als Hintergrundbild für mein Telefon verwenden. Beleuchtung, Komposition, Reflexionen – alles sieht perfekt aus. Abgesehen von der gelegentlichen Leere auf der Straße könnte dies als echtes Foto durchgehen.

1. Texte und Nachrichten

Ein handgeschriebener Brief auf altem Papier in Schreibschrift, neben einem Füllfederhalter und einem Tintenfass platziert.

Schließlich zielen wir auf die Schwachstelle jedes Bildgenerators ab. Die meisten KI-Bildgeneratoren haben Probleme, korrekten Text zu erzeugen. Sie haben in den vorherigen Beispielen inzwischen genug Kauderwelsch von DALL-E gesehen, um zu wissen, was ich meine. Die Generierung von Text aus Bildern stellt für die Entwickler dieser Technologien eine große Herausforderung dar.

Um es interessanter – und konsistenter – zu machen, habe ich hinzugefügt, dass der Brief den Text von König Terenas‘ Brief an Arthas aus Warcraft III enthalten sollte.

DALL-E hat mit Texten das gemacht, was es am besten kann: Es hat ihn in einen unklaren, unverständlichen Text verwandelt. Ihm ist es gelungen, einige Wörter richtig zu schreiben und die Gesamtatmosphäre sieht gut aus – der Füllfederhalter und das Tintenfass sehen gut aus. Allerdings ist die Genauigkeit der Textgenerierung noch immer begrenzt.

ChatGPT 4o beherrscht es – jedes Wort in klarer Schreibschrift. Ideal. Im Vergleich zu DALL-E ist dies ein gewaltiger Fortschritt. Gut gemacht, OpenAI. Diese Entwicklung zeigt, wie weit KI-Technologien in der Textgenerierung fortgeschritten sind.

Technologien zur Bilderzeugung mit KI haben große Fortschritte gemacht – und das sieht man. ChatGPT 4o scheint das erste Modell zu sein, das es in Sachen Beleuchtung, Textur und Kontext wirklich drauf hat. Dies stellt einen großen Fortschritt auf dem Gebiet der KI-Bilderzeugung dar.

An diesem Punkt bleibt nur noch die Frage: Wie stark sind die Schutzmechanismen von ChatGPT? Ich habe seine Urheberrechtsbeschränkungen problemlos umgangen. Wie lange wird es dauern, bis jemand ChatGPT jailbreakt und mit diesem unglaublich leistungsfähigen Modell beliebige Inhalte erstellt? Diese Fähigkeit wirft Fragen zum verantwortungsvollen Einsatz von KI-Technologien auf.

ChatGPT