Was passiert, wenn Ihnen die Trainingsdaten für Ihr KI-Modell ausgehen?

Schnelle Fortschritte in der künstlichen Intelligenz hängen in erster Linie von der Verfügbarkeit präziser und umfangreicher Trainingsdaten ab. Da sich der Einsatz künstlicher Intelligenz in verschiedenen Sektoren ausweitet, stehen viele Unternehmen vor Herausforderungen im Zusammenhang mit dem Mangel an verfügbaren Trainingsdaten, was die Qualität und Wirksamkeit der von ihnen entwickelten intelligenten Modelle beeinträchtigen kann. Wie können wir also trotz dieses Defizits weiterhin KI-Systeme trainieren und entwickeln?

Das Internet scheint voller verfügbarer Daten zu sein, doch die KI hat bereits die meisten offenen Quellen verbraucht. Dies bedeutet jedoch nicht, dass der Fortschritt zum Stillstand kommt. Es gibt neue Strategien, mit denen die Datenlücke geschlossen werden kann, etwa die Generierung synthetischer Daten, die Erfassung personalisierter Daten und die innovative Nutzung unstrukturierter Daten. In diesem Artikel untersuchen wir diese innovativen Lösungen und wie sie die Entwicklung von KI unterstützen können, um sicherzustellen, dass sie weiterhin eine verbesserte Leistung und einen größeren Mehrwert für die Benutzer bietet.

Was passiert, wenn Ihnen die Trainingsdaten für Ihr KI-Modell ausgehen?

1. Plusdaten werden immer online hinzugefügt.

Kurz gesagt, sagt das Artificial Intelligence Research Institute Epoch Bis 2026 könnten die hochwertigen Daten, auf denen KI trainiert werden kann, zur Neige gehen.

Das Schlüsselwort dort ist „können“. Die Menge der zum Internet hinzugefügten Daten nimmt jedes Jahr zu, sodass sich vor 2026 etwas drastisches ändern könnte. Dies ist jedoch immer noch eine faire Schätzung – so oder so werden KI-Systemen irgendwann die guten Daten ausgehen.

Wir müssen jedoch bedenken, dass jedes Jahr etwa 147 Zettabytes an Daten online hinzugefügt werden (laut... Explodierende Themen). Nur ein Zettabyte entspricht 1,000,000,000,000,000,000,000 Datenbits. In Wirklichkeit sind das über 30 Milliarden 4K-Filme (real, aber unfassbar). Es ist eine erstaunliche Menge an Informationen, die die KI durchsuchen muss.

Allerdings verbraucht künstliche Intelligenz Daten schneller, als die Menschheit sie produzieren kann ...

2. KI vergisst möglicherweise Daten von geringer Qualität

Natürlich sind nicht alle 147 Zettabytes an Daten gute Daten. Es steckt mehr dahinter, als man auf den ersten Blick sieht. Aber es wird geschätzt, dass KI bis 2050 auch Sprachdaten von geringer Qualität verbrauchen wird.

gemeldet Reuters Photobucket, einst eines der größten Fotoarchive der Welt, verhandelt derzeit über die Lizenzierung seiner umfangreichen Bibliothek an KI-Schulungsunternehmen. Fotos verfügen über Daten zum Trainieren von Modellen wie DALL-E und Midjourney, aber selbst diese könnten bis 2060 erschöpft sein. Auch hier gibt es ein größeres Problem: Photobucket hat Fotos von Social-Networking-Plattformen aus den XNUMXer Jahren wie Myspace aufgenommen, was bedeutet, dass sie nicht so hoch sind wie aktuell Fotografie. Dies führt zu Daten von geringer Qualität.

Photobucket ist nicht allein. Im Februar 2024 schloss Google einen Deal mit Reddit ab, der es dem Suchriesen ermöglichte, die Benutzerdaten der Social-Media-Plattform zum Trainieren künstlicher Intelligenz zu nutzen. Auch andere Social-Networking-Plattformen stellen Nutzerdaten für KI-Trainingszwecke bereit; Einige nutzen es, um interne KI-Modelle zu trainieren, wie zum Beispiel Metas Llama.

Obwohl einige Informationen aus minderwertigen Daten extrahiert werden können, entwickelt Microsoft Berichten zufolge eine Möglichkeit für die KI, Daten selektiv zu „ignorieren“. Diese Lösung wird in erster Linie für Fragen des geistigen Eigentums eingesetzt, kann aber auch dazu führen, dass Tools vergessen, was sie aus Datensätzen geringer Qualität gelernt haben.

Wir können der KI mehr Daten zuführen, ohne zu selektiv vorzugehen; Diese KI-Systeme können dann auswählen, woraus sie am nützlichsten lernen können.

3. Die Spracherkennung erschließt die in Videos und Podcasts verfügbaren Daten

Die in KI-Tools eingespeisten Daten bestehen bisher größtenteils aus Text und in geringerem Maße aus Bildern. Das wird sich zweifellos ändern und hat es wahrscheinlich auch schon getan, denn dank Spracherkennungssoftware wird die Fülle an verfügbaren Videos und Podcasts auch das Training künstlicher Intelligenz ermöglichen.

Es ist erwähnenswert, dass OpenAI das Open-Source-Neuronale Netzwerk für die automatische Spracherkennung (ASR) entwickelt hat. Flüstern, unter Verwendung von 680.000 Stunden mehrsprachiger Multitasking-Daten. OpenAI hat dann mehr als eine Million Stunden an Informationen aus YouTube-Videos in sein großes Sprachmodell GPT-4 eingespeist.

Dies ist ein ideales Modell für andere KI-Systeme, die Spracherkennung verwenden, um Video- und Audiodaten aus vielen Quellen zu transkribieren und diese Daten durch ihre eigenen KI-Modelle laufen zu lassen.

entsprechend StatistaPro Minute werden mehr als 500 Stunden Video auf YouTube hochgeladen, eine Zahl, die seit 2019 ziemlich konstant geblieben ist. Und ganz zu schweigen von anderen Video- und Audioplattformen wie Dailymotion und Podbean. Wenn die KI ihre Aufmerksamkeit auf neue Datensätze wie diese richten kann, müssen immer noch riesige Mengen an Informationen extrahiert werden.

4. KI hat sich weitgehend an die englische Sprache gehalten

Das ist nicht alles, was wir von Whisper lernen können. OpenAI trainierte das Modell anhand von 117000 Stunden nicht-englischsprachiger Audiodaten. Dies ist besonders interessant, da viele KI-Systeme hauptsächlich mit der englischen Sprache oder der Betrachtung anderer Kulturen durch eine westliche Linse trainiert wurden.

Im Wesentlichen sind die meisten Tools an die Kultur ihrer Entwickler gebunden.

Nehmen Sie ChatGPT als Beispiel. Kurz nach seiner Veröffentlichung im Jahr 2022... Jill Walker Rettberg, Professor für digitale Kultur an der Universität Bergen, Norwegen, experimentierte mit ChatGPT und kam zu folgendem Schluss:

„ChatGPT weiß nicht viel über die norwegische Kultur. Oder besser gesagt, es wird angenommen, dass alles, was er über die norwegische Kultur weiß, größtenteils aus englischen Quellen stammt … ChatGPT ist eindeutig mit amerikanischen Werten und Gesetzen vereinbar. In vielen Fällen ähneln diese den norwegischen und europäischen Werten, aber das ist nicht immer der Fall.

Daher könnten sich KI-Systeme so entwickeln, dass mehr multinationale Menschen mit ihnen interagieren, oder sie könnten vielfältigere Sprachen und Kulturen nutzen, um solche Systeme zu trainieren. Derzeit sind viele KI-Modelle auf eine einzige Bibliothek beschränkt; Es könnte wachsen, wenn man die Schlüssel zu Bibliotheken auf der ganzen Welt erhält.

5. Verlage können bei der Entwicklung künstlicher Intelligenz helfen.

Verlage können bei der Entwicklung künstlicher Intelligenz mithelfen.

Geistiges Eigentum ist natürlich ein großes Problem, aber einige Verlage können durch den Abschluss von Lizenzvereinbarungen zur Weiterentwicklung der KI beitragen. Das bedeutet, den Tools hochwertige, d. h. zuverlässige Daten aus Büchern zur Verfügung zu stellen, statt minderwertige Informationen aus Online-Quellen.

Tatsächlich soll Meta, der Besitzer von Facebook, Instagram und Whatsapp, über den Kauf von Simon & Schuster, einem der „Big Five“-Verlage, nachgedacht haben. Die Idee bestand darin, die vom Unternehmen veröffentlichte Literatur zu nutzen, um die KI von Meta zu trainieren. Der Deal scheiterte letztendlich, möglicherweise aufgrund der ethischen Grauzone, in der das Unternehmen IPs ohne vorherige Zustimmung der Autoren verarbeitete.

Eine weitere Option, die in Betracht gezogen wird, scheint der Erwerb einzelner Lizenzrechte für neue Titel zu sein. Dies dürfte bei Entwicklern erhebliche Bedenken hervorrufen, stellt aber dennoch eine interessante Möglichkeit zur Entwicklung von KI-Tools dar, wenn uns die nutzbaren Daten ausgehen.

6. Synthetische Daten sind die Zukunft

Alle anderen Lösungen sind noch begrenzt, aber es gibt eine Option, die der KI in Zukunft zum Erfolg verhelfen könnte: synthetische Daten. Die Angelegenheit wird bereits als sehr reale Möglichkeit untersucht.

Was sind also synthetische Daten? Es handelt sich um Daten, die durch künstliche Intelligenz generiert werden; So wie Menschen Daten erstellen, wird bei dieser Methode die KI Daten für Trainingszwecke erstellen.

Tatsächlich kann KI überzeugende Deepfake-Videos erstellen. Dieses Deepfake-Video kann an die KI zurückgemeldet werden, damit diese aus einem im Wesentlichen fiktiven Szenario lernen kann. Dies ist schließlich eine der wichtigsten Lernmethoden des Menschen: Wir lesen oder schauen uns etwas an, um die Welt um uns herum zu verstehen.

KI-Systeme haben wahrscheinlich bereits künstliche Informationen verbraucht. Deepfakes haben im Internet irreführende und falsche Informationen verbreitet. Wenn also KI-Systeme Online-Inhalte scannen, liegt es nahe, dass einige möglicherweise gefälschten Inhalten ausgesetzt waren.

Ja, das hat auch eine unheimliche Seite. Darüber hinaus kann es KI-Systeme beschädigen oder einschränken und die von diesen Tools verursachten Fehler verstärken und verbreiten. Unternehmen arbeiten daran, das Problem zu beseitigen. Allerdings ist der Satz „KIs lernen voneinander und machen Fehler“ ein Handlungspunkt für viele Science-Fiction-Horrorszenarien.

7. Künstliche Intelligenz besser nutzen

Werkzeuge der künstlichen Intelligenz sind umstritten. Es gibt viele Nachteile, aber Kritiker ignorieren seine Vorteile. Zum Beispiel Audit- und Beratungsnetzwerk PwC [PDF] Künstliche Intelligenz könnte bis 15.7 bis zu 2030 Billionen US-Dollar zur Weltwirtschaft beitragen.

Darüber hinaus wird KI bereits überall auf der Welt eingesetzt. Wahrscheinlich haben Sie es heute in der einen oder anderen Form verwendet, vielleicht ohne es überhaupt zu merken. Da der Geist nun aus der Flasche ist, liegt der Schlüssel definitiv darin, ihn anhand zuverlässiger, qualitativ hochwertiger Daten zu trainieren, damit wir ihn richtig nutzen können.

Künstliche Intelligenz hat ihre Vor- und Nachteile. Es lässt sich auf jeden Fall ein Gleichgewicht finden.

KI-Tools stehen aufgrund des Mangels an verfügbaren Trainingsdaten vor einer zunehmenden Herausforderung, was ihren Fortschritt und ihre Entwicklung zu beeinträchtigen droht. Um diese Herausforderung zu bewältigen, werden innovative Lösungen eingesetzt, beispielsweise die Verwendung synthetischer Daten, die Nutzung unüberwachten Lernens und die Förderung der Zusammenarbeit zwischen Institutionen zum Austausch von Daten. Diese Lösungen tragen dazu bei, neue Datenquellen bereitzustellen und sicherzustellen, dass intelligente Modelle kontinuierlich effizient und effektiv verbessert und weiterentwickelt werden.