GPT-3 – Ein Blick in die Zukunft des maschinellen Lernens

Anfang 2019 stellte OpenAI die zu diesem Zeitpunkt umfassendste Text-KI “Generative Pre Trained-Transformer-2”, kurz GPT-2, vor. Das 1,5 Milliarden Parameter starke Modell wurde mit 40 Gigabyte Internet-Text trainiert. Diese damals überragende Iteration der KI verstand und generierte bereits Texte, die erst auf den zweiten oder dritten Blick Zweifel daran weckten, dass ein menschlicher Autor Urheber ist. Nur etwa ein Jahr nach dem Launch von GPT-2 wurde im Frühsommer letzten Jahres (2020) der Nachfolger GPT-3 vorgestellt.

Der neue KI-Gigant ist hundertmal größer, lernt schneller – und kann Texte verstehen und verfassen, die kaum noch von Texten menschlichen Ursprungs zu unterscheiden sind. GPT-3 nutzt 175 Milliarden Steuerungsparameter, um Sätze und Wortgruppen zu bilden. Das ist zehnmal mehr, als allen bisherigen Sprachmodellen zur Verfügung steht. Die unterschiedlichen Parameter ermöglichen es GPT-3 unter anderem, eine Vielzahl unterschiedlicher Daten, Werte und Informationen von Unterprogrammen zu verarbeiten und zur Grundlage seiner Entscheidungsfindung zu machen.

GPT-3 wurde mit schier unvorstellbaren Textmengen “gefüttert”: Die Entwickler nutzten für das Training mehr als 570 Gigabyte gefilterten Text, was etwa einer Billion Wörtern entspricht. Der verwendete Datensatz umfasst unter anderem das Textarchiv von Common Crawl, einer gemeinnützigen Organisation, die seit 2011 Texte – darunter Foreneinträge, Blogbeiträge und Leitartikel – aus dem Internet sammelt. GPT-3 wurde zudem mit der englischsprachigen Wikipedia, dem WebText Data-Set und mehreren Literaturdatenbanken gespeist. Diese riesigen Mengen an Text ermöglichten es, GPT-3 zu trainieren, ohne dabei jemals identische Formulierungen zu wiederholen.

Einen Schritt weiter in Richtung genereller KI durch Few-Shot-Learning

Neben der schieren Größe der Sprach-KI ist es auch ihr neuer Lernansatz, der Experten von einem “Wendepunkt für die Verarbeitung natürlicher Sprache” sprechen lässt: Die Entwickler konzentrieren sich auf die Fähigkeit von GPT-3, neue Aufgaben mit nur wenigen oder gar keinen Beispielen zu meistern. Vergleichbar mit der menschlichen Lernmethode, auf Basis eines zugrundeliegenden Wissensschatzes mit wenigen Beispielen neue Aufgaben oder Zusammenhänge zu verstehen, soll GPT-3 so auch in Bereichen mit wenigen zur Verfügung stehenden Daten zuverlässige Ergebnisse liefern.

Klassische KI-Sprachmodelle müssen im Normalfall für die vorgesehene Anwendung spezifisch trainiert werden. Ein Kundendienst-Bot, der von einem Händler für Küchengeräte eingesetzt wird, muss zum Beispiel mit Daten über die angebotenen Produkte, Zubehör und Fragen der Kunden fein abgestimmt werden. Ein Bot, der von einer Fluggesellschaft im Kundenservice eingesetzt wird, muss alles über Flüge, Buchungen usw. wissen. Auch bei einer aufgabenagnostischen KI ist typischerweise eine aufgabenspezifische Feinabstimmung durch Datensätze mit Tausenden bis Hunderttausenden von gelabelten Beispielen für jede einzelne Aufgabe erforderlich, wenn eine starke und zuverlässige Leistung erreicht werden soll. Eine bereits vortrainierte künstliche Intelligenz wird hierfür durch das Training mit einem überwachten Datensatz kontrolliert und optimiert.

Eine solche Feinabstimmung mit Tausenden von Beispielen für jede einzelne der zu bewältigenden Aufgabe ist mit dem für GPT-3 verwendeten Prinzip des Few-Shot-Learning nicht mehr im bisherigen Maß notwendig. Im KI-Netzwerk des GPT-3 sind 410 Milliarden sogenannter Tokens gespeichert – Repräsentanzen von Wörtern, Wortbestandteilen und Bedeutungen, die die KI verwendet, um Sätze und Wortgruppen zu bilden. Durch diese enorme Menge an Referenzen ist GPT-3 in der Lage, eine Vielzahl von sprachbasierten Aufgaben mit nur wenigen Beispielen zu bewältigen. Im Rahmen des Few-Shot-Learning werden der KI neben der Aufgabenbeschreibung nur zwischen 10 und 100 Beispiele für die Lösung einer Aufgabe des gestellten Aufgabentyps vorgegeben, bevor die KI selbstständig Aufgaben lösen soll. In vielen Fällen erreicht oder übertrifft GPT-3 mit dieser Vorgehensweise die Leistung von KIs, die für einzelne Aufgaben, wie beispielsweise das Abschließen begonnener Sätze, spezifisch entwickelt und trainiert wurden.

Few-Shot-Learning gilt daher zu Recht als wichtiger Bestandteil einer möglichen Generellen Künstlichen Intelligenz – im Englischen “Artificial General Intelligence” (AGI) oder “Strong AI”. Denn das Lernmodell erfordert nicht nur einen deutlich reduzierten Bedarf an aufgabenspezifischen Trainingsdaten, sondern verringert auch das Risiko, dass eine KI aufgrund eines zu eng bestimmten Datensatzes in der Vielfalt der gelieferten Ergebnisse begrenzt wird.

Einen Schritt weiter in Richtung allgemeiner Verwendbarkeit

Das besondere am neuen Generative Pre Trained-Transformer ist jedoch nicht allein seine gesteigerte Leistungsfähigkeit gegenüber den vorherigen Generationen. Die Ergebnisse der immensen Rechenpower werden durch GPT-3 alltagstauglich und motivieren Entwickler sowie Unternehmen dazu, mit der KI zu arbeiten: Innerhalb weniger Monate wurde auf Basis von GPT-3 das Schreiben von eMails vereinfacht, ein Text-Generator für hochperformante Werbetexte entwickelt und ein Plug-In entworfen, dass menschliche Sprache in Designs übersetzt. Diese Liste lässt sich fast beliebig fortsetzen – GPT-3 ist innerhalb weniger Wochen zu einem Lieblingswerkzeug der KI- und NLP-Gemeinde geworden und Microsoft hat sich Ende September 2020 die exklusiven Nutzungs- und Vermarktungslizenzen gesichert.

Der neue Maßstab steht und ist noch fehleranfällig

Trotz der allgemeinen Begeisterung um die neue Intelligenz sind auch die Fähigkeiten des Wunderkinds GPT-3 nicht uneingeschränkt: So gibt es beispielsweise bei der Textsynthese trotz der insgesamt hohen Gesamtqualität teils Widersprüche, die Texte verlieren bei längeren Passagen an Kohärenz und enthalten nicht zusammenhänge Sätze oder Absätze. Auch bei “Vergleichsaufgaben” – wenn also etwa bestimmt werden soll, ob zwei Wörter in einem Satz auf die gleiche Weise verwendet werden oder ob ein Satz einen anderen impliziert – schneidet die künstliche Intelligenz nur leicht besser ab als der Zufall. Als Chatbot in spezialisierten Bereichen, wie etwa der Medizin, ist GPT-3 daher bisher noch ungeeignet. Und letztlich fällt an einigen Stellen dann doch auf, dass es GPT-3 am “allgemeinen Menschenverstand” fehlt: Auf Fragen wie „Schmilzt Käse, wenn ich ihn in den Kühlschrank lege?” kennt das ansonsten schlaue System keine Antwort.

Auch wenn das neuste von OpenAI geschaffene Netzwerk noch einige Lücken aufweist, stellt es neue Maßstäbe im Bereich des Natural Language Processing auf. Die erfolgreiche Verwendung und Weiterentwicklung von Few Shot Learning wird sicherlich den Weg zu einer hochentwickelten, allgemeinen künstlichen Intelligenz verkürzen.

GPT-3 öffnet neue Horizonte und ermöglicht in absehbarer Zeit die Verarbeitung von unstrukturierten Daten und Texten nahe am Leistungs- und Qualitätsniveau menschlicher Experten. Doch schon jetzt gibt es für nahezu alle Arbeitsbereiche Software-Lösungen, die die menschlichen Experten in ihren Tätigkeiten unterstützen und lernend immer besser werden. Ein Beispiel für den komplexen Bereich rechtlicher Analysen sind “Deep Legal Technology” Produkte wie veins. veins unterstützt Arbeits- und Entscheidungsprozesse im Zusammenhang mit der Kreation, dem Schutz, Management und der Verwertung von Intellectual Property Assets. Als umfassendes Legal Management- und Business Development-Tool für Intellectual Property kann veins in kürzester Zeit auch ohne juristische Vorkenntnisse und aufwendige Onboarding-Projekte eingesetzt werden.

Wie das konkret aussehen kann, besprechen wir gerne persönlich mit Ihnen.