Kommentar von Ole Dawidzinski, Tisson & Company Large Language Models – Open Source als Alternative?

Von Ole Dawidzinski 6 min Lesedauer

Beinahe täglich erscheinen neue Werkzeuge und Use Cases auf Basis von Large Language Models (LLMs). Nie war es so leicht, Zugriff auf fortschrittlichste KI-Systeme zu bekommen. Aktuell sind OpenAI und Microsoft sowie Google die führenden kommerziellen Anbieter, die auch Schnittstellen (APIs) zur Nutzung der Modelle bereitstellen – sogenannte AI-as-a-Service (AIaaS).

Der Autor: Ole Dawidzinski ist Partner und Lead Data Scientist bei Tisson & Company
Der Autor: Ole Dawidzinski ist Partner und Lead Data Scientist bei Tisson & Company
(Bild: Sebastian Berndt)

Der überwiegende Teil der aktuellen KI-Anwendungen basiert auf diesen kommerziellen Schnittstellen. Der Nachteil: Kosten, Datenschutz und mögliche Intransparenz mit Blick auf mögliche Regulierungen. Demgegenüber steht eine sich rasend schnell entwickelnde Open Source Community. Inzwischen hat auch Meta 2022 ein eigenes LLM (LlaMA in der Version 1, seit Juli 2023 LlaMA-2 mit der Erlaubnis der kommerziellen Nutzung) zur Forschung und Weiterentwicklung öffentlich gemacht und damit der Entwicklung von leistungsstarken Open-Source-Modellen einen großen Schub gegeben. Diese und weitere Open-Source-Modelle haben sich rasant entwickelt und können in vielen Benchmarks mit ChatGPT und Closed-Source-Modellen wie GPT-4 mithalten oder übertreffen diese bereits.

Welche Open-Source-Modelle gibt es?

Mit der Veröffentlichung von ChatGPT im November 2022 wurden die Möglichkeiten und Potenziale von Generativen KI-Systemen auf Basis von LLMs auf einen Schlag einer großen Öffentlichkeit zugänglich und bekannt. Dabei gibt es LLMs bereits seit 2018, kurz nach der Veröffentlichung der Transformerarchitektur. Zu den ersten großen LLMs gehörten BERT (ein Encoder-Modell und Architekturansatz von Google) und GPT-2 (ein Decoder-Modell von OpenAI). Beiden sind nach wie vor Open Source, frei zugänglich und quasi die Urahnen aller aktuellen Modelle.

Seitdem hat sich eine Menge getan und es haben sich unzählige Modelle und Ableger entwickelt. Zu den Modellen, die Open Source und auch kommerziell nutzbar sind, gehören unter anderem (sortiert nach Bekanntheit und Zeitpunkt der Veröffentlichung): BERT (Google), GPT-2 (OpenAI), GPT-NEOX / GPT-J (EleutherAI), die Flan-T5-Serie (Google), Dolly-2 (Databricks), Falcon (TII), MPT-7B (MosaicML) und LlaMA-2 (Meta). Dabei ist wichtig zu beachten, dass es bei einzelnen Modellen Einschränkungen in der kommerziellen Nutzung gibt, auf die in einem späteren Abschnitt eingegangen wird.

Closed Source versus Open Source

All diese Modelle haben unterschiedliche Architekturen, Anwendungsfälle und sind zumeist auf einzelne Aufgabenstellungen spezialisiert. Das führt dazu, dass sie keine derartigen Generalisten sind wie OpenAIs GPT-3 und seine Instruct-Versionen wie GPT-3.5 (die Modelle hinter ChatGPT). Tatsächlich ist dies eines der großen Alleinstellungsmerkmale von aktuellen Closed-Source-Anbietern und ein wesentlicher Grund für den Erfolg von KI-Systemen wie ChatGPT oder LLMs wie GPT-3 und -4: Bedingt durch ihre Architektur (Decoder-Only) und speziellen Trainingsmethoden sind sie hervorragende Generalisten und im Grunde aufgabenagnostisch. Großen Anteil haben dabei das Supervised Fine-Tuning (SFT) mit sogenannten Instruction Datasets sowie das Reinforcement-Learning from Human Feedback (RLHF), bei denen Menschen die Ergebnisse bewerten und direktes Feedback geben. Diese Trainingsmethoden sind jedoch zeit- und kostenintensiv und das umso mehr, je größer das zugrunde liegende Modell ist. Lange galt, dass die Größe eines Modells, also die Anzahl an Parametern, der entscheidende Faktor für die Leistungsfähigkeit eines Modells ist. Die Gleichung war einfach: Je mehr Parameter, umso besser das Modell. Das führte dazu, dass nur wenige große und zumeist kommerzielle Anbieter in der Lage sind, diese Modelle zu entwickeln, anzupassen und zu betreiben. Ein Schlüsselargument für Closed Source.

Diese Meinung ist mittlerweile überholt und einer der Gründe für den Erfolg und die Entwicklung von Open-Source-Modellen, wie Metas LlaMA. Es wurde herausgefunden, dass neben der Größe auch die Menge und Qualität der Trainingsdaten einen großen Einfluss haben und viele aktuelle LLMs im Vergleich zu ihrer Größe untertrainiert sind. Modelle mit deutlich weniger Parametern, aber qualitativ und quantitativ besseren Trainingsdaten, erreichen so vergleichbare oder bessere Leistungen, bei geringeren Kosten in der Entwicklung, bei der Anpassung und dem Betrieb. Wie fähig solche Modelle sind, hat Meta Anfang 2023 mit seiner LlaMA-LLM-Familie gezeigt, die in Verbindung mit Fine-Tuning-Techniken wie dem RLHF oder dem Instruction Finetuning in kürzester Zeit an die Leistung von ChatGPT herankommen konnte. Der im Juli 2023 veröffentlichte Nachfolger LlaMA-2 übertrifft in seiner Chat-Variante in beinahe allen Benchmarks ChatGPT und angepasste Versionen reichen bereits in einzelnen Aufgaben an die Leistung von GPT-4 heran.

Das muss bei der kommerziellen Nutzung beachtet werden

Open Source LLMs können, insbesondere wenn diese für einzelne Aufgaben angepasst werden und abhängig vom Anwendungszweck, mittlerweile durchaus eine Alternative zu Closed-Source-LLMs sein oder diese sogar übertreffen. Jedoch gibt es für den kommerziellen und damit produktiven Einsatz einiges zu beachten.

  • 1. Lizenz und Finetuning: Wesentliche Faktoren für die Leistungsfähigkeit von LLMs sind die Qualität und Quantität von Trainingsdaten. Insbesondere das sogenannte Instruction-Finetuning benötigt einen gesonderten Trainingsdatensatz, mit vielen Frage-Antwort-Paaren, die Anweisungen beinhalten. In vielen Fällen wurden solche Trainingsdatensätze unter Nutzung einer Closed-Source Anwendung wie ChatGPT oder GPT-4 erstellt. Da OpenAI die Nutzung seiner Produkte zum Training von anderen LLMs verbietet, sind ebenfalls alle Open-Source-LLMs, die mit einem solchen Datensatz (nach-) trainiert wurden, nicht mehr kommerziell einsetzbar. Bei der Auswahl eines Open Source LLMs ist es deshalb ratsam, auch die für das Training verwendeten Datensätze auf ihre Lizenzen zu prüfen. Darüber hinaus gibt es auch Sonderfälle, wie bei LlaMA-2, das zwar für die kommerzielle Nutzung freigegeben ist, aber auch Einschränkungen aufweist (z. B. ab 700 Millionen Nutzern im Monat).
  • 2. Inbetriebnahme und Performance: Einer der größten Vorteile von aktuellen Open-Source-Modellen im Vergleich zu Closed-Source-Systemen ist, dass diese um ein vielfaches kleiner und offen zugänglich sind und Nutzer und Firmen in der Lage sind, solche Systeme selbst zu hosten und zu betreiben. Damit können Unsicherheiten wie mangelnde Transparenz (Stichwort AI Act), Datenschutz/Sicherheit oder Individualisierungen leichter angegangen werden. Jedoch sind selbst kleine Modelle rechenintensiv und benötigen spezielle Ressourcen, um die Inferenz-Zeit (die Zeit die ein LLM braucht um eine Antwort zu generieren), möglichst gering zu halten. Aktuell gibt es viele Techniken wie QLoRA, Bitsandbytes oder GPTQ, welche LLMs weiter optimieren oder komprimieren, um die Performance zu erhöhen oder die Ressourcenanforderungen zu reduzieren.
  • 3. Kosten und Auswahl eines LLMs: Auch wenn ähnlich leistungsfähige generalistische Open-Source-Modelle bereits vielfach kleiner sind, kann der Betrieb Kosten verursachen. Wichtig ist deshalb der Use Case und die Frage, ob es für die Auswahl der Problemstellung tatsächlich immer das aktuellste (Open Source) LLM sein muss. Wenn der Anwendungsfall nur die automatische Klassifizierung von Kundenrezensionen umfasst, wäre z. B. mitunter ein angepasstes BERT-LLM (wenige 100 Millionen Parameter) die deutlich bessere und auch kostengünstigere Wahl, da dieses viel günstiger betrieben werden kann. Tatsächlich erfordern viele Anwendungsfälle gar keine aufgabenagnostischen LLMs, sondern können mit nochmals deutlich kleineren, aber spezialisierteren Modellen umgesetzt werden. Bei der Auswahl spielen damit immer der Einsatz und die Kosten eine entscheidende Rolle.

Fazit

Die Open Source Community hat es in kürzester Zeit geschafft, konkurrenzfähige Modelle zu Closed-Source-Anbietern zu entwickeln, die zwar nicht in allen Bereichen derart vielseitig und generisch sind wie beispielsweise GPT-4, dafür jedoch erstmals mit vertretbarem Aufwand individuell angepasst und betrieben werden können. Dabei hat insbesondere die Anpassung der Modelle auf individuelle Use Cases einen großen Einfluss und ermöglicht hervorragende Ergebnisse auch mit älteren Modellen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die aktuelle Entwicklung ist nach wie vor beeindruckend schnell. Wöchentlich kommen neue Erkenntnisse, Modelle oder Techniken auf den Markt und es ist schwer abzuschätzen, wohin die Reise geht. Ich persönlich bin davon überzeugt, dass es für die wenigsten Anwendungsfälle (insbesondere im kommerziellen Umfeld) derart aufgabenagnostische Modelle benötigt, sondern dass das Fine-Tuning in Verbindung mit hochwertigen Ausgangsdaten in vielen Fällen der bessere Weg ist, und es zukünftig eher viele „kleine“, spezialisierte Modelle geben wird statt weniger großer. Der Vorteil ist die Möglichkeit sein eigenes LLM betreiben zu können und dieses nicht von Closed-Source-Anbietern „mieten“ zu müssen. Eine große Herausforderung wird dabei allerdings nach wie vor der Betrieb sein, da solche Modelle und Systeme auf spezielle Ressourcen angewiesen sind. Damit kommt es weiterhin auf den Anwendungsfall an, wann und in welchem Umfang Open-Source-LLMs eine Alternative sein können.

Artikelfiles und Artikellinks

(ID:49802158)