Ein Blick auf die neuen OWASP Top 10 for LLM Risiken generativer KI und Large Language Models (LLM)

Ein Gastbeitrag von Jaroslaw Kopowski und Markus Hüntelmann 12 min Lesedauer

Während die Diskussion über die Verantwortung und Regulierung von KI-Technologien weitergeht, dürfen die realen Risiken, die bereits existieren, nicht vernachlässigt werden. Die im August 2023 erschienenen OWASP TOP 10 für LLM (Large Language Models) stellen ein wertvolles Hilfsmittel dar, um sich den Sicherheitsrisiken bewusst zu werden und entsprechende Maßnahmen zu ergreifen, um diese Risiken zu mindern.

Die OWASP Top 10 für LLM ermöglichen es Unternehmen und Organisationen, die mit diesen Modellen arbeiten, frühzeitig Sicherheitsrisiken und -probleme bei KI zu erkennen, zu bewerten und zu behandeln.
Die OWASP Top 10 für LLM ermöglichen es Unternehmen und Organisationen, die mit diesen Modellen arbeiten, frühzeitig Sicherheitsrisiken und -probleme bei KI zu erkennen, zu bewerten und zu behandeln.
(Bild: 3dkombinat - stock.adobe.com)

Trotz der bekannten Risiken und Sicherheitsprobleme bleibt die KI-Technologie attraktiv und verlockend, und Unternehmen setzen weiterhin Milliarden in Künstliche Intelligenz ein. Gerade die Generative KI hat zweifellos das Potenzial, die Welt zu revolutionieren, aber ihre Nutzung erfordert verantwortungsvollen Umgang und klare Sicherheitsstrategien. Daher ist es entscheidend, die Verantwortlichen und alle Beteiligten frühzeitig zu sensibilisieren und Sicherheitsvorkehrungen zu treffen, um die potenziellen Auswirkungen dieser Risiken zu mildern und dennoch das volle Potenzial von Large Language Models (LLMs) auszuschöpfen. Die am 1. August 2023 neu erschienenen OWASP Top 10 für LLM bietet hierbei eine wichtige Orientierung und ermöglicht es, die derzeit bekannten Schwachstellen frühzeitig zu erkennen und angemessen zu behandeln.

Generative künstliche Intelligenz (KI) erobert die Welt. Spätestens mit der Anwendung Chat-GPT4 ist es dem Hersteller OpenAI weltweit gelungen einen regelrechten Hype auszulösen. Mit diesem Trend einhergehend gelingt den Large Language Models (LLM) erfolgreich der Eintritt in den Massenmarkt für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP). Doch was genau verbirgt sich hinter dieser Technologie? Neben den unbestrittenen Vorteilen und Mehrwerten dieser Technologie im Bereich Internet of Things / Industrie 4.0 gehen wir näher auf die regulatorischen Herausforderungen und Risiken ein. Doch welche sind dies? Für den erfolgreichen Umgang mit den Sicherheitsrisiken stellen wir Ihnen die vom OWASP Projekt vorgeschlagenen OWASP Top 10 für Large Language Models (LLMs - große Sprachmodelle) vor.

Aber zunächst: Was verbirgt sich überhaupt hinter dem Begriff “Large Language Models (LLM)? Large Language Models (LLM) (dt. Übersetzung: große Sprachmodelle) sind von generativer KI-gesteuerte, auf Deep Learning Modellen basierende Sprachmodelle, die zum Erlernen von Sprachmustern große Datensätze mittels komplexer Algorithmen analysiert und Wahrscheinlichkeiten von Wortsequenzen in Sätzen bestimmt. Dabei haben die fortschrittlichen Modelle bereits heute die Fähigkeit, menschenähnlichen Text als Antwort auf Anfragen zu generieren und komplexe sprachliche Aufgaben zu bewältigen. LLM sind in der Lage, Wortbedeutungen, Satzbeziehungen und subtile sprachliche Nuancen zu verstehen und somit beinahe menschenähnliche Texte zu produzieren. Exemplarisch seien hier folgende Anwendungsfälle, wie das Schreiben von Texten, das Verfassen von Aufsätzen, das automatisierte Erstellen von Text- oder Meeting-Zusammenfassungen, das Zeichnen von Bildern, das Komponieren von Musik, das Übersetzen von Audiotönen in Texte sowie das Erstellen von ausführbarem Programmcode genannt. Und die Forschung zeigt, dass das wahrscheinlich erst der Anfang ist.

Welche Technologie verbirgt sich hinter den LLMs?

Zunächst gilt es technologisch zwischen Assistenten und Chatbots zu unterscheiden. Die digitalen Assistenten, wie z.B. “ Siri, Google Assistent, Cortana, Alexa” basieren auf sogenannten Command-and-Control-Systemen, die sich dadurch auszeichnen, dass ihre Datenbank eine endliche Liste von Fragen und Antworten ausweist. Gerade aber in der Architektur der Chatbots liegt hier der entscheidende Vorteil. Diese basieren auf komplexen Modellen / Algorithmen der Transformer Architektur, bei der ein neuronales Netzwerk auf großen Datensätzen (mit bis zu Milliarden von Wörtern) zur Sprachverarbeitung angelernt wird, um die natürliche Sprache und ihre Verwendung im Kontext besser zu verstehen. Dieses Netzwerk zeichnet sich im Gegensatz zur limitierten Erweiterbarkeit der Command- and-Control Systeme, dadurch aus, dass eine solche Einschränkung vom Design her nicht gegeben ist. Vielmehr ist das neuronale Netzwerk gerade darauf ausgelegt, aus immer größer werdenden Datensätzen (mit bis zu Milliarden von Wörtern) aus dem Internet wiederkehrende Regeln zu erlernen, um Vorhersagen für die Texterstellung, Textklassifizierung zu treffen. Innerhalb der Familie der großen Sprachmodelle (LLM) haben sich drei Arten herausgebildet, und zwar die Autoregressiven Sprachmodellen, die Autoencoding Sprachmodelle und als dritte Variante die Kombination aus beiden (Autoregressiven und Autoencoding) Sprachmodellen.

  • Autoregressive Sprachmodelle generieren als Reaktion auf eine Eingabe Text, indem das nächste Wort in einer Sequenz anhand des vorherigen Wortes unter Rückgriff auf die zuvor bestimmten Wahrscheinlichkeiten von Wortsequenzen in Sätzen vorausgesagt wird. Als namenhaftes Beispiel von Autoregressiven Sprachmodellen ist hier GPT—4 (Generative-Pre-trained Transformer – 4) des Unternehmens OpenAI zu nennen.
  • Autoencoding Sprachmodelle generieren als Antwort auf eine Eingabe Text, indem eine Vektordarstellung des Eingabetexte in fester Größe generiert wird, um in der Folge anhand des Kontextes der Eingabe die ursprüngliche Eingabe (Version) ohne maskierte (verfälschte oder fehlende) Wörter zu vorherzusagen. Als ein Beispiel für viele sei hier BERT (Bidirectional Encoder Representations from Transformers) von Google genannt.
  • Die Kombination aus Autoregressive und Autoencoding Sprachmodell wird von LLM-Tool T5 (Text-to-Text Transfer Transformer), entwickelt von Google angewendet.

Weitere Beispiele für KI-Tools und große Sprachmodule (LLM) sind:

  • RoBERTa (Robustly Optimized BERT Approach) vom Unternehmen Facebook AI.
  • Megatron-Turing vom Chiphersteller NVIDIA
  • CTRL (Conditional Transformer Language Model) – entwickelt von der Firma Salesforce Research
  • T5 (Text-To-Text-Transfer-Transformer) von Google
  • MT-NLG (Megatron-Turing Natural Language Generation) von Microsoft und Nvidia
  • LaMDA (Language Models for Dialog Applications) von Google
  • PaLM (Pathways Language Model) von Google
  • Gopher von Google DeepMind
  • Gemini von Google DeepMind, Project Gemini ist derzeit die neueste Entwicklung.

Potentiale und Herausforderungen eines flächendeckenden Einsatzes von LLM

Die jüngsten Fortschritte im Bereich der generativen KI (KI) haben dazu geführt, dass nahezu alle Führungskräfte diese als Schlüsseltechnologie betrachten. So ergab die Studie “Herausforderungen beim Einsatz von Künstlicher Intelligenz ”, dass die befragte Gruppe von jungen und mittelständischen Unternehmen in dem unternehmensweiten Einsatz von KI großes Potential, u.a. in folgenden Bereichen zugesprochen:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung
  • Prozessoptimierung und –Prozessautomatisierung
  • Erhöhung der Effizienz
  • Steigerung der Produktivität
  • Sicherstellung der Lieferketten “intelligente Lieferketten – Supply Chain Unternehmen”
  • Entwicklung neuer Geschäftsfelder und Geschäftsmodelle
  • Kundenbindung und Kundengewinnung durch KI-gesteuerte Customer Journey

Sicherheitsrisiken für LLM-Sprachmodelle

Jedoch darf die Euphorie nicht die damit einhergehenden Risiken aus dem Blickwinkel verlieren. Neben den noch zu definierenden ethischen und moralischen Fragestellungen gilt es unter Verweis auf den Bericht des “National Risk Register 2023 Edition des HM Government” die urheberrechtlichen und datenschutzrechtlichen Herausforderungen und Sicherheitsrisiken bei KI-Anwendungen im Blick zu behalten. Auf Letztere potentielle Sicherheitsrisiken ist das OWASP Projekt in den vorgeschlagenen OWASP Top 10 für LLM detailliert eingegangen.

Diese Liste beinhaltet die zehn wichtigsten Arten von Risiken, denen LLM-Sprachmodelle ausgesetzt sind. Beginnend mit "Prompt Injection", bei dem LLMs durch geschickte Prompt-Eingaben manipuliert werden, bis hin zu "Model Theft", bei dem unbefugten Zugriff, Kopieren oder Exfiltration von proprietären LLM-Modellen stattfindet.

Begünstigende Faktoren für Sicherheitsrisiken der OWASP Top 10 für LLM

Einerseits sind LLMs darauf programmiert, sowohl direkte Prompt-Anweisungen als auch externe Daten als Benutzereingaben zu betrachten, was sie anfällig für Manipulationen macht. Andererseits kann übermäßige Autonomie, gewährt durch exzessive Funktionalität, Berechtigungen oder Autonomie, zu ungewollten Konsequenzen führen. Als praktisches und derzeit aktuelles Beispiel sei hier die Forschung der KI-Forscher der Carnegie-Mellon-Universität, des Center for AI Safety und des Bosch Center for AI, erwähnt. In ihrer Studie konnten sie anhand speziell ausgewählter Zeichenfolgen, die an eine Benutzerabfrage angefügt wurden, die Schutzvorkehrungen großer generativer Sprachmodelle wie GPT-4, Bert oder Claude komplett umgehen und aushebeln. Die Ergebnisse wurden anschließend in ihrer Studie dokumentiert.

Etwas Besorgniserregendes ist im Rahmen der Studie die Feststellung der Forscher über die praktisch unbegrenzte Möglichkeit des Umgehens der Schutzvorkehrungen derzeit am Markt angebotener generativer Sprachmodelle. Auf diese Weise können sich die großen Sprachmodelle (LLM) entgegen ihrer eigentlichen Intention gegen den einzelnen oder eine Vielzahl von Menschen richten, indem die LLM falsche, gar schädliche Inhalte, die Hass und Hetze schüren weitestgehend autonom generiert und damit mittelbar destabilisierend auf die politische Sicherheit und Ordnung von Demokratien einwirkt. Aufgrund der großen Komplexität dieses Problems ist hier noch weitere Forschung erforderlich.

Zudem gilt es noch zu berücksichtigen, dass LLMs anfällig für so genannte Halluzinationen sind, welche im Ergebnis dazu führen können, dass von LLMs erzeugte Textantworten, faktisch inkorrekt oder sinnlos sein können. Dies geschieht u.a. aufgrund unvollständiger oder widersprüchlicher Trainingsdaten, in deren Folge bestimmte Wörter mit falschen Konzepten verknüpft wurden. In diesem Szenario sind dann die von der LLM generierten Antworten faktisch inkorrekt, übertrieben oder sinnlos. Als Beispiel hierfür kann eine neue Supply-Chain Angriffstechnik AI-Paket-Halluzination erwähnt werden, welche vom Voyager18-Forschungsteam von Vulcan Cyber entdeckt und dokumentiert wurde. Large Language Models (LLMs) wie ChatGPT können solche Halluzinationen erzeugen, bei denen es sich um falsche URLs, nicht-existierende Code-Bibliotheken und fragwürdige Lösungen für CVEs handelt.

Die Ausnutzung der erwähnten Risiken und Schwachstellen der LLM-Sprachmodelle kann zu weiteren weitreichenden Konsequenzen führen. Es gibt mittlerweile Chatbots (z.B. WormGPT oder FraudGPT), die für Cyberangriffe eingesetzt werden, indem sie eigenständig Phishing-Mails schreiben und versenden und Malware entwickeln. Als jüngstes Beispiel des missbräuchlichen Einsatzes von Chat-GPT ist der akustische Seitenkanalangriff auf Tastenanschläge von Tastaturen zu nennen, der Datenspionage mit KI (Deep-Learning-Modell) durch Tastaturgeräusche aus Audio- und Videomitschnitten ermöglicht.

Was ist überhaupt OWASP Top 10 für LLM (Große Sprachmodelle)?

Die OWASP Top 10 für LLM bezieht sich auf die zehn wichtigsten Arten von Sicherheitsrisiken, die LLM (Große Sprachmodelle) beeinträchtigen können. Diese Liste wurde am 01.08.2023 in der Version 1.0 veröffentlicht und von OWASP vorgestellt, um Entwickler, Designer, Projektverantwortliche und Organisationen umfassend über potenzielle Sicherheitsrisiken mit der Zielsetzung ihre Systeme besser absichern zu können, um so die Integrität, Vertraulichkeit und Verfügbarkeit ihrer LLMs zu gewährleisten zu können.

Die OWASP-Community hat sich der stetigen Aktualisierung der Listen entsprechend der neusten Bedrohungen verschrieben, um sicherzustellen, dass die Weiterentwicklungszyklen der KI- Technologie, hier der Anwendungen von LLM, nicht von Informationen für einen sicheren Betrieb der KI-Sprachmodelle entkoppelt werden.

Im nächsten Schritt werden die einzelnen OWASP TOP 10 Sicherheitsrisiken kurz näher vorgestellt.

LLM01: Prompt Injection

Prompt Injection bezeichnet eine Form der Eingabemanipulation, bei der ein LLM-Sprachmodell durch geschickte Eingaben dazu gebracht wird, unbeabsichtigte Aktionen auszuführen. Direkte Prompt Injection überschreibt dabei die Systemaufforderungen, während indirekte Manipulationen die Eingaben aus externen Quellen beeinflussen.

Da ein LLM-Sprachmodell sowohl direkte als auch indirekte Prompt-Eingaben als Benutzereingaben betrachtet und diese in natürlicher Sprache verarbeitet, gibt es keine vollständig zuverlässige Möglichkeit, Angriffe innerhalb des LLM selbst zu verhindern. Um die Auswirkungen von Prompt Injection Versuchen zu mindern, sollten Vertrauenskontrollen außerhalb des LLMs implementiert werden. Weitere beispielhafte Sicherheitsempfehlungen:

  • Erzwingen von Privilegien-Kontrollen (und Benutzerverwaltung) für den LLM-Zugriff auf Backend-Systeme.
  • Verwendung eigener API-Token bei erweiterbaren Funktionalitäten für das LLM.
  • Begrenzung des Zugriffs auf das Minimum erforderliche Maß.
  • Implementierung von "Human in the Loop", z.B. in Form von menschlichen Überprüfungen, für privilegierte Operationen und Funktionalitäten.
  • Trennung externer Inhalte von Benutzereingaben (Benutzer-Prompts) und Markierung unzuverlässiger oder falscher Inhalte.
  • Definieren von klaren Vertrauensgrenzen zwischen dem LLM-Sprachmodell, externen Quellen, und privilegierter Funktionalitäten.
  • Das LLM sollte als ein nicht vertrauenswürdiger Benutzer betrachtet werden und die endgültige Benutzerkontrolle über die Entscheidungsprozesse sollte beim Verantwortlichen beibehalten werden.
  • Beachten, dass ein kompromittiertes LLM als Zwischenstelle (Man-in-the-Middle) agieren kann und potenziell unzuverlässige Antworten visuell kennzeichnen.
  • Es sollte berücksichtigt werden, dass ein kompromittiertes LLM immer noch als ein Vermittler (Man-in-the-Middle) zwischen den APIs der Anwendung und dem Benutzer agieren könnte, indem es Informationen vor der Präsentation an den Benutzer eigenständig versteckt oder manipuliert. Potenziell nicht vertrauenswürdige Antworten sollten visuell für den Benutzer gekennzeichnet werden.

LLM02: Insecure Output Handling

Diese Schwachstelle tritt auf, wenn eine Ausgabe eines LLM ohne eine anschließende Prüfung direkt übernommen und akzeptiert wird. Durch diese unsichere Verarbeitung von Ausgabedaten werden die Backend-Systeme gefährdet. Die Ausnutzung dieser Schwachstelle kann zu schwerwiegenden Folgen führen, wie beispielsweise XSS, CSRF, SSRF, Privilege Escalation oder Remote Code Execution.

Beispielhafte Sicherheitsempfehlungen:

  • Behandeln des LLM-Modells wie jeden anderen Benutzer und Validierung seiner Antworten.
  • Befolgen der OWASP ASVS (Application Security Verification Standard) Empfehlungen für eine effektive Eingabe-Validierung und Daten Sanitisierung (Datenbereinigung).
  • Codieren der LLM-Modellausgabe, um unerwünschte Code-Ausführung (z.B. durch JavaScript oder Markdown) zu verhindern.

LLM03: Training Data Poisoning

Dies tritt auf, wenn die Trainingsdaten des LLM-Sprachmodells manipuliert werden und dadurch Schwachstellen oder sogenannte Bias (Voreingenommenheiten und somit unverhältnismäßige und unfair Gewichtungen) eingeführt werden, die die Sicherheit, Effektivität oder ethisches Verhalten beeinträchtigen. Beispiele solcher Quellen für Trainingsdaten können beispielsweise Common Crawl, WebText, OpenWebText und Bücher sein. LLM-Sprachmodelle mit geringer Verzerrung und überprüfbaren Ergebnissen gibt es derzeit nicht.

LLM04: Model Denial of Service

Durch einen solchen Angriff auf ein LLM-Sprachmodell können Angreifer ressourcenintensive Operationen verursachen, die zu Service- und Qualitäts- Einschränkungen oder hohen Kosten führen können. Die ressourcenintensive Natur von LLM-Sprachmodellen und die Unvorhersehbarkeit der Benutzereingaben verstärken diese Art von Schwachstelle.

LLM05: Supply Chain Vulnerabilities

Der Lebenszyklus einer LLM-Anwendung kann durch Schwachstellen in der Lieferkette (IT-Supply-Chain), wie beispielsweise anfällige Komponenten oder Dienste, beeinträchtigt werden, was zu unterschiedlichen Angriffen führen kann. Die Verwendung von Drittanbieter-Datensätzen, bereits vortrainierten Modellen und der Einsatz von Plugins für das LLM-Sprachmodell fügen zusätzliche Schwachstellen hinzu.

LLM06: Sensitive Information Disclosure

LLM-Sprachmodelle können versehentlich vertrauliche Daten in ihren Antworten preisgeben, was zu unbefugtem Datenzugriff, Verletzungen der Privatsphäre und Datenschutzverstößen führen kann. Um die Offenlegung sensibler Informationen (Data Leakage) zu minimieren, ist es entscheidend, eine Datenbereinigung (z.B. Pseudonymisierung oder Anonymisierung im Falle von personenbezogenen Daten) und klare KI-Benutzervorgaben in Form einer Richtlinie zu implementieren.

LLM07: Insecure Plugin Design

LLM-Plugins, welche Erweiterungen der LLM-Modelle sind, können aufgrund fehlender Anwendungssteuerung, unsichere Eingaben und unzureichende Zugriffskontrolle aufweisen. Mithilfe dieser Plugins ist es möglich, Internetseiten oder externe Dokumente automatisiert auszuwerten sowie auf Programmierumgebungen oder E-Mail-Postfächer zuzugreifen. Angreifer können Schwachstellen in diesen Plugins ausnutzen, was zu schwerwiegenden Folgen wie der Ausführung von entferntem Code (RCE, Remote Code Execution) oder indirekten Prompt-Injections, z.B. auf einem Remote-Server, führen kann.

LLM08: Excessive Agency

Ein auf LLM basierendes System wird häufig von seinem Entwickler mit einem gewissen Maß an Autonomie ausgestattet, d.h. der Fähigkeit, mit anderen Systemen zu interagieren und Aktionen als Reaktion auf eine Prompt-Anfrage durchzuführen. Durch die übermäßige Autonomie kann es zu unbeabsichtigten Folgen kommen. Das Problem entsteht, wenn dem LLM-basierten System eine übermäßige Funktionalität, Berechtigungen oder Autonomie gewährt werden.

LLM09: Overreliance

Eine übermäßige Abhängigkeit von Systemen oder Personen, die sich bei ihrer Entscheidungsfindung oder Inhaltsgenerierung zu stark auf LLM-Sprachmodelle verlassen, stellt eine Schwachstelle dar. Ohne angemessene Überwachung kann dies zu Konfrontationen mit Fehlinformationen, Misskommunikation, rechtlichen sowie datenschutzrechtlichen Problemen und Schwachstellen führen, die durch falsche oder unangemessene Inhalte entstehen, die von LLM-Sprachmodellen generiert werden.

LLM10: Model Theft

Der Modell-Diebstahl beinhaltet den unbefugten Zugriff, das Kopieren oder die unbefugte Übertragung (Datenexfiltration) proprietärer LLM-Modelle. Die Auswirkungen umfassen wirtschaftliche Verluste, beeinträchtigte Wettbewerbsvorteile und potenziellen Zugriff auf vertrauliche Informationen durch Angreifer oder die Konkurrenz.

Über die Autoren: Jaroslaw Kopowski und Markus Hüntelmann sind angesehene Cybersecurity Experten in der IT-Sicherheitsbranche mit einer gemeinsamen beruflichen Laufbahn, die im Jahr 2000 begann. Sie sind die Gründer und führende Cybersecurity-Berater der IT-Unternehmensberatung Cybersecpilots GmbH mit Sitz in Düsseldorf. Mit umfangreichem Fachwissen und langjähriger Erfahrung sind sie spezialisiert auf die Implementierung und Weiterentwicklung von Informationssicherheitsmanagementsystemen (ISMS) wie ISO/IEC 27001, BSI IT-Grundschutz, VDA/ISA TISAX, KRITIS, NIS-2, DORA, SOC-2 sowie Business-Continuity-Management (ISO 22301, BSI 200-4). Ihre Expertise umfasst Bereiche wie Auditierung, Sicherheitsüberprüfung, Cyber-Security-Checks, Penetrationstests, Zero-Trust-Initiativen, Identitätsmanagement und Zugriffsmanagement, sowie sichere generative Künstliche Intelligenz (KI) & LLM. Vor der Gründung von Cybersecpilots waren beide langjährig in der Abteilung Informationssicherheit eines KRITIS-Betreibers im GKV/PV-Umfeld tätig und haben ihre Fachkenntnisse zuvor an renommierten Instituten und Unternehmensberatungen erworben.

(ID:49666583)