Warum menschliches Feedback unverzichtbar ist KI auf dem Prüfstand

Ein Gastbeitrag von Rob Mason * 5 min Lesedauer

Anbieter zum Thema

Fehler in KI-Systemen können von Imageschäden bis zu juristischen Auseinandersetzungen führen. Ausführliche Tests mit echten Menschen gewährleisten die Zuverlässigkeit und Ethik von KI-Lösungen.

KI spiegelt Vorurteile und fehlerhafte oder unvoollständige Trainingsdaten wider und sollte deshalb stetig getestet werden.
KI spiegelt Vorurteile und fehlerhafte oder unvoollständige Trainingsdaten wider und sollte deshalb stetig getestet werden.
(Bild: Placidplace / Pixabay)

Künstliche Intelligenz verspricht, die Welt, wie wir sie kennen, maßgeblich zu verändern. Bereits heute generieren KI-Systeme Börsennachrichten, Wetterberichte und Fußballmeldungen. Chatbots übernehmen zunehmend die Beantwortung von Serviceanfragen und automatisierte Systeme halten unsere E-Mail-Postfächer von lästigen Spam-Nachrichten frei.

Die fortschreitende Integrierung von künstlicher Intelligenz in die Arbeitswelt verspricht eine massive Effizienzsteigerung über alle Branchen hinweg. Fachangestellte müssen sich nicht mehr an banalen Routineaufgaben abmühen, sondern können ihre Energie in kreative Arbeit investieren und so zum Unternehmenserfolg beitragen.

Die Tücken der KI

Doch wie das Sprichwort sagt: Nicht alles, was glänzt, ist Gold. Als mahnendes Beispiel dient bis heute der Chatbot Tay, den Microsoft mit guten Absichten 2016 auf Twitter veröffentlichte. Angedacht war das Experiment als spaßiger Zeitvertreib für junge Erwachsene, die mit dem Chatbot lockere Gespräche über beispielsweise ihre Lieblingsserie führen sollten.

Microsofts Ziel war es, dass der Chatbot die Sprache des Internets annimmt und wertvolle Einblicke in das Lernverhalten von KI liefert. Doch das Internet tat, was es so oft tut. Es dauerte nur wenige Stunden, bis Tay ausschließlich in rassistischen und sexistischen Hasstiraden kommunizierte. Microsoft blieb nicht viel anderes übrig, als dem Projekt nach gerade einmal 16 Stunden den Stecker zu ziehen.

Dass auch heute, über sieben Jahre nach diesem Vorfall, Entwickler und Entwicklerinnen mit Herausforderungen wie ungenügender Datenqualität und unentdeckter Bias zu kämpfen haben, zeigt ein aktuelles Beispiel aus Detroit. Eine Gesichtserkennungssoftware hatte die afroamerikanische Porcha Woodruff fälschlicherweise als Mittäterin eines bewaffneten Überfalls identifiziert. Die Grundlage für die Verhaftung war ein Foto, welches bereits acht Jahre alt war. Sowohl die Software als auch das Opfer hatten sie anhand dessen identifiziert.

Die Pointe: Woodruff war zur Zeit der Festnahme im achten Monat schwanger, der Überfall hatte nur einen Monat vorher stattgefunden. Das Opfer hatte jedoch nicht berichtet, dass eine schwangere Frau am Überfall beteiligt war – verhaftet wurde Woodruff trotzdem. Gesichtserkennungssoftware ist seit Jahren umstritten aufgrund ihrer Ungenauigkeit, insbesondere bei der Erkennung von Schwarzen Menschen. Ein Bias, der bis heute in viele KI-Programme inkorporiert ist.

Diese und weitere Kinderkrankheiten von Systemen, die auf künstlicher Intelligenz basieren, findet man bis heute. Meist verbindet sie ein zentrales Problem: Die Software wurde nicht ausreichend getestet — und zwar mit und von echten Menschen. Das hat Auswirkungen darauf, wie die Öffentlichkeit generative KI-Tools wie ChatGPT wahrnimmt. Eine weltweite Umfrage von Applause unter 5200 Digitalfachleuten hat gezeigt, dass 86 Prozent der Befragten Bedenken aufgrund von Bias in KI-Technologien haben.

KI-Software auf Herz und Nieren prüfen

Unternehmen, die KI nutzen, sollten ihre Software gründlich testen, um unangenehme Überraschungen zu vermeiden. Nur so können sie sich auf alle Eventualitäten fachgerecht vorbereiten und bereits vor Launch mögliche Schwachstellen beseitigen. Dafür lohnt es sich, auf externe Dienstleister zurückzugreifen. Denn nur selten haben Unternehmen intern die nötigen Ressourcen, um ein Produkt ausgiebig zu testen.

Beim Testprozess sollten drei Bereiche im Vordergrund stehen. Zunächst ist es wichtig, die rechtlichen Vorschriften einzuhalten. Außerdem ist es notwendig, zu kontrollieren, ob die Ergebnisse genau und vertrauenswürdig sind. Schließlich gilt es, mögliche Bias bereits bei der Datenauswahl zu berücksichtigen.

Rechtliche Vorgaben beachten

Viele rechtliche Aspekte rund um KI sind bisher noch nicht präzise festgelegt. Das sollten Unternehmen allerdings nicht als Freifahrtschein sehen, sondern heute schon den juristischen Rahmen für die Zukunft setzen. Denn die KI-Verordnung der Europäischen Union (EU AI Act) steht bereits in den Startlöchern.

Bis zum Ende Jahres wollen die EU-Mitgliedsstaaten die endgültige Fassung des Gesetzes beschließen. Unternehmen haben dann zwei Jahre Zeit, sich den vorgegebenen Rahmenbedingungen anzupassen. Der AI Act klassifiziert KI-Systeme anhand des Risikos, das von ihnen ausgeht. Je gefährlicher die KI eingestuft wird, desto höher sind die Auflagen.

Weitere Regulierungen wie etwa der EU Accessibility Act, die in Deutschland schon im Barrierefreiheitsstärkungsgesetz umgesetzt wurde, und der WCAG schreiben Unternehmen vor, dass ihre digitalen Produkte barrierefrei sein müssen. Je nach Herkunft der Daten kann auch das Urheberrecht zum Thema werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Genaue Ergebnisse schaffen Vertrauen

Vor allem generative KI sieht sich immer wieder dem Vorwurf ausgeliefert, ungenaue oder gar falsche Inhalte zu generieren. Expertinnen und Experten sprechen in diesen Fällen davon, dass die KI halluziniert. Für User, die sich auf die Ergebnisse verlassen, ist das fatal. Das Resultat kann ein beschädigtes Image und ein Verlust des Vertrauens in das Produkt sein.

In Zeiten, in denen das Vertrauen in Marken immer stärker Mittelpunkt steht, kann das Unternehmen zum Verhängnis werden. Die Konsequenz daraus ist, dass die Qualitätssicherung immer stärker in den Mittelpunkt rücken muss. Ein Aspekt, der selbst Branchen-Primus OpenAI schwerfällt, wie eine aktuelle Studie der Stanford-Universität zeigt.

Die Forschenden verglichen die Ergebnisse von GPT-4 aus dem Juni mit denen aus dem März und kamen zum Ergebnis, dass die Antworten signifikant schlechter wurden. Es reicht nicht, KI-Anwendungen einmalig zu testen, sondern sie müssen stetig überprüft und mit neuen Daten trainiert werden, wenn sie kontinuierlich relevante Ergebnisse generieren sollen.

Bias vermeiden

Maschinen kennen keinen intrinsischen Unterschied zwischen Geschlechtern, Alter oder Hautfarbe. Diese Unterscheidungen lernt die KI erst durch die Daten, mit denen sie trainiert wird. Dabei spielt die Qualität der Daten die entscheidende Rolle. Sind bereits die Rohdaten ungenau oder verzerrt, wird es das Ergebnis ebenfalls sein – getreu dem Prinzip „Garbage in, garbage out“. Die Folgen sind eine verminderte Qualität des Produkts sowie möglicherweise diskriminierende Entscheidungen auf Seiten der KI.

Die Dominanz von weißen und männlichen Entwicklern in der Tech-Branche sorgt ebenfalls für Verzerrungen. In den USA sind knapp 80 Prozent der Developer männlich und nur 4,6 Prozent gehören zur schwarzen Bevölkerung. Die fehlende Diversität geht mit einem Mangel an Perspektiven einher.

Ein weltweites, kulturell vielfältiges Team an Testerinnen und Testern ist in der Lage, den inkorporierten Bias in einer KI aufzudecken und den Developern zu melden. Zusätzlich kann kontrolliert werden, ob die Übersetzung der Software in die Zielsprache gelungen ist, was auch für das Thema Inklusion wichtig ist, besonders in einer Welt, in der viele KI-Anwendungen nur auf Englisch zur Verfügung stehen.

Für Entwicklerinnen und Entwickler bringt die Programmierung von KI-Software viele Herausforderungen mit sich. Sie müssen sowohl die aktuellen sowie die derzeit noch im Entstehungsprozess befindlichen juristischen Regulierungen beachten, um nicht in Gefahr zu laufen, teure Geldstrafen zu bezahlen.

Wenn die Rechtsfragen abgeklärt sind, steht jedoch erst das Grundgerüst. Damit das Produkt vom Markt gut aufgenommen wird, muss die Qualität stimmen. Denn nur genaue und verlässliche Ergebnisse sorgen dafür, dass die Kundschaft der Software vertraut und für ihren Workflow nutzt.

Rob Mason
Rob Mason
(Bild: Applause)

Dabei ist es besonders wichtig, dass bereits vor der Veröffentlichung sichergestellt ist, dass die Software frei von Bias und fehlerhaften Daten ist. In all diesen Phasen kann ein versiertes Tester-Team die Developer unterstützen, indem es das Produkt gründlich überprüft und frische Perspektiven bietet.

* Als Chief Technology Officer ist Rob Mason dafür verantwortlich, sein Team hinsichtlich der Entwicklung innovativer und robuster Software anzuleiten.

(ID:49668680)