Generative KI (AI) ist nur die Spitze des Eisbergs – Die Wahrheit über das Data Engineering unter der Wasseroberfläche

Generative KI bzw. Artificial Intelligence (AI) bezieht sich auf die Fähigkeit von Maschinen, neue Inhalte zu erstellen, sei es Text, Bilder oder andere Formen von Daten. Sie ist das Geheimnis hinter Chatbots, Sprachmodellen und kreativen Anwendungen. OpenAI’s ChatGPT verblüfft seit einem Jahr die gesamte Welt – vom KI-Experten bis hin zum Nachbarn nebenan. In der sich rasch entwickelnden Welt der Künstlichen Intelligenz hat die Generative KI eine starke Kraft entfaltet. Es geht jedoch nicht nur darum, einen Service von einem einzelnen Anbieter zu kaufen. Vielmehr geht es darum, die Landschaft zu verstehen, Optionen zu erkunden und hochwertige Daten aus verschiedenen Quellen zu sammeln, um das Potenzial dieser wegweisenden Technologie zu nutzen. Die Fähigkeiten zur menschenähnlichen Interaktion beeindrucken immer wieder. Selbst Führungskräfte erlernen die Sprache der KIs mittels Prompt Engineering, um den Arbeitsalltag zu erleichtern. Das Problem: Die Landschaft der Hersteller, Lösungen und Innovationen ist sehr dynamisch. Und wer allein auf die Hauptakteure und die Lösung schaut, sieht leider nur die Spitze des Eisbergs. Denn Generative KI benötigt neben enormer Rechenleistung, flexibler Infrastruktur und KI-Expertise eben auch Zugriff auf qualitativ hochwertige Datensätze des eigenen Unternehmens.

Über den Autor

Candide Orou-Yorouba absolvierte ein Bachelor- und ein Masterstudium in Informatik und war im Anschluss mehrere Jahre in der IT-Beratung tätig. 2018 startete er bei der Lufthansa Industry Solutions als Cloud Solution Architekt in der Business Unit Artificial Intelligence & Data Analytics. Heute ist er als Head of Data und Analytics Platform, nicht nur für technische Expertise, sondern auch die fachliche Führung eines dynamischen Teams zuständig.

„Daten sind der Treibstoff, der KI antreibt.“ In der Tat basieren generative KI-Modelle auf Daten. Dateningenieure sammeln, bereinigen und integrieren vielfältige Datenquellen. Ob strukturierte Daten aus Datenbanken oder unstrukturierter Text aus sozialen Medien – sie sorgen für einen reibungslosen Zugang.

Datensicherheit und Data Governance: Vertraulichkeit und Integrität sicherstellen

In der heutigen datengetriebenen Welt ist die Sicherheit und Governance von Daten von entscheidender Bedeutung. Dies sind zwei weitere wesentliche Aspekte, die durch Generative KI eine noch größere Rolle spielen. Datensicherheit bezieht sich auf die Praktiken und Technologien, die eingesetzt werden, um die Integrität und Vertraulichkeit von Daten zu gewährleisten. Dazu gehören Verschlüsselung, Zugriffskontrollen, Firewalls und andere Sicherheitsmaßnahmen, die verhindern sollen, dass unbefugte Personen auf sensible Daten zugreifen können. Data Governance hingegen befasst sich mit der Entwicklung und Umsetzung von Richtlinien, Verfahren und Prozessen zur Verwaltung von Daten. Dies umfasst Aspekte wie Datenintegrität, Metadatenmanagement und die Festlegung von Zuständigkeiten und Verantwortlichkeiten im Umgang mit Daten. Ein Mitarbeiter sollte beispielsweise nicht in der Lage sein, durch ein Chatbot das Gehalt des Vorgesetzten oder der Kollegen herauszufinden. Verstöße gegen Datenschutzbestimmungen und Datenlecks können schwerwiegende Folgen für Unternehmen und Einzelpersonen haben. Es ist daher entscheidend, sicherzustellen, dass die entwickelten Systeme und Algorithmen die höchsten Standards in Bezug auf Datensicherheit und Data Governance erfüllen, um das Vertrauen in die Integrität und Vertraulichkeit von Daten zu gewährleisten.

Datenqualität ist der Schlüssel zu zuverlässigen KI-Ergebnissen

Zusätzlich spielt die Datenqualität eine entscheidende Rolle für die Generative KI, da sie die Qualität der generierten Ergebnisse stark beeinflusst. Das alte Gesetz der Datenqualität ist nach wie vor auf generative KI-Applikationen anwendbar: “Müll rein, Müll raus” (vgl. Bundy, A and Bundy, J., 1990 „Garbage In – Garbage Out. The Need for Quality in the Age of Automation. Proceedings oft he Australian Library and Information Association National Cataloguing Conference (8th, North Adelaide, South Australia, Australia, September 14-16, 1989)”). Stellen Sie sich vor, Sie füttern ein generatives KI-Modell mit unvollständigen oder fehlerhaften Daten – das ist, als würden Sie einen Maler bitten, ein Meisterwerk mit einem kaputten Pinsel zu erschaffen. Die Datenqualität ist von größter Bedeutung. Bevor Sie Daten an ein generatives KI-Modell weitergeben, sollten sie gereinigt, vorverarbeitet, vollständig, aktuell, relevant und frei von Duplikaten und Inkonsistenzen sein. Darüber hinaus ist die Datenqualität keine einmalige Angelegenheit, sondern ein fortlaufender Prozess: Regelmäßige Überwachung ist erforderlich, um Anomalien und Abweichungen zu erkennen.

Wir beschäftigen uns heute also noch überwiegend damit, ob wir Anbieter A oder B für GenAI verwenden. Mit zunehmender Reife kommen wir allerdings bald wieder zur Basis zurück: meine Daten. Wie integriere ich diese neue Technologie in meine existierende Datenlandschaft und biete sie gewinnbringend meinen Kunden an?

Zusammenfassend kann man Generative KI (Artificial Intelligence) nur als die Spitze des Eisbergs betrachten. Der Hauptpunkt lautet: “Garbage in, garbage out”. Unter der Oberfläche wird ein solides Fundament aus Infrastruktur, Data Management, und Data Engineering benötigt, um zuverlässige AI-Magie zu gewährleisten.