Inhalt: Darum geht's in diesem Beitrag
- Passen KI und Datensicherheit zusammen?
- Drei Risiko-Bewertungsstufen
- Unternehmensdaten werden immer wertvoller
- Privatsphäre-Einstellungen in ChatGPT
- KI-Modelle in der Cloud nutzen
- Retrival Augmented Generation
- Vor- und Nachteile einer eigenen KI
- Ein eigenes KI-Modell betreiben
- Daten durch eine KI anonymisieren
- Die eigene Risikobereitschaft abwägen
Der Prompt, der ChatGPT Geheimnisse entlocken konnte und die Herausforderungen von KI und Datensicherheit zeigte, war simpel: Forscherinnen und Forscher von verschiedenen Universitäten und der Google-Tochter Deepmind wiesen die Künstliche Intelligenz (KI) 2023 in Versuchen an, englische Wörter wie zum Beispiel „poem“ oder „company“ unendlich oft zu wiederholen. Eine Idee, die die Studienautoren später als albern beschreiben. Doch nach ein paar Hundert Wiederholungen begann der Chatbot, Fragmente aus seinem eigentlich geheimen Trainingsdatensatz auszugeben, unter anderem E-Mail-Signaturen und Telefonnummern.
Die Sicherheitslücke hat der ChatGPT-Anbieter Open AI zwar längst geschlossen, aber das Experiment verdeutlicht ein grundsätzliches Problem großer Sprachmodelle (Large Language Models, LLMs): Informationen sind in ihnen nicht sicher.
Passen KI und Datensicherheit zusammen?
Für Unternehmerinnen und Unternehmer ist das wichtig zu wissen. Firmen arbeiten mit Kundendaten, zu deren Schutz sie verpflichtet sind und sie haben Geschäftsgeheimnisse, die sie bewahren möchten. Doch das bedeutet nicht, dass sie auf KI-Anwendungen wie ChatGPT oder auf die Integration von generativer Künstlicher Intelligenz in die Firmen-IT verzichten müssen. Denn es gibt verschiedene technische Möglichkeiten, die Daten des Unternehmens zu schützen – und trotzdem von KI zu profitieren. KI und Datensicherheit müssen sich nicht ausschließen.
Bevor sie mit einem KI-Projekt loslegen, sollten Unternehmerinnen und Unternehmer – im Idealfall gemeinsam mit ihrem Datenschutzbeauftragten – eine Bewertung der Daten vornehmen, mit denen die KI arbeiten soll. Denn für personenbezogene Informationen, wie Personaldaten oder Kundendaten, gelten strenge Regeln, die auf Marketingtexte nicht angewendet werden müssen. Plant ein Unternehmen die Verarbeitung personenbezogener Daten mit KI, kann auch eine Datenschutz-Folgenabschätzung (DSFA) nach Artikel 35 der Datenschutzgrundverordnung (DSGVO) notwendig werden.
„Es gibt sehr viele technische Lösungsansätze. Man muss für jeden Anwendungsfall abwägen, welcher Ansatz der geeignete ist“, sagt Marcus Franzen, Gründer der Softwareagentur Zauberware aus Prien am Chiemsee.
Drei Risiko-Bewertungsstufen
Der IT-Unternehmer Franzen illustriert das mit einer Pyramide:
Stufe 1:
Ihre Basis bilden KI-Anwendungsfälle, bei denen keine sensiblen Daten zum Einsatz kommen und für die zum Beispiel ein ChatGPT-Account reicht. Produktbeschreibungen, Textübersetzungen oder Online-Recherchen zum Beispiel.
Stufe 2:
Auf der nächsten Ebene der Datenpyramide stehen die Aufgaben, für die das Sprachmodell mit Informationen arbeiten muss, die eine Firma zwar schützen möchte, die sie aber nicht als geheim einstufen würde.
Stufe 3:
Die Spitze der Pyramide bilden Daten, die Unternehmen mit niemanden teilen möchten oder die sie aus rechtlichen Gründen nicht weitergeben dürfen.
Unternehmensdaten werden immer wertvoller
Alle, die ChatGPT oder andere KI-Chatbots für Aufgaben in der Firma verwenden, sollten auf die Privatsphäre-Einstellungen in den Accounts achten. Auch dann, wenn sie nur Informationen ins Chatfenster geben, die nicht schutzwürdig sind. Zwar trainieren Nutzer mit ihren Chats die aktuell verfügbaren Modelle nicht, weil das Training des Sprachmodells schon vor der Bereitstellung für Nutzer abgeschlossen worden ist. „Aber es werden natürlich immer Daten gesammelt, um den nächsten Trainingslauf vorzubereiten“, sagt Franzen. Das passiert zum Beispiel mit ihren Chats, wenn Nutzer der Verwendung für Trainingszwecke nicht widersprechen. „Vielen Unternehmern ist gar nicht klar, wie wertvoll Firmendaten sind“, sagt Franzen.
Was die Daten von Unternehmen wertvoll macht? Dass ChatGPT, Gemini, Claude und andere Künstliche Intelligenzen sie noch nicht gesehen haben. Denn die großen Sprachmodelle werden mit riesigen Datensätzen trainiert. Aus den Unmengen von Texten lernen die Maschinen, Wahrscheinlichkeiten dafür zu errechnen, welches Wort in einem Satz auf das nächste folgt. Nach dem Prinzip generieren sie dann eigene Texte. Ganze Bibliotheken, die Wikipedia oder große Teile der Online-Community Reddit gehörten wahrscheinlich zu den Daten, mit denen Open AI ChatGPT trainiert hat. Genaue Informationen hat das US-Unternehmen zum Trainingsdatensatz nie veröffentlicht.
Für künftige Generationen von KI-Modellen wird nun das Trainingsmaterial knapp. „Die KIs haben sozusagen das ganze frei verfügbare Internet durchgelesen“, fasst Franzen das Dilemma der KI-Macher zusammen. „Alle Daten, die KI-Modelle noch nicht gelesen haben, werden dadurch immer wertvoller.“ Er rät darum Unternehmerinnen und Unternehmern, ihre Daten nicht durch leichtfertige KI-Nutzung herzugeben.
Privatsphäre-Einstellungen in ChatGPT
Auch die Datenschutzkonferenz (DSK) rät Unternehmen in einer im Mai 2024 veröffentlichten Orientierungshilfe, die Accounts von Beschäftigten schon vor der Inbetriebnahme entsprechend einzustellen. Ein weiterer Punkt, den die Datenschutzkonferenz betont: Die Schulung von Mitarbeitenden, damit sie nicht aus Unwissenheit im Umgang mit KI die Sicherheit von Daten gefährden oder gegen den Datenschutz verstoßen.
Wenn Sie in Ihrer Firma einen Team- oder Enterprise-Account von ChatGPT verwenden, ist der Widerspruch gegen die Datennutzung tatsächlich voreingestellt. User eines kostenlosen Accounts und Plus-Abonnenten müssen die Einstellung händisch vornehmen:
- Rufen Sie die Einstellungen auf und wählen Sie den Menüpunkt „Datenkontrollen“.
- Dort klicken Sie auf „Das Modell für alle verbessern“ und setzten den Schieberegler nach links, sodass er hellgrau angezeigt wird.
- Nachdem Sie die Schaltfläche „erledigt“ angeklickt haben, sollte Ihnen im Menü das Wort „Aus“ hinter dem Punkt „Das Modell für alle verbessern“ angezeigt werden.
In den Einstellungen von Gemini, der KI von Google, heißt der Menüpunkt „Aktivitäten verwalten.“
KI-Modelle in der Cloud nutzen
Geht es um die zweite Stufe der Pyramide, also um schützenswerte, aber nicht geheime Daten, stellt sich aus Sicht von Franzen die Vertrauensfrage: Wenn sich Unternehmerinnen und Unternehmer bei der Speicherung und Bearbeitung dieser Daten auf Anbieter wie Microsoft verlassen und zum Beispiel die Office365-Umgebung nutzen, lohne sich die Überlegung, ein KI-Modell in derselben Cloud zu nutzen. Es ist zum Beispiel möglich, die Modelle von Open AI über Microsoft Azure zu verwenden.
„Das ist aktuell die wahrscheinlich am häufigsten genutzte Lösung“, sagt Aleksander Fegel. Er ist geschäftsführender Gesellschafter von Ailio, einem auf Data-Science und KI spezialisierten Dienstleister. Auch bei dieser Art der Nutzung gelangen Firmendaten nicht in die Sprachmodelle. Um sich zum Beispiel mit einer KI aus der Cloud einen firmeninternen Chatbot einzurichten, müssen Unternehmen die Sprachmodelle nicht mit ihrem Firmenwissen füttern.
Retrival Augmented Generation
Statt die KI mit eigenen Daten zu schärfen, kommt eine Technik zum Einsatz, die Retrival Augmented Generation, kurz: RAG, heißt. Auf Deutsch übersetzt bedeutet das so viel, wie: „Generieren durch Abrufen“. Ein intelligenter Algorithmus versteht dabei die Anfrage des Nutzers, sucht die entsprechenden Informationen in einer Wissensdatenbank, die das Unternehmen dafür einrichten muss, und stellt sie dem Sprachmodell (LLM) zur Verfügung. „Das LLM muss die Informationen nur noch zusammenbringen und eine Antwort formulieren“, erklärt Aleksander Fegel.
Das Vorgehen ermöglicht auch zu steuern, wer welche Informationen über den Chatbot aufrufen kann. Wie beim Berechtigungsmanagement in der Dateiablage kann der Zugriff eingeschränkt werden. Stellt dann zum Beispiel ein Mitarbeiter aus dem Vertrieb eine Frage, deren Antwort nur Beschäftigte aus einer anderen Abteilung kennen sollten, erkennt das die sogenannte RAG-Pipeline und rückt die Informationen nicht raus. „Solange das fehlerfrei programmiert ist, kann theoretisch nichts schiefgehen“, versichert Fegel.
Insbesondere in Fragen der IT-Sicherheit hält Fegel die Nutzung von Cloud-Sprachmodellen über Schnittstellen für eine sinnvolle Lösung für kleine Unternehmen – analog zur Speicherung von Daten in der Cloud. „Im Fall eines Hackerangriffs habe ich meine Daten lieber bei einem Unternehmen wie Microsoft mit einem großen Team von Sicherheitsexperten als auf meiner eigenen Server-Infrastruktur mit nur einem Systemadministrator“, sagt er.
Vor- und Nachteile einer eigenen KI
Für die Daten an der Spitze der Pyramide – Geschäftsgeheimnisse, aber auch Informationen über Kunden und Beschäftigten – sind die datenschutzrechtlichen Vorgaben besonders streng. Unternehmen müssen sie zum Beispiel auf Anfrage löschen können und die Einwilligung von Kunden einholen, wenn sie ein KI-System mit den Informationen trainieren wollten. Wenn Unternehmen KI mit ihren geheimsten Daten sicher nutzen wollen, müssen sie also einiges an Aufwand betreiben.
Eine Option ist, ein KI-Modell auf eigenen Servern zu betreiben. Das geht zum Beispiel mit Open-Source-Modellen wie Llama, mit dem Sprachmodell des Facebook-Konzerns Meta oder den Modellen des französischen Softwareunternehmens Mistral AI. Unternehmer sollten sich bei der Wahl des passenden Modells nicht nur auf standardisierte Tests verlassen. „Die Tests werden häufig auf Englisch gemacht. Man sollte selbst probieren, wie gut die Modelle auf Deutsch sind“, rät Marcus Franzen.
Der Vorteil so einer eigenen KI: Das Unternehmen kann sie durch Feintuning sehr genau für das gewünschte Einsatzgebiet anlernen. Das bringt jedoch gleichzeitig einiges an Aufwand mit sich, denn dafür müssen die richtigen Daten zusammengestellt und aufbereitet werden.
Ein eigenes KI-Modell betreiben
Firmen, die eine eigene KI anstreben, haben zwei Betriebsmöglichkeiten:
- Sie mieten Serverkapazitäten in einem Rechenzentrum an. Dabei gilt es zu bedenken, dass KI-Modelle große Mengen Rechenleistung fressen. Die eigene KI zählt nicht zu den günstigsten Lösungen.
- Sie betreiben das Sprachmodell On-Premises, also auf den firmeneigenen Servern.
Das jedoch stellt hohe Anforderungen an die IT-Infrastruktur der Firma. „Man löst damit ein paar Probleme. Aber man schafft auch neue“, fasst Aleksander Fegel von Ailio zusammen.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) geht von einem Anstieg der auf KI-Systeme spezialisierten Cyberangriffe aus. Zum Beispiel könnten Kriminelle dem Bericht zufolge Modelle stehlen, indem sie Klone der KI erzeugen. Eine andere Bedrohung für unternehmenseigene KI-Systeme sind „Privacy Attacks“, bei denen Kriminelle versuchen, geheime Informationen aus den Modellen zu extrahieren – ähnlich, wie es den Wissenschaftlern mit dem Wortwiederholungs-Prompt bei ChatGPT gelungen ist.
Daten durch eine KI anonymisieren
Marcus Franzen hat mit einem Kunden eine andere Lösung für sensible Daten gefunden: den Einsatz eines zweiten KI-Modells, das Informationen wie Namen anonymisiert. Die Anonymisierungs-KI hostet ein Datenzentrum in Deutschland. Die amerikanische KI ChatGPT bekommt die Daten sozusagen geschwärzt. Auf dem Rückweg durchlaufen die Informationen wieder das deutsche Rechenzentrum, wo die Anonymisierung rückgängig gemacht wird.
„Das dauert natürlich länger, und es verursacht auch mehr Kosten“, sagt Franzen. Die KI-Anbieter rechnen die Nutzung ihrer Modelle über Schnittstellen danach ab, wie viele „Tokens“ verwendet werden. Tokens sind die Einheit, in die Sprachmodelle Informationen zerlegen, um sie bearbeiten zu können. Mit zwei KIs werden mehr Tokens verbraucht.
Die eigene Risikobereitschaft abwägen
Franzen beobachtet, dass Bedenken zur Datensicherheit zu Beginn von KI-Projekten noch eine große Rolle spielen. Sobald jedoch die Kosten durch Schutzmaßnahmen steigen, schwindet die Relevanz des Themas in den Köpfen der Entscheider. „Als Unternehmer muss ich selbst entscheiden, welche Risiken ich bereit bin einzugehen“, fasst er zusammen.
Aus der Sicht von Aleksander Fegel ist darum die Risikobewertung der Daten zu Beginn eines KI-Projekts ein wichtiger Schritt. „Welche Daten müssen überhaupt da rein? Braucht ein Chatbot überhaupt Zugriff auf super sensible Daten?“, fasst er wichtige Fragen zusammen, die sich Unternehmerinnen und Unternehmer stellen sollten. Die Antwort, so scheint es ihm, lautet dann oft: Nein. „Viele Unternehmen, die einen Chatbot aufsetzen, haben da Daten drin, bei denen es mehr oder weniger egal wäre, wenn jemand anderes die sieht“, sagt Fegel. Um den Kantinenplan zum Beispiel müssten Firmen sich keine Sorgen machen.
Für die heikleren Informationen lohnt es sich jedoch für Unternehmen, sich Gedanken über KI und Datensicherheit zu machen.
Wie können Unternehmen Künstliche Intelligenz noch für sich nutzen? Hier finden Sie eine Liste von KI-Tools für Unternehmen.
