Inhalt: Darum geht's in diesem Beitrag
KI kann dein Unternehmen schneller machen: Vertragsentwürfe erstellen, Angebote verschicken, Geschäftskontakten automatisiert Geburtstagsgrüße senden.
Doch halt, stopp! Dafür müssen die KI-Tools sensible Daten verarbeiten. Adressen, Geburtstage, Preise, Produktdetails. Als Unternehmen muss man sich genau überlegen, ob darauf die Anbieter der Sprachmodelle (und damit womöglich viele weitere Personen, Firmen, staatliche Behörden) Zugriff erlangen sollen.
Ohnehin gilt: Sobald Gemini & Co. personenbezogene Daten, wie das im Juristendeutsch heißt, verarbeiten, setzen die Datenschutzgrundverordnung (DSGVO) und der EU AI Act einen engen Rahmen. Wer „rechtlich sauber“ handeln möchte, muss einigen Aufwand betreiben, sagt Christian Wolff, Fachanwalt für IT- und Medienrecht bei der Kanzlei Brock Müller Ziegenbein in Kiel. Nötig ist unter anderem:
- eine vertragliche Regelung mit dem KI-Dienst, wie er die Daten verarbeitet, und
- eine sogenannte Datenschutz-Folgenabschätzung
Doch selbst das bedeutet keine Garantie, dass die Daten sicher sind. Wolff verweist darauf, dass insbesondere US-Anbieter dennoch Daten weitergeben könnten – etwa weil die US-Regierung das fordert.
Außerdem: Datenschutz hin oder her, viele Unternehmerinnen und Unternehmer wollen bestimmte Informationen mit höchster Diskretion behandeln, von Preismodellen bis zu Personalbewertungen. Nichts für die Black Box von KI-Diensten wie ChatGPT oder Le Chat.
Die gute Nachricht: Unternehmerinnen und Unternehmer können KI trotzdem ohne Bedenken nutzen: datenschutzkonform und diskret. Sie haben insbesondere zwei Optionen:
- eine eigene KI einrichten, auf die nur das Unternehmen Zugriff hat
- sensible Daten mit spezieller Software unkenntlich machen, bevor sie in ChatGPT & Co. verarbeitet werden
Hier erhältst du eine Entscheidungshilfe für die Wahl der Lösung und erfährst, wie die Umsetzung gelingt und welche Kosten entstehen.
Option 1: Die firmeneigene KI
Mit einer lokal betriebenen KI, einem Sprachmodell, nutzt du nicht die frei verfügbaren Web-Anwendungen wie ChatGPT oder Claude, sondern du hast einen firmeneigenen Zugang. So kannst du nicht nur Daten geschützt an die KI anbinden und sensible Informationen schützen, sondern auch die Funktionsweise an deine Abläufe anpassen. Darauf kommt es an:
Welches Sprachmodell nutzen?
Es gibt mehr als 10.000 frei verfügbare Sprachmodelle, Open Source, wie das im Tech-Sprech heißt. Diese kann man kostenlos samt Quellcode im Internet herunterladen. Darunter sind auch KI-Modelle von großen Anbietern wie OpenAI, Meta, Google, Qwen, Deepseek oder Mistral.
Ein erstes Kriterium für die Wahl ist die Leistungsstärke. Die wird gemessen in der Zahl der Parameter, die das Modell verarbeiten kann. Je mehr Parameter ein Modell hat, desto komplexere Muster und Zusammenhänge kann es in der Sprache erfassen. Llama 3.1 405B vom Facebook-Konzern Meta gehört zu den Giganten mit 405 Milliarden Parametern.
Am anderen Ende des Spektrums liegt zum Beispiel Googles Gemma 2B mit nur 2 Milliarden Parametern. Mehr Parameter bedeuten aber auch: Es ist mehr Speicherplatz und Rechenkapazität nötig. Das spielt dann bei der Wahl der Hardware eine Rolle (siehe unten).
„Die Zahl der Parameter ist jedoch nicht das allein entscheidende Kriterium bei der Wahl des Sprachmodells“, sagt daher Jan Fischer, KI-Experte beim Mittelstand-Digital Zentrum Hamburg. Wichtiger sei oft die Qualität der Wissensquellen der KI. Für viele Aufgaben reiche ein kleines Modell völlig aus, wenn es auf hochwertige und aktuelle Daten zugreifen kann.
Auch der regionale Ursprung kann eine Rolle spielen. Das französische Unternehmen Mistral etwa gibt an, seine Modelle primär mit europäischen Quellen trainiert zu haben – das soll mitunter fundiertere Antworten ermöglichen als mit KI-Modellen aus den USA oder China, zum Beispiel bei europäischen Rechtsfragen.
Welchen LLM-Client wählen?
Wer solche Open-Source-KIs einsetzen will, braucht zusätzlich noch eine Art Betriebssystem: sogenannte LLM-Clients. Beispiele sind ollama.com, anythingllm.com oder GPT4All (nomic.ai/gpt4all). Damit lassen sich die KI-Modelle lokal auf einem Server betreiben. Und die meisten sind kostenlos.
Wichtig: Jeder Client bietet nur Zugang zu einer bestimmten – wenn auch breiten – Modellauswahl. Wer eine KI bevorzugt, sollte gezielt einen passenden LLM-Client wählen.
Welche Hardware nutzen?
KI braucht viel Rechenleistung – dafür sind vor allem GPUs notwendig. Das steht für Graphics Processing Units, ursprünglich für Bild- und Videodarstellung entwickelte Super-Chips.
Doch GPU ist nicht gleich GPU. Entscheidend für ihre Leistung sind zwei Faktoren:
- Arbeitsspeicher: In der Fachsprache heißt er Video Random Access Memory, kurz: VRAM. Je größer der Speicher, desto mehr Daten kann die GPU gleichzeitig verarbeiten. Ein Beispiel: Das KI-Modell Llama 2 7B vom Facebook-Konzern Meta mit 7 Milliarden Parametern benötigt über 20 Gigabyte VRAM für einen flüssigen Betrieb. Zum Vergleich: In durchschnittlichen Laptops sind meist GPUs mit weniger als 10 GB VRAM.
- Rechenoperationen pro Sekunde: Maßeinheit sind Teraflops. Diese Einheit gibt an, wie viele Billionen Operationen eine GPU pro Sekunde schafft. Mehr Teraflops bedeuten schnellere Antwortzeiten.
Einfach gesagt: VRAM bestimmt, wie viel sich eine GPU merken kann; Teraflops, wie schnell sie arbeitet. Wer über eigene Hardware nachdenkt, sollte beide Werte im Blick behalten.
Wie viele Nutzer gleichzeitig eine Firmen-KI nutzen können und wie schnell die arbeitet, hängt von Anzahl und Leistung der GPUs ab. Eine Faustformel zur Berechnung des Bedarfs gäbe es nicht, sagt Jan Fischer vom Mittelstand-Digital Zentrum. Zu viele Faktoren spielen eine Rolle:
- Welches Sprachmodell soll eingesetzt werden?
- Wie viele Personen sollen es gleichzeitig nutzen?
- Wie komplex ist der Anwendungsfall?
Unternehmerinnen und Unternehmer sollten diese Entscheidung mit IT-Profis treffen. Kostenlose Beratung dazu bieten zum Beispiel die vom Bundeswirtschaftsministerium geförderten Mittelstand-Digital Zentren an, die es in allen Bundesländern gibt.
Die Hardware kaufen?
Es gibt drei Optionen, um ausreichend Speicherplatz und GPU-Power für die Firmen-KI zu haben:
- Kauf von Server und GPUs: Die Investition kann schnell in den fünfstelligen Bereich gehen, wenn sehr leistungsstarke Chips und viel Speicherplatz notwendig sind. Allerdings garantiert nur diese Lösung vollständige Kontrolle über die Daten, weil diese dann in der Firma bleiben und sonst niemand Zugriff hat.
- Miete eines Servers mit GPU: Deutsche Unternehmen wie Hetzner, OVH oder Ionos bieten Server mit GPUs zur Miete an. Ein solcher Datenspeicher ist dann exklusiv für eine Firma und es ist bekannt, wo genau er steht. Das grenzt Zugriffsmöglichkeiten für Dritte deutlich ein. Solche Mietserver gibt es schon für wenige Hundert Euro pro Monat.
- Cloud-Service: Unternehmen können sich Speicherplatz mit der gewünschten GPU-Leistung in einer Cloud sichern. Hier ist unklar, wo genau die Daten liegen; der Speicher ist virtuell. Die Anbieter betreiben große Server-Farmen, auf die sie die Daten der Nutzer verteilen.
Um sich datenschutzkonform aufzustellen, sollten Unternehmen eine Cloud in Europa wählen. Neben deutschen Anbietern wie Ionos oder der Deutschen Telekom gibt es auch globale mit EU-Standorten, etwa Amazon Web Services (AWS), Google Cloud, IBM oder Microsoft (Azure). IT-Rechtler Wolff warnt jedoch, dass auch bei EU-Servern nicht vollständig auszuschließen ist, dass Daten ins Mutterland der Konzerne abfließen.
Wie bekommt die KI ihr Wissen?
Das notwendige Spezialwissen, etwa über das Unternehmen, erhält die Firmen-KI am einfachsten über eine spezielle Datenbank, sagt Kamil Braschke, Experte für KI-Integration beim IT-Beratungshaus Codecentric, genauer: durch ein sogenanntes RAG (Retrieval Augmented Generation).
Ein RAG erhält die Daten häppchenweise. Dafür werden relevante Dokumente in kleine Textstücke zerlegt, um sie letztlich in einer sogenannten Vektordatenbank zu speichern.
Dafür braucht es sogenannte Embedder, die in vielen LLM-Clients wie Ollama oder GPT4All bereits enthalten sind. Zusätzliche Software ist daher oft nicht notwendig.
Stellt dann ein Mitarbeiter der Firmen-KI eine Frage, sucht das System passende Textstücke in der Datenbank und gibt sie dem Sprachmodell als Kontext. Die KI kreiert dann eine Antwort auf Basis ihres allgemeinen Wissens und der RAG-Daten.
Bildlich gesprochen funktioniert ein RAG wie eine schlaue Mitarbeiterin, die sich bei jeder Frage zuerst die passenden Akten aus dem Archiv holt und dann eine verständliche Antwort formuliert.
Welche Expertise ist nötig?
„Das alles ist kein Hexenwerk“, sagt KI-Spezialist Jan Fischer. Ein IT-Dienstleister könne das nötige Wissen in kurzer Zeit aufbauen und ein Sprachmodell samt RAG in wenigen Stunden einrichten.
Allerdings sollte die Firmen-KI laufend betreut werden. Fehler können auftreten – etwa durch Probleme im RAG. Auch ein Wechsel des Open-Source-Modells kann sinnvoll sein, um die Ergebnisqualität zu verbessern. Neuerungen im Blick zu behalten, gehört daher ins Pflichtenheft der oder des Verantwortlichen für die Firmen-KI.
Option 2: Datenmaskierung
Es ist möglich, auch sensible Daten von Kundinnen und Kunden, Geschäftskontakten oder Mitarbeitenden bei öffentlich zugänglichen Anwendungen wie Claude oder ChatGPT einzugeben, ohne gegen die DSGVO oder den EU AI Act zu verstoßen. Speziell dann, wenn die persönlichen Angaben wie Namen, Geburtsdaten oder Adressen vorher unkenntlich gemacht worden sind, man könnte sagen: maskiert.
Tools zur Datenmaskierung sollen genau das leisten. Angebote gibt es viele, die meisten richten sich jedoch an Konzerne oder sind nur für Nischenanwendungen geeignet. impulse hat fünf Tools identifiziert, die auch für kleinere Mittelständler eine Option sein können. Details dazu findest du in der Tabelle am Ende des Artikels.
Ist der Datenschutz gewährleistet?
Es gibt zwei Arten, Daten zu maskieren. Entweder man anonymisiert sie oder wählt die Pseudonymisierung.
- Anonymisierung bedeutet, die Daten sind unwiederbringlich unkenntlich, so wie beim Schwärzen von Namen auf einem Blatt Papier mit einem dicken Filzstift.
- Pseudonymisierung heißt, dass Daten sich wiederherstellen lassen. Das ist so, als würde man die Namen auf dem Blatt Papier mit einem Klebestreifen abdecken, der sich wieder abziehen lässt.
Der Unterschied ist rechtlich zentral. „Sind digitale Dokumente gleichsam geschwärzt, darf man sie bei ChatGPT oder anderen KI-Diensten grundsätzlich hochladen, ohne gegen die DSGVO zu verstoßen“, erklärt IT-Rechtler Wolff. Bei pseudonymisierten Daten greift dagegen grundsätzlich die DSGVO.
Zwar ist nicht immer zwingend das Einverständnis der Betroffenen erforderlich; sie müssen aber zumindest über die Nutzung der pseudonymisierten Daten informiert werden. Die Konsultation eines Datenschutzprofis ist daher ratsam.
Wann ist das sinnvoll?
Eine firmeneigene KI stößt an Grenzen, wenn viele Mitarbeitende gleichzeitig zugreifen. Ist das eigene KI-Modell überlastet, können Maskierungstools eine gute Ergänzung sein. Und womöglich ergibt sich in einigen Unternehmen ohnehin selten ein Bedarf, sensible Daten mit Künstlicher Intelligenz zu bearbeiten. Dann ist es mitunter die bessere Alternative, die Daten zu maskieren und ein leistungsstarkes KI-Tool im Internet zu nutzen, anstatt eine spezialisierte Firmen-KI aufzubauen.
Zu beachten sind jedoch die Unterschiede der Tools bei Anwendungsbereich, Leistungsumfang und Preis. Das kostenlose Open-Source-Tool Privateprompts etwa bietet lediglich die Möglichkeit, eine Liste mit Daten anzulegen, die das Programm dann pseudonymisiert.
Bei Nenna dagegen können Nutzerinnen und Nutzer einen speziellen KI-Chat über das Internet anwenden, bei dem das Tool im Hintergrund arbeitet, sodass keine sensiblen Daten in die genutzten Sprachmodelle eingehen. Der Preis dafür wird ausgehandelt (siehe Tabelle unten).
Große Unterschiede gibt es zudem bei den Dateitypen, die die Tools verarbeiten können. Manche können nur PDFs und Word-Dokumente auslesen, andere auch Excel, CSV und JSON. Einige können Text in Fotos oder Screenshots erkennen, andere nicht.
Ratsam ist daher in jedem Fall, mit den Anbietern der Maskierungstools die eigenen Anwendungsfälle genau durchzusprechen.
Tools für die Datenmaskierung (Auswahl)
| Tool / Website, Standort | Was kann das Tool? | Preis |
|---|---|---|
| Anymize.ai Datenverarbeitung in Deutschland |
Anonymisierung und Pseudonymisierung von Dokumenten und Prompts; Beta-Version, als Web-App oder über IT-Schnittstelle (API) verfügbar | Starter ab 9,90 € / Monat; Professional ab 49 € / Monat; Enterprise ab 129 € / Monat (jeweils mit Credit-Modell) |
| ARX arx.deidentifier.org/ Datenverarbeitung beim Nutzer |
Open-Source-Software zum Download; verfügt über eine öffentliche API, mit der sich die Anonymisierung in eigene Anwendungen integrieren lässt. Bewältigt große Datensätze auf normaler Hardware; Nutzung erfordert IT-Expertise | kostenlos |
| Datasunrise datasunrise.com/data-masking/ Datenverarbeitung beim Nutzer oder in der Cloud |
Anonymisierung und Pseudonymisierung; Speziell geeignet für große Datenmengen in Datenbanken | auf Anfrage |
| Nenna.ai Datenverarbeitung beim Nutzer möglich; Sonst: Deutschland |
Anonymisierung und Pseudonymisierung von Dokumenten und direkten Texteingaben (Prompts) vor der Nutzung in LLMs; nutzbar als Browser-Extension (Chrome), über Schnittstelle zur eigenen IT (API) und mit eigenem Web-Portal | auf Anfrage |
| Privateprompts.org Datenverarbeitung beim Nutzer |
Open-Source-Programm zum Download (Beta-Version). Ermöglicht Pseudonymisierung von Daten mit individueller Verschlüsselung. Geeignet vor allem für Einzelpersonen oder kleine Teams | kostenlos |
