DSGVO-konforme Transkriptionssoftware: KI-Transkription ohne Datenrisiko
Transkriptionssoftware DSGVO-konform einsetzen: warum US-Cloud-Tools heikel sind, was bei KI-Transkription rechtlich zählt und wann lokale Verarbeitung die sauberste Lösung ist.

Ein Interview für die Forschung, ein aufgezeichnetes Kundengespräch, ein Sprachmemo mit Projektnotizen: KI-Transkription macht aus Stunden Tipparbeit Minuten Rechenzeit. Genau deshalb laden gerade unzählige Teams ihre Aufnahmen bei irgendeinem Transkriptionsdienst hoch, ohne sich zu fragen, wo dieses Audio eigentlich landet.
Die unbequeme Wahrheit: In fast jeder Aufnahme stecken personenbezogene Daten, oft sogar besonders geschützte. Wer sie an einen Cloud-Dienst außerhalb der EU schickt, hat ein DSGVO-Problem, bevor das erste Wort transkribiert ist. Dieser Artikel zeigt, worauf es bei DSGVO-konformer Transkriptionssoftware wirklich ankommt, welche Fragen du jedem Anbieter stellen solltest und warum lokale KI-Transkription die meisten Probleme gar nicht erst entstehen lässt.
Vorab zur Einordnung: Das ist eine allgemeine Übersicht, keine Rechtsberatung. Die konkrete Bewertung hängt von deinem Einsatzszenario ab. Geht es dir nicht um die Transkription von Aufnahmen, sondern um Live-Diktat, findest du die rechtliche Einordnung dazu in unserem Artikel über DSGVO-konforme Diktiersoftware.
Warum Transkription ein größeres Datenschutzthema ist als Diktat
Beim Diktieren verarbeitest du deine eigene Stimme und deine eigenen Gedanken. Bei der Transkription von Aufnahmen kommt eine entscheidende Dimension dazu: die Daten anderer Personen. Ein Interview enthält die Stimme und die Aussagen deiner Gesprächspartnerin. Ein aufgezeichnetes Meeting enthält Äußerungen aller Teilnehmenden. Eine Stimme ist dabei für sich genommen schon ein biometrisches Merkmal.
Inhaltlich wird es schnell heikel. In qualitativen Interviews geht es oft um Gesundheit, politische Einstellungen oder die Lebensgeschichte der Befragten, also um besondere Kategorien personenbezogener Daten nach Art. 9 DSGVO. In Kundengesprächen stecken Vertragsdetails, in Teamrunden Interna und Personalthemen. Wer solche Aufnahmen verarbeitet, trägt Verantwortung für Daten, die ihm andere anvertraut haben.
Dazu kommt eine Pflicht, die schon vor der Transkription greift: Die Aufnahme selbst braucht eine Rechtsgrundlage. Wer Gespräche ohne Wissen und Einwilligung der Beteiligten aufzeichnet, bewegt sich in Deutschland sogar strafrechtlich auf dünnem Eis (§ 201 StGB, Verletzung der Vertraulichkeit des Wortes). Einwilligungen einzuholen ist deshalb keine Formalie, sondern die Grundlage von allem, was danach kommt.
Das Problem mit Cloud-Transkriptionsdiensten

Die bekanntesten Transkriptionsdienste arbeiten cloudbasiert, viele davon mit Servern in den USA. Damit handelst du dir gleich mehrere Baustellen ein.
Sobald ein Anbieter Audio in deinem Auftrag verarbeitet, brauchst du einen Auftragsverarbeitungsvertrag nach Art. 28 DSGVO. Liegt der Server außerhalb der EU, kommt der Drittlandtransfer dazu, der seit dem Schrems-II-Urteil bei US-Anbietern besondere Garantien verlangt und trotzdem ein Restrisiko behält. Gegenüber den aufgenommenen Personen hast du Informationspflichten nach Art. 13 und 14 DSGVO: Sie müssen erfahren, dass ihre Aufnahme an einen Dienstleister geht, an welchen, und wohin. Eine Einwilligung, die nur die Aufnahme abdeckt, deckt nicht automatisch den Upload zu einem US-Dienst ab.
Ein Punkt wird dabei gern übersehen: das Training von KI-Modellen. Manche Dienste behalten sich vor, hochgeladene Audiodaten oder Transkripte zur Verbesserung ihrer Modelle zu nutzen. Für vertrauliche Aufnahmen ist das ein Ausschlusskriterium, und zwar unabhängig davon, wo der Server steht. Ein Anbieter, der nicht klar und vertraglich zusichert, deine Inhalte nicht für Training zu verwenden, kommt für sensible Aufnahmen nicht infrage.
Für Berufsgeheimnisträger verschärft sich das alles noch einmal. Wer als Ärztin, Anwalt oder Therapeutin unbefugt Mandanten- oder Patientengeheimnisse offenbart, riskiert eine Strafbarkeit nach § 203 StGB. Ein Interview mit einer Patientin oder die Aufzeichnung einer Mandantenbesprechung gehört schlicht nicht auf den Server eines Anbieters, den du nicht vertraglich im Griff hast.
Lokale KI-Transkription: das Problem an der Wurzel lösen
Die gute Nachricht: Die Technik hat sich grundlegend geändert. Moderne Spracherkennungsmodelle wie Whisper laufen heute direkt auf normalen Laptops, ohne Serverkontakt und in einer Qualität, die mit Cloud-Diensten mithält. Mehr zur Technik dahinter findest du in unserem Guide zu Offline-Diktiersoftware für Mac und Windows.
Für den Datenschutz ändert das alles. Wenn die Transkription lokal auf deinem Gerät läuft, verlässt die Aufnahme dein Gerät nicht. Es gibt keinen Empfänger, also keinen Auftragsverarbeitungsvertrag für diesen Schritt, keinen Drittlandtransfer, keine Schrems-II-Frage und keine Sorge um fremdes Modelltraining. Deine Informationspflichten gegenüber den aufgenommenen Personen werden einfacher, weil du wahrheitsgemäß sagen kannst: Die Aufnahme bleibt auf diesem Rechner.
Gerade in der qualitativen Forschung ist das ein praktischer Durchbruch. Ethikkommissionen und Datenschutzbeauftragte fragen bei Interviewstudien regelmäßig, wohin die Aufnahmen fließen. „Die Transkription läuft lokal auf dem Studienrechner" ist eine Antwort, die Genehmigungsprozesse spürbar verkürzt. Dasselbe gilt für Redaktionen, die Quellen schützen, und für alle Berufe mit Schweigepflicht.
Ehrlich bleibt die Einordnung trotzdem: Lokal löst die Übermittlungsfrage, nicht alle Pflichten. Die Rechtsgrundlage für die Aufnahme brauchst du weiterhin, ebenso angemessene Endpunktsicherheit, also Festplattenverschlüsselung, Zugriffskontrolle und ein sauberes Löschkonzept für Aufnahmen, die du nicht mehr brauchst.
Wenn doch Cloud: dann europäisch und abschaltbar

Es gibt Fälle, in denen Cloud-Leistung praktisch ist, etwa sehr lange Aufnahmen auf älterer Hardware. Dann lautet die Frage nicht „Cloud ja oder nein", sondern welche. DSGVO-tauglich ist ein Cloud-Pfad, wenn die Verarbeitung ausschließlich über europäische Subprozessoren läuft, ein Auftragsverarbeitungsvertrag vorliegt, die Subprozessoren transparent gelistet sind und der Anbieter Zero Data Retention zusichert, deine Audiodaten also nach der Verarbeitung nicht behält und nicht für Training verwendet. Und du selbst musst steuern können, ob überhaupt etwas in die Cloud geht: standardmäßig lokal, Cloud nur als bewusste Entscheidung pro Funktion.
Checkliste: Fragen an jeden Transkriptionsanbieter
Bevor du eine Aufnahme hochlädst oder eine Software einsetzt, sollten sich diese Fragen sauber beantworten lassen. Läuft die Transkription standardmäßig lokal, oder geht jedes Audio in die Cloud? Wenn Cloud im Spiel ist: Wo stehen die Server, wer sind die Subprozessoren, gibt es einen Auftragsverarbeitungsvertrag? Werden Audio oder Transkripte für KI-Training verwendet oder nach der Verarbeitung gespeichert? Lässt sich die Cloud vollständig deaktivieren? Und schließlich auf deiner Seite: Hast du die Einwilligung aller aufgenommenen Personen, auch für die Art der Verarbeitung, die du planst?
Ein Anbieter, der diese Fragen nur mit Marketingformeln beantwortet, hat sie meist nicht im Griff. Ein klares, nachprüfbares Versprechen in der Datenschutzerklärung ist mehr wert als jedes Werbeversprechen.
Häufige Fragen zu DSGVO und Transkriptionssoftware
Darf ich Interviews mit einem US-Cloud-Dienst transkribieren?
Heikel. Du brauchst einen Auftragsverarbeitungsvertrag, eine tragfähige Grundlage für den Drittlandtransfer und eine Einwilligung der Befragten, die den Upload abdeckt. Seit Schrems II bleibt selbst dann ein Restrisiko. Lokale oder EU-basierte Verarbeitung umgeht das Problem.
Brauche ich die Einwilligung der aufgenommenen Personen?
In aller Regel ja, und zwar schon für die Aufnahme selbst, nicht erst für die Transkription. Heimliche Aufnahmen sind in Deutschland nach § 201 StGB sogar strafbar. Die Einwilligung sollte auch abdecken, wie und womit die Aufnahme weiterverarbeitet wird.
Ist lokale KI-Transkription schlechter als Cloud-Transkription?
Praktisch nicht mehr. Moderne lokale Modelle wie Whisper erreichen auf aktueller Hardware eine Qualität, die für Interviews, Memos und Besprechungen mit Cloud-Diensten vergleichbar ist. Auf älterer Hardware kann eine EU-Cloud mit Zero Data Retention ein sinnvoller Kompromiss sein.
Was bedeutet Zero Data Retention?
Dass der Anbieter deine Audiodaten und Transkripte nach der Verarbeitung nicht speichert und nicht für eigene Zwecke wie Modelltraining verwendet. Für vertrauliche Aufnahmen sollte das vertraglich zugesichert sein.
Reicht ein EU-Serverstandort für DSGVO-Konformität?
Er löst den Drittlandtransfer, aber nicht alles. Du brauchst weiterhin einen Auftragsverarbeitungsvertrag, Transparenz über Subprozessoren und die Zusicherung, dass deine Inhalte nicht für Training verwendet werden. Und die Einwilligung der Aufgenommenen ersetzt er nie.
Was gilt für Ärzte, Anwälte und andere Berufsgeheimnisträger?
Für sie ist die Hürde am höchsten: Unbefugtes Offenbaren von Geheimnissen ist nach § 203 StGB strafbar. Aufnahmen mit Patienten- oder Mandantenbezug sollten ein Gerät im eigenen Verantwortungsbereich möglichst gar nicht verlassen. Lokale Transkription ist hier oft der einzige saubere Weg.
Fazit: Die beste Übermittlung ist keine
DSGVO-konforme Transkription beginnt vor dem ersten Upload: mit der Einwilligung der Aufgenommenen und mit der Frage, ob die Aufnahme dein Gerät überhaupt verlassen muss. Wenn die KI-Transkription lokal läuft, fallen die schwierigsten Pflichten weg, weil es schlicht keinen Empfänger gibt. Brauchst du doch Cloud-Leistung, dann ausschließlich europäisch, vertraglich abgesichert, ohne Training mit deinen Daten und jederzeit abschaltbar.
Ownvox: lokale KI-Transkription, gebaut in Deutschland
Ownvox folgt genau diesem Prinzip, mit einem klaren Fokus: Live-Transkription. Ownvox verwandelt deine Stimme in Echtzeit in Text, direkt am Cursor in jeder App, und die Spracherkennung läuft standardmäßig lokal auf deinem Mac oder Windows-Rechner. Deine Stimme und deine Transkripte verlassen dein Gerät nicht. Wenn dein Anwendungsfall das Verschriftlichen deiner eigenen Sprache ist, also Notizen, Vermerke, Memos oder ganze Dokumente, bekommst du dafür die datenschutzfreundlichste Architektur, die derzeit möglich ist. Optional kannst du eine EU-Cloud zuschalten, deren Inferenz in Frankreich bei Scaleway und deren Proxy in Deutschland bei Hetzner läuft, mit Zero Data Retention und ohne Training mit deinen Inhalten. Ein Datenschutz-Schalter deaktiviert alle Cloud-Funktionen mit einem Klick, ein Auftragsverarbeitungsvertrag ist verfügbar, und entwickelt wird Ownvox in Deutschland.
Wenn du Spracherkennung suchst, die DSGVO-Konformität nicht verspricht, sondern in die Architektur einbaut, lade Ownvox herunter und diktiere den ersten Text, ohne dass deine Stimme deinen Rechner verlässt.