20. Feb. 2026
Tag der Muttersprache: Wie KI sprachliche Vielfalt unterstützt und wo sie (noch) scheitert
KI und Sprachen – Wenn digital nur Englisch ist
Ob Sprachsteuerung, Chatbots oder Übersetzungen: in vielen Produkten wirken Funktionen auf Englisch am ausgereiftesten. Ein wesentlicher Grund liegt in den Daten. Wo mehr digitale Texte, mehr Dokumentation, mehr Standardisierung und mehr öffentlich verfügbare Trainingskorpora existieren, können Modelle leichter lernen. Englisch als meistgesprochene Sprache der Welt – auch in der Informatik und Wissenschaft – profitiert hiervon. Auch die recht simple Grammatik des Englischen begünstigt die Verarbeitung durch Computer.
Bisherige KI-Sprachmodelle unterstützen nur 30 bis maximal 80 Sprachen. Google Translator übersetzt Stand Februar 2024 insgesamt 243 Sprachen, das langfristige Ziel ist es, 1.000 Sprachen zu unterstützen.
Kann KI helfen? Ja – aber der Engpass heißt Trainingsmaterial
Die Dringlichkeit dieses Themas zeigen Zahlen der UNESCO, die anlässlich des Welttags der Muttersprache häufig zitiert werden:
„Alle zwei Wochen verschwindet eine Sprache und nimmt damit ein ganzes kulturelles und intellektuelles Erbe mit sich. Die UNESCO schätzt, dass es 8.324 Sprachen gibt, die gesprochen oder in Gebärdensprache verwendet werden. Davon sind noch etwa 7.000 Sprachen in Gebrauch. Nur wenige hundert Sprachen haben tatsächlich einen Platz im Bildungswesen und im öffentlichen Raum erhalten, und weniger als hundert werden in der digitalen Welt verwendet.“
Wenn Sprachen im digitalen Raum nicht vorkommen, fehlen für Millionen Menschen Zugänge zu Informationen, Bildung, Leistungen und Teilhabe. Dabei liegt der Grund nicht immer in einer geringen Anzahl der Sprechenden. Auch weitverbreitete Sprachen werden kaum unterstützt und damit einem Großteil ihrer Sprecher:innen die digitale Teilhabe verweigert. Dies trifft auf viele afrikanische Sprachen mit jeweils 10 bis 50 Millionen Muttersprachler:innen zu.
Hier kann KI helfen: Übersetzungen, Spracherkennung und Text-to-Speech können Inhalte in Sprachen übersetzen, die bisher kaum digital unterstützt werden.
Allerdings gibt es hier ein Problem:
Um gute Ergebnisse bei Übersetzungen zu erzielen, benötigt es viele, qualitativ hochwertige Beispiele ohne grammatikalische Fehler und mit korrekter Orthografie – das stellt bei seltenen oder unterrepräsentierten Sprachen oft ein Hindernis dar. Und genau dadurch bleiben sie in KI-Systemen zurück.
Forschung und Praxis reagieren darauf mit zwei Strategien, die man aktuell besonders häufig sieht:
- Effizientere Modelle, die mit weniger Trainingsdaten auskommen (z. B. durch besseres Transfer Learning).
- Synthetische Trainingsdaten, etwa durch Back-Translation oder gezielte Datengenerierung.
Ein konkretes Beispiel für „Skalierung in Richtung Vielfalt“ ist NLLB-200 (No Language Left Behind) von Meta: ein Übersetzungsmodell für 200 Sprachen, das explizit auch low-resource Languages adressiert.
Die Technologie wird u. a. im Wikipedia-Umfeld genutzt: über das Content-Translation-Tool können Artikel in mehr als 20 Sprachen übersetzt werden – einschließlich Sprachen, die zuvor dort nicht unterstützt wurden.
Diskriminierung und KI: Wenn Dialekte und soziale Sprachvielfalt benachteiligt werden
Sprache ist Ausdruck kultureller Vielfalt und begrenzt sich nicht auf Ländergrenzen. Dialekte, Soziolekte und regionale Schreibweisen sorgen für Probleme beim Einsatz von KI: Sprachmodelle wie GPT-5 oder Llama haben Vorurteile gegenüber Dialektsprechenden und reproduzieren bzw. verstärken negative Stereotype. In Experimenten der Johannes-Gutenberg-Universität Mainz, der Universität Hamburg und Washington zeigen, dass Dialektsprechenden von KI signifikant häufiger negative Eigenschaften wie „ungebildet“ oder „unfreundlich“ zugesprochen werden.
Diese Vorurteile gegenüber nicht standardisierten oder regionalen Sprachvarianten wurden auch in anderen Sprachen wie dem Englischen beobachtet. Mechanismen, um diese Diskriminierungen zu vermeiden, sind im Deutschen noch ausbaufähig. Im Englischen wurden bereits viele dieser „Mitigation-Strategien“ implementiert, um Vorurteile gegenüber Dialekten und sozialen Gruppen zu minimieren.
Was heißt das für Unternehmen (und für uns als Tech-Branche)?
Wenn wir Mehrsprachigkeit ernst nehmen, brauchen KI-Systeme mehr als nur „mehr Parameter“:
- Sprachabdeckung messen, nicht vermuten: Welche Sprachen, Varietäten und Dialekte funktionieren im Produkt wirklich gut?
- Qualität nach Zielgruppe testen: Standarddeutsch-only Benchmarks reichen nicht, wenn Nutzergruppen divers sprechen und schreiben.
- Bias systematisch prüfen: Stereotype in generierten Attributen, Entscheidungen, Zusammenfassungen etc.
- Human-in-the-loop einplanen: Gerade bei Sprachen, zu denen wenig Trainingsdaten vorliegen, sind Community- und Expert:innen-Feedback Gold wert (und oft unverzichtbar).
Sprachen im Test bei Accso
In unserem Team bei Accso werden mehr als 20 verschiedene Sprachen gesprochen. Daher haben wir einmal den Test gemacht: Wie gut funktioniert ChatGPT beispielsweise auf isiZulu (meistgesprochene Muttersprache in Südafrika), Spanisch, Kreolisch und Niederländisch?
Hierfür haben wir unseren mehrsprachigen Kolleg:innen durch ChatGPT (Modell GPT 5.2) erstellte Übersetzungen zur Bewertung vorgelegt. Die erstellten Sätze decken verschiedene Qualitätsmerkmale wie Flüssigkeit, Grammatik oder Fachsprache ab.
Unser – nicht repräsentativer – Einblick: Es zeigen sich eher kleine Unterschiede zwischen den 21 bewerteten Sprachen, aber klare Unterschiede zwischen den Bewertungsdimensionen: Formell/Informell und Bedeutungspräzision sind fast überall sehr gut, während „Denken in der Sprache“, Grammatik und Code-Switching deutlich schwächer ausfallen. Die Qualität wirkt insgesamt „robust“ bei Standardanforderungen, zeigt allerdings Schwächen bei kognitiv/kontextuell anspruchsvolleren Dingen.
Sehr gut schnitten in unserem Test Albanisch, Bulgarisch, Indonesisch und Italienisch ab. Am unteren Ende – aber immer noch verständlich – waren Kasachisch, Kroatisch, Arabisch, Chinesisch, Kreolisch. Diese „schwächeren“ Sprachen sind nicht zwingend insgesamt schlecht – oft wird der Schnitt durch ein oder zwei sehr niedrige Teilwerte gedrückt.
Um Unterschiede beispielsweise zwischen den verschiedenen Sprachfamilien festzustellen, reicht unser interner Test zu kurz.
| Sprache | Flüssigkeit | Formell vs. Informell | Idiome & Natürlichkeit | Grammatik | Präzision | Denken | Code-Switching | Fachsprache | Durchschnitt |
|---|---|---|---|---|---|---|---|---|---|
| Afrikaans | 1 | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 1,6 |
| Albanisch | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2,0 |
| Arabisch | 1 | 2 | 2 | 1 | 2 | 2 | 0 | 2 | 1,5 |
| Bulgarisch | 2 | 2 | (keine Angabe) | 2 | 2 | 2 | 2 | 2 | 2,0 |
| Chinesisch | 1 | 2 | 2 | 1 | 2 | 1 | 2 | 1 | 1,5 |
| Französisch | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 2 | 1,9 |
| Griechisch | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 1,9 |
| Indonesisch | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2,0 |
| isiZulu | 1 | 2 | 1 | 1 | 2 | 2 | 2 | 2 | 1,6 |
| Italienisch | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2,0 |
| Kasachisch | 1 | 2 | 1 | 1 | 2 | 1 | 1 | 1 | 1,3 |
| Koreanisch | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 1,9 |
| Kreolisch | 1 | 1 | 2 | 1 | 2 | 1 | 2 | 2 | 1,5 |
| Kroatisch | 2 | 2 | 2 | 1 | 2 | 0 | 1 | 1 | 1,4 |
| Persisch | 2 | 2 | 2 | 1 | 2 | 2 | 0 | 2 | 1,6 |
| Polnisch | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 1,9 |
| Portugiesisch | 1 | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 1,8 |
| Russisch | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1,9 |
| Spanisch | 2 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 1,9 |
| Türkisch | 1 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 1,8 |
| Ukrainisch | 2 | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 1,8 |
| Durchschnitt | 1,6 | 2,0 | 1,9 | 1,6 | 2,0 | 1,5 | 1,6 | 1,8 |
Zur Bewertung:
- 2 = natürlich, korrekt, passend im Register
- 1 = verständlich, aber unnatürlich/holprig oder kleine Fehler
- 0 = viele Fehler, weicht aus, driftet in andere Sprache, wirkt „kaputt“
Quellen:
- UNESCO: International Mother Language Day
- Deutschlandfunk Nova: Seltene Sprachen in der Forschung
- Uni Saarland: Tag der Muttersprache
- Uni Mainz: Vorurteile bei regionalen Sprachen
Publikation:
- Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, and Dietrich Klakow. 2022. Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning. In Proceedings of the 29th International Conference on Computational Linguistics, pages 4336–4349, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.
- Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, and Katharina von der Wense. 2025. Large Language Models Discriminate Against Speakers of German Dialects. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 8212–8240, Suzhou, China. Association for Computational Linguistics.