Tag der Muttersprache: Wie KI sprachliche Vielfalt unterstützt und wo sie (noch) scheitert

Am 21. Februar ist Welttag der Muttersprache. Dieser Gedenktag wurde erstmals 2000 von der UNESCO gefeiert, um sprachliche und kulturelle Vielfalt sowie Mehrsprachigkeit zu fördern. Der Tag findet jedes Jahr unter einem bestimmten Motto statt – 2026 betont er die Rolle junger Menschen bei mehrsprachiger Erziehung.

Autor:in

Lea Auerbach

KI und Sprachen – Wenn digital nur Englisch ist

Ob Sprachsteuerung, Chatbots oder Übersetzungen: in vielen Produkten wirken Funktionen auf Englisch am ausgereiftesten. Ein wesentlicher Grund liegt in den Daten. Wo mehr digitale Texte, mehr Dokumentation, mehr Standardisierung und mehr öffentlich verfügbare Trainingskorpora existieren, können Modelle leichter lernen. Englisch als meistgesprochene Sprache der Welt – auch in der Informatik und Wissenschaft – profitiert hiervon. Auch die recht simple Grammatik des Englischen begünstigt die Verarbeitung durch Computer.

Bisherige KI-Sprachmodelle unterstützen nur 30 bis maximal 80 Sprachen. Google Translator übersetzt Stand Februar 2024 insgesamt 243 Sprachen, das langfristige Ziel ist es, 1.000 Sprachen zu unterstützen.

Kann KI helfen? Ja – aber der Engpass heißt Trainingsmaterial

Die Dringlichkeit dieses Themas zeigen Zahlen der UNESCO, die anlässlich des Welttags der Muttersprache häufig zitiert werden:

„Alle zwei Wochen verschwindet eine Sprache und nimmt damit ein ganzes kulturelles und intellektuelles Erbe mit sich. Die UNESCO schätzt, dass es 8.324 Sprachen gibt, die gesprochen oder in Gebärdensprache verwendet werden. Davon sind noch etwa 7.000 Sprachen in Gebrauch. Nur wenige hundert Sprachen haben tatsächlich einen Platz im Bildungswesen und im öffentlichen Raum erhalten, und weniger als hundert werden in der digitalen Welt verwendet.“

Wenn Sprachen im digitalen Raum nicht vorkommen, fehlen für Millionen Menschen Zugänge zu Informationen, Bildung, Leistungen und Teilhabe. Dabei liegt der Grund nicht immer in einer geringen Anzahl der Sprechenden. Auch weitverbreitete Sprachen werden kaum unterstützt und damit einem Großteil ihrer Sprecher:innen die digitale Teilhabe verweigert. Dies trifft auf viele afrikanische Sprachen mit jeweils 10 bis 50 Millionen Muttersprachler:innen zu.

Hier kann KI helfen: Übersetzungen, Spracherkennung und Text-to-Speech können Inhalte in Sprachen übersetzen, die bisher kaum digital unterstützt werden.

Allerdings gibt es hier ein Problem:

Um gute Ergebnisse bei Übersetzungen zu erzielen, benötigt es viele, qualitativ hochwertige Beispiele ohne grammatikalische Fehler und mit korrekter Orthografie – das stellt bei seltenen oder unterrepräsentierten Sprachen oft ein Hindernis dar. Und genau dadurch bleiben sie in KI-Systemen zurück.

Forschung und Praxis reagieren darauf mit zwei Strategien, die man aktuell besonders häufig sieht:

Effizientere Modelle, die mit weniger Trainingsdaten auskommen (z. B. durch besseres Transfer Learning).
Synthetische Trainingsdaten, etwa durch Back-Translation oder gezielte Datengenerierung.

Ein konkretes Beispiel für „Skalierung in Richtung Vielfalt“ ist NLLB-200 (No Language Left Behind) von Meta: ein Übersetzungsmodell für 200 Sprachen, das explizit auch low-resource Languages adressiert.
Die Technologie wird u. a. im Wikipedia-Umfeld genutzt: über das Content-Translation-Tool können Artikel in mehr als 20 Sprachen übersetzt werden – einschließlich Sprachen, die zuvor dort nicht unterstützt wurden.

Diskriminierung und KI: Wenn Dialekte und soziale Sprachvielfalt benachteiligt werden

Sprache ist Ausdruck kultureller Vielfalt und begrenzt sich nicht auf Ländergrenzen. Dialekte, Soziolekte und regionale Schreibweisen sorgen für Probleme beim Einsatz von KI: Sprachmodelle wie GPT-5 oder Llama haben Vorurteile gegenüber Dialektsprechenden und reproduzieren bzw. verstärken negative Stereotype. In Experimenten der Johannes-Gutenberg-Universität Mainz, der Universität Hamburg und Washington zeigen, dass Dialektsprechenden von KI signifikant häufiger negative Eigenschaften wie „ungebildet“ oder „unfreundlich“ zugesprochen werden.

Diese Vorurteile gegenüber nicht standardisierten oder regionalen Sprachvarianten wurden auch in anderen Sprachen wie dem Englischen beobachtet. Mechanismen, um diese Diskriminierungen zu vermeiden, sind im Deutschen noch ausbaufähig. Im Englischen wurden bereits viele dieser „Mitigation-Strategien“ implementiert, um Vorurteile gegenüber Dialekten und sozialen Gruppen zu minimieren.

Was heißt das für Unternehmen (und für uns als Tech-Branche)?

Wenn wir Mehrsprachigkeit ernst nehmen, brauchen KI-Systeme mehr als nur „mehr Parameter“:

Sprachabdeckung messen, nicht vermuten: Welche Sprachen, Varietäten und Dialekte funktionieren im Produkt wirklich gut?
Qualität nach Zielgruppe testen: Standarddeutsch-only Benchmarks reichen nicht, wenn Nutzergruppen divers sprechen und schreiben.
Bias systematisch prüfen: Stereotype in generierten Attributen, Entscheidungen, Zusammenfassungen etc.
Human-in-the-loop einplanen: Gerade bei Sprachen, zu denen wenig Trainingsdaten vorliegen, sind Community- und Expert:innen-Feedback Gold wert (und oft unverzichtbar).

Sprachen im Test bei Accso

In unserem Team bei Accso werden mehr als 20 verschiedene Sprachen gesprochen. Daher haben wir einmal den Test gemacht: Wie gut funktioniert ChatGPT beispielsweise auf isiZulu (meistgesprochene Muttersprache in Südafrika), Spanisch, Kreolisch und Niederländisch?
Hierfür haben wir unseren mehrsprachigen Kolleg:innen durch ChatGPT (Modell GPT 5.2) erstellte Übersetzungen zur Bewertung vorgelegt. Die erstellten Sätze decken verschiedene Qualitätsmerkmale wie Flüssigkeit, Grammatik oder Fachsprache ab.

Unser – nicht repräsentativer – Einblick: Es zeigen sich eher kleine Unterschiede zwischen den 21 bewerteten Sprachen, aber klare Unterschiede zwischen den Bewertungsdimensionen: Formell/Informell und Bedeutungspräzision sind fast überall sehr gut, während „Denken in der Sprache“, Grammatik und Code-Switching deutlich schwächer ausfallen. Die Qualität wirkt insgesamt „robust“ bei Standardanforderungen, zeigt allerdings Schwächen bei kognitiv/kontextuell anspruchsvolleren Dingen.
Sehr gut schnitten in unserem Test Albanisch, Bulgarisch, Indonesisch und Italienisch ab. Am unteren Ende – aber immer noch verständlich – waren Kasachisch, Kroatisch, Arabisch, Chinesisch, Kreolisch. Diese „schwächeren“ Sprachen sind nicht zwingend insgesamt schlecht – oft wird der Schnitt durch ein oder zwei sehr niedrige Teilwerte gedrückt.

Um Unterschiede beispielsweise zwischen den verschiedenen Sprachfamilien festzustellen, reicht unser interner Test zu kurz.

Sprache	Flüssigkeit	Formell vs. Informell	Idiome & Natürlichkeit	Grammatik	Präzision	Denken	Code-Switching	Fachsprache	Durchschnitt
Afrikaans	1	2	2	1	2	1	2	2	1,6
Albanisch	2	2	2	2	2	2	2	2	2,0
Arabisch	1	2	2	1	2	2	0	2	1,5
Bulgarisch	2	2	(keine Angabe)	2	2	2	2	2	2,0
Chinesisch	1	2	2	1	2	1	2	1	1,5
Französisch	2	2	2	2	1	2	2	2	1,9
Griechisch	2	2	2	2	2	1	2	2	1,9
Indonesisch	2	2	2	2	2	2	2	2	2,0
isiZulu	1	2	1	1	2	2	2	2	1,6
Italienisch	2	2	2	2	2	2	2	2	2,0
Kasachisch	1	2	1	1	2	1	1	1	1,3
Koreanisch	2	2	2	2	2	1	2	2	1,9
Kreolisch	1	1	2	1	2	1	2	2	1,5
Kroatisch	2	2	2	1	2	0	1	1	1,4
Persisch	2	2	2	1	2	2	0	2	1,6
Polnisch	2	2	2	2	2	2	1	2	1,9
Portugiesisch	1	2	2	2	2	2	1	2	1,8
Russisch	2	2	2	2	2	2	2	1	1,9
Spanisch	2	2	2	2	2	1	2	2	1,9
Türkisch	1	2	2	2	2	1	2	2	1,8
Ukrainisch	2	2	2	1	2	1	2	2	1,8
Durchschnitt	1,6	2,0	1,9	1,6	2,0	1,5	1,6	1,8

Zur Bewertung:

2 = natürlich, korrekt, passend im Register
1 = verständlich, aber unnatürlich/holprig oder kleine Fehler
0 = viele Fehler, weicht aus, driftet in andere Sprache, wirkt „kaputt“

Quellen:

Publikation:

Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, and Dietrich Klakow. 2022. Adapting Pre-trained Language Models to African Languages via Multilingual Adaptive Fine-Tuning. In Proceedings of the 29th International Conference on Computational Linguistics, pages 4336–4349, Gyeongju, Republic of Korea. International Committee on Computational Linguistics.
Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, and Katharina von der Wense. 2025. Large Language Models Discriminate Against Speakers of German Dialects. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 8212–8240, Suzhou, China. Association for Computational Linguistics.

Schriftzug Tobias Zimmermann KI & Diversity auf dunkelgrünem Hintergrund

Name:	CraftSessionId
Beschreibung:	Craft stützt sich auf PHP-Sitzungen, um Sitzungen über Webanfragen hinweg aufrechtzuerhalten. Dies geschieht über das PHP-Session-Cookie. Dieses Cookie verfällt, sobald die Sitzung abgelaufen ist.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	CRAFT_CSRF_TOKEN
Beschreibung:	Schützt uns und Sie als Benutzer vor Cross-Site Request Forgery-Angriffen.
Anbieter:	diese Website
Ablaufzeit:	Session

Name:	accso-cookie-consent_de
Beschreibung:	Speichert Ihre getroffenen Datenschutzeinstellungen.
Anbieter:	diese Website
Ablaufzeit:	Dauerhaft

Name:	Google Ads Conversion Tracking
Beschreibung:	Google Ads Conversion Tracking verfolgt die Conversion Rate und den Erfolg von Google Ads Kampagnen. Dabei werden Cookies verwendet, um Nutzer zu differenzieren und ihr Verhalten auf der Seite detailliert zu verfolgen und diese Daten mit Werbdaten aus dem Google-Ads-Werbenetzwerk zu verknüpfen.
Anbieter:	Google Ireland Ltd
Ablaufzeit:	90 Tage

Name:	LinkedIn Insight Tag
Beschreibung:	Wir nutzen den LinkedIn Insight Tag, um die Wirksamkeit unserer LinkedIn-Werbekampagnen zu messen (Conversion-Tracking/Reporting), Zielgruppen aus Website-Besuchern zu bilden (Website Audiences) und Kampagnen zu optimieren bzw. Retargeting zu ermöglichen.
Anbieter:	LinkedIn Ireland Unlimited Company
Ablaufzeit:	bis zu 1 Jahr

Datenschutzeinstellungen

KI und Sprachen – Wenn digital nur Englisch ist

Kann KI helfen? Ja – aber der Engpass heißt Trainingsmaterial

Diskriminierung und KI: Wenn Dialekte und soziale Sprachvielfalt benachteiligt werden

Was heißt das für Unternehmen (und für uns als Tech-Branche)?

Sprachen im Test bei Accso

Mehr zum Thema