Polnisch wurde als präziseste Sprache für das Prompten von Künstlicher Intelligenz (KI) ausgezeichnet. Laut einer neuen Analyse erzielt die polnische Sprache die besten Ergebnisse beim Erteilen von Anweisungen an große Sprachmodelle. Allerdings gibt es dabei auch eine Herausforderung: Für Maschinen ist Polnisch ein vergleichsweise ressourcenarmer Sprachraum.
Polnisch – schwer für Menschen, aber ideal für Maschinen
Bisher galt Polnisch weltweit als eine der schwierigsten Sprachen zum Erlernen – komplizierte Grammatik, Orthografie und Flexion machten sie zu einer wahren Herausforderung, selbst für Linguisten. Laut der Organisation “Ethnologue” existieren weltweit über 7.000 Sprachen, wobei Polnisch regelmäßig zu den zehn schwierigsten gezählt wird.
Doch während Menschen mit dieser Komplexität kämpfen, scheint die Künstliche Intelligenz gut damit zurechtzukommen.
Englisch ist nicht am effizientesten
Wissenschaftler der University of Maryland und Mitar eiter von Microsoft testeten große Sprachmodelle (LLMs), um herauszufinden, wie gut sie mit unterschiedlichen natürlichen Sprachen umgehen. Untersucht wurden 26 Sprachen und diverse KI-System, darunter Modelle von OpenAI (o3-mini-high), Google Gemini 1.5 Flash, Qwen2.5 (7B und 72B), Llama 3.1 (8B), Llama 3.3 (70B) und DeepSeek-R1.
Die Forschenden erstellten umfangreiche, kontextreiche Prompts – teils mit über 100.000 Token – und bewerteten das Verständnis sowie die Antwortqualität der Modelle. Das Ergebnis wurde im Benchmark OneRuler veröffentlicht.
Das Resultat überraschte selbst die Expertinnen und Experten: Polnisch belegte den ersten Platz, während Englisch, die dominierende Trainingssprache der KI, nur Rang sechs erreichte.
„Unsere Experimente zeigen eine wachsende Leistungslücke zwischen ressourcenreichen und -armen Sprachen, wenn man den Kontext von 8.000 auf 128.000 Token erweitert. Überraschenderweise ist Englisch dabei nicht die leistungsfähigste Sprache – Polnisch ist es“, heißt es im Bericht der Forscher.
Kontextlänge als Schlüsselfaktor
Eine weitere Beobachtung: Je länger der Kontext, desto stärker fällt der Unterschied zwischen den Sprachgruppen aus. Bei 8.000 Token lag die Leistungsdifferenz bei 11 Prozent, bei 128.000 Token bereits bei 34 Prozent.
Das ist relevant, weil das Verstehen langer Kontexte entscheidend für reale Anwendungen großer Sprachmodelle ist – etwa bei Textzusammenfassungen, Analysen großer Dokumentenmengen oder komplexen Wissensabfragen.
Wenig Trainingsdaten – hohe Präzision
Im Rahmen der Studie wurden die Modelle anhand von sieben synthetischen Aufgaben getestet, die in zwei Kategorien unterteilt waren:
- Suche („Nadel im Heuhaufen“ – das Auffinden nicht existierender Informationen im Text)
- Aggregation (Ermittlung der häufigsten Wörter in langen Listen).
Die Tests erfolgten mithilfe von vier Kontextlängen: 8.000, 32.000, 64.000 und 128.000 Token.
Das Fazit: Polnisch ist die effizienteste Sprache zum Prompten. Trotz des geringen Datenvolumens, welches für das Training verfügbar ist, liefern Modelle in polnischer Sprache präzisere, weniger fehleranfällige und analytisch stärkere Ergebnisse.
Das Forschungsteam – Yekyung Kim, Jenna Russell, Marzena Karpińska und Mohit Iyyer – veröffentlichte die Studie „One ruler to measure them all: Benchmarking multilingual long-context language models“. Darin heißt es, dass Polnisch insbesondere bei langen Prompts von 64.000 bis zu 128.000 Token eine durchschnittliche Effektivität von 88 Prozent erreicht.
Zum Vergleich: Englisch erzielte knapp 84 Prozent, während Chinesisch, trotz enormer Trainingsdatenmengen, nur auf Rang 23 von 26 landete – mit einer Erfolgsquote von 62 Prozent.
Ranking der Sprachleistung beim Prompten:
| Rang | Sprache | Effektivität |
| 1 | Polnisch | 88 % |
| 2 | Französisch | 87 % |
| 3 | Italienisch | 86 % |
| 4 | Spanisch | 85 % |
| 5 | Russisch | 84 % |
| 6 | Englisch | 83,9 % |
| 7 | Ukrainisch | 83,5 % |
| 8 | Portugiesisch | 82 % |
| 9 | Deutsch | 81 % |
| 10 | Niederländisch | 80 % |
| 11 | Norwegisch | 79 % |
| 12 | Schwedisch | 78 % |
| 13 | Dänisch | 77 % |
| 14 | Ungarisch | 76 % |
| 15 | Finnisch | 75 % |
| 16 | Tschechisch | 73 % |
| 17 | Japanisch | 72 % |
| 18 | Vietnamesisch | 71 % |
| 19 | Persisch | 70 % |
| 20 | Serbisch | 69 % |
| 21 | Koreanisch | 66 % |
| 22 | Hindi | 65 % |
| 23 | Chinesisch | 62,1 % |
| 24 | Tamil | 61 % |
| 25 | Swahili | 55 % |
| 26 | Sesotho | 45 % |
Quelle: rp
Foto: freepik
