Polski wiodącym językiem do sterowania AI. Szokujące ustalenia studium OneRuler.

Polski Wiodcym Jzykiem Do Sterowania Ai Szokujce Ustalenia Studium Oneruler 06ce6de, NEWSFIN

Nasz język ojczysty okazał się lepszy niż angielski – język, który wiedzie prym w obszarze uczenia AI. W amerykańskim rankingu uplasował się dopiero na szóstej pozycji

Foto: Bloomberg

Michał Duszczyk

Reklama

Z niniejszego artykułu poznasz:

  • Dlaczego studia naukowe udowodniły wyższą efektywność języka polskiego w zestawieniu z angielskim?
  • W jaki sposób wielkość kontekstu wpływa na skuteczność różnych języków w rozległych modelach językowych?
  • Jakie odmienności w efektywności występują między językami o "niskim i wysokim poziomie zasobów"?

Język polski był do tej pory ogólnie uważany za jeden z najcięższych do opanowania – w skali globalnej za bardziej złożone pod względem np. gramatyki i pisowni uznaje się np. islandzki, fiński, baskijski, chiński albo nawaho. Według danych organizacji Ethnologue, ogółem na naszej planecie używa się przeszło 7 tys. języków, lecz to nasz, w rozmaitych zestawieniach, znajduje się w czołówce 10 najtrudniejszych. Niemniej jednak okazuje się, że problem mają z nim jedynie ludzie.

Reklama Reklama

Angielski nie jest produktywny

Badacze z University of Maryland i Microsoftu wykonali test dużych modeli językowych (LLM), w którym przyjrzeli się, jak boty dają sobie radę z konkretnymi językami naturalnymi. Przeanalizowali 26 języków. Do testów włączono modele OpenAI o3-mini-high, Google Gemini 1.5 Flash, Qwen2.5 (7B i 72B), Llama 3.1 (8B), Llama 3.3 (70B) oraz DeepSeek-R1. Tworzyli w nich zapytania (tzw. prompty), nie krótkie i zwięzłe, lecz bardzo rozbudowane, kontekstowe (sięgające nawet ponad 100 tys. tokenów). Na podstawie rezultatów tego doświadczenia (zrozumienia zapytania, klasy odpowiedzi) opublikowali benchmark OneRuler. Rezultat? Bez wątpienia spore zaskoczenie. Język polski uplasował się na pierwszym miejscu. Nasz język ojczysty okazał się lepszy niż angielski – język, który z natury jest dominujący w kontekście uczenia AI, w tym rankingu uzyskał dopiero szóstą lokatę.

„Eksperymenty z modelami językowymi odkrywają rosnącą rozbieżność w efektywności między językami o niskich i wysokich zasobach wraz z powiększeniem się długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, angielski nie jest językiem o najwyższej efektywności w zadaniach o dużym kontekście, a językiem wiodącym okazał się polski” – piszą w udostępnionym niedawno sprawozdaniu równie zdziwieni badacze.

Czytaj dalej:

Svg%3E, NEWSFIN Raporty ekonomiczne Bielik chce wejść do szkół, a PLLum podbija samorządy. Polska AI rośnie w siłę

Pro

Reklama Reklama Reklama

Interesujący, choć już nie tak zaskakujący, okazał się również inny wniosek z badania – a mianowicie wydajność modeli w językach tak zwanych wysokozasobowych (np. europejskich) jest wyższa niż w „niskich” (takich jak np. swahili albo sesotho). Co istotne, ta dysproporcja wydajności zwiększa się wraz z rozmiarem długości kontekstu – z 11 proc. przy 8 tys. tokenów do aż 34 proc. przy 128 tys. tokenów. Jest to ważne, ponieważ rozumienie języka w długim kontekście ma fundamentalne znaczenie dla rzeczywistych zastosowań dużych modeli językowych, takich jak skracanie i odpowiadanie na złożone zapytania.

Niewielkie zasoby, lecz duża skuteczność

Podczas badań modele oceniano w oparciu o siedem syntetycznych zadań podzielonych na dwie kategorie: szukanie (zadania typu „igła w stogu siana”, gdzie odszukuje się informacje, których nie ma w tekście) oraz zbieranie danych (wyodrębnianie najczęściej pojawiających się słów z obszernej listy). Testy przeprowadzono dla czterech długości kontekstu: 8, 32, 64 i 128 tys. tokenów. Jakie wnioski? Polski to najlepszy język do tworzenia promptów. Wydaje się to niewiarygodne, tym bardziej, że AI ma z naszym językiem pewien zasadniczy problem – chodzi o fakt „stosunkowo małej ilości zasobów” w naszym języku, które wykorzystywane są do trenowania LLM-ów. Pomimo tego badacze nie mają wątpliwości: boty, działając w tym języku, popełniają mniej pomyłek, umieją bardziej precyzyjnie odpowiedzieć i lepiej przeanalizować duże zestawy dokumentów. Opublikowane przez zespół naukowców (Yekyung Kim, Jenna Russell, Marzena Karpińska, Mohit Iyyer) badanie „One ruler to measure them all: Benchmarking multilingual long-context language models” ukazuje jednoznacznie: polski sprawdza się najlepiej w zadaniach, w których wpisywana zawartość prompta jest bardzo rozległa, ponieważ wynosi od 64 do 128 tys. tokenów.

Według analiz osiągnął on średnio 88 proc. efektywności. W przypadku jęz. angielskiego było to niecałe 84 proc. Co interesujące, pomimo tego, że modele LLM często trenowane są na ogromnych ilościach danych chińskich, język ten poradził sobie bardzo słabo – zajął dopiero czwarte miejsce od końca (średnia efektywność to 62 proc.).

Pełne zestawienie w klasyfikacji znajduje się poniżej.

Efektywność poszczególnych języków w generowaniu promptów:

  • polski 88%
  • francuski 87%
  • włoski 86%
  • hiszpański 85%
  • rosyjski 84%
  • angielski 83.9%
  • ukraiński 83.5%
  • portugalski 82%
  • niemiecki 81%
  • holenderski 80%
  • norweski 79%
  • szwedzki 78%
  • duński 77%
  • węgierski 76%
  • fiński 75%
  • czeski 73%
  • japoński 72%
  • wietnamski 71%
  • perski 70%
  • serbski 69%
  • koreański 66%
  • hindi 65%
  • chiński 62.1%
  • tamilski 61%
  • swahili 55%
  • sesotho 45%
No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *