W premierowym „naszym” sprawdzianie obszernych modeli językowych, rodzime systemy AI, Bielik i PLLuM spisały się wyraźnie gorzej od globalnych rozwiązań – informuje wtorkowa „Rzeczpospolita”.

„Egzamin obejmował dwadzieścia zadań z dziesięciu kategorii, począwszy od kreowania maila, przez sugestie dla przedsiębiorstw, weryfikację poprawności językowej, aż po wiedzę o polskiej historii i kulturze (np. zacytowanie początkowych dwunastu wersów «Pana Tadeusza»). Rezultaty testu, który zrealizowała firma Oxido, okazały się zaskakujące” – donosi gazeta.
Wśród dwunastu modeli zwyciężyło narzędzie Google’a. W czołówce znalazł się również chiński model Qwen oraz model Llama od Mety (posiadacza m. in. Facebooka – PAP). „Polskie modele ulokowały się natomiast na samym końcu” – akcentuje dziennik.
„Rezultat jest tym bardziej nieoczekiwany, że dotychczas eksperci utrzymywali, że polskie modele lepiej znają subtelności naszego języka i historii. „Nasze modele nie popisały się natomiast w dziedzinach, które teoretycznie powinny stanowić ich atut. Przykładowo, w kwestii inwokacji «Pana Tadeusza» Bielik zajął ósmą pozycję, a PLLuM – trzecią od końca” – relacjonuje „Rz".
Według Marka Jeleśniańskiego, autora analizy, lokata Bielika przy ograniczonych środkach twórców to mimo wszystko „całkiem dobry wynik”, a polskie modele mogą stać się alternatywnym rozwiązaniem przy dalszych inwestycjach. „Gdyby wykreować logiczne ramy dla dotacji i innowacji, gdyby zachęcić inwestorów i instytucje do bardziej aktywnego finansowania rozwoju Mistrala czy polskich modeli, to moglibyśmy zredukować dystans, który dzieli nas od konkurentów” – twierdzi Jeleśniański. (PAP)
bal/ sp/
