Chińskie modele zmagają się z poważnym problemem halucynacji AI
Michał Duszczyk
Wszystkie większe modele językowe (LLM) popełniają błędy lub wprowadzają w błąd. Problem znany jako halucynacje występuje nawet w najnowszych i najbardziej zaawansowanych systemach sztucznej inteligencji, które potrafią niezwykle szybko analizować, wnioskować oraz rozwiązywać skomplikowane zadania matematyczne.
Które AI halucynują? A które mają najmniej błędów?
Jak się okazuje, niektóre narzędzia generatywnej sztucznej inteligencji kłamią częściej od innych. Naukowcy zbadali, gdzie takie błędy występują sporadycznie, a gdzie ryzyko ich pojawienia się jest szczególnie wysokie. W zestawieniu zwanym Tabelą Liderów Halucynacji, opracowanym przez firmę Vectara, uwzględniono 25 najpopularniejszych modeli, w tym te od OpenAI, Google oraz Amazon.
Zgodnie z najnowszymi badaniami (stan na I połowę lutego), w tym niechlubnym rankingu na czoło wysunęły się LLM-y z Chin. Wiodą prym m.in. Qwen oraz DeepSeek. Ten ostatni, mimo że swoją premierę miał zaledwie pod koniec stycznia, szybko zyskał miano „punktu zwrotnego w historii AI”. Model open source osiągnął poziom najlepszych modeli AI tworzonych w USA, lecz przy „nieznacznym” zapotrzebowaniu na procesory graficzne. Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tysięcy procesorów graficznych Nvidia.
Chińczycy zredukowali koszty, ale nie liczbę błędów
Chiński projekt był w stanie obniżyć koszt trenowania modeli z ponad 100 milionów dolarów (jak w przypadku narzędzi LLM tworzonych przez wielkie korporacje) do 5 milionów dolarów. Choć później podważano autentyczność tych danych, DeepSeek i tak stał się sensacją. Jednak model ten (V 2.5) znajduje się w gronie liderów halucynacji. Naukowcy wskazują, że opracowany przez Vectarę model oceny halucynacji (