DeepSeek wprowadza konkurenta Claude, ChatGPT i Gemini

DeepSeek wprowadza konkurenta Claude, ChatGPT i Gemini 2

Chiński startup z branży sztucznej inteligencji DeepSeek opublikował zapowiedź swojej nowej linii modeli językowych. Flagowy model V4-Pro pokonał Claude Opus 4.6 i GPT-5.4, stając się najlepszym otwartym systemem.

Architektura i skala

V4-Pro ma około 1,6 biliona parametrów, ale tylko 49 miliardów jest aktywowanych na każdym kroku. W drugiej wersji — V4-Flash — całkowita skala wynosi 284 miliardy, z czego 13 miliardów jest aktywowanych.

Oba modele oparte są na architekturze Mixture of Experts (MoE): podczas przetwarzania każdego tokena włączona jest tylko odpowiednia część podsieci. To podejście jest tańsze niż architektury w pełni gęste, ale nie ustępuje im pod względem wydajności.

Początkowe szkolenie przeprowadzono na korpusie liczącym ponad 32 biliony tokenów. Następnie programiści stopniowo trenowali modele, przydzielając oddzielne bloki do kodowania, matematyki, logiki i wykonywania instrukcji. Wersja finalna łączy te umiejętności poprzez destylację.

Długi kontekst stał się tańszy

Kluczową różnicą w wersji V4 jest optymalizacja przetwarzania długich sekwencji. Okno kontekstowe z 1 milionem tokenów jest dostępne również w innych modelach, ale jego użycie zazwyczaj wiąże się z wysokimi kosztami i opóźnieniami.

DeepSeek twierdzi, że nowa wersja znacząco zmniejszyła zużycie zasobów podczas takich operacji. W porównaniu z wersją 3.2, wersja V4-Pro wymaga o około 27% mniej obliczeń i o 10% mniej pamięci podręcznej KV podczas pracy z maksymalnym kontekstem. W przypadku wersji V4-Flash wartości te wynoszą odpowiednio około 10% i 7%.

obraz

Źródło: Hugging Face.

Zespół osiągnął ten wynik dzięki hybrydowej architekturze uwagi: dwa mechanizmy kompresują dane i zmniejszają obciążenie podczas pracy z długimi tekstami. Wykorzystuje ona również specjalne hiperłącza zapewniające stabilność oraz optymalizator Muon, aby przyspieszyć uczenie się.

Sposoby rozumowania i możliwości agentów

DeepSeek V4 obsługuje trzy tryby wnioskowania:

  1. Niemyślenie — szybkie odpowiedzi na proste pytania bez dodatkowej analizy.
  2. Think High — dogłębna analiza złożonych zadań i planowanie.
  3. Think Max — tryb maksymalny: model przechodzi przez każdy krok i sprawdza wszystkie opcje.

W zadaniach agenta tryb Max zachowuje teraz ciąg kroków pośrednich w ramach jednego zadania. W poprzedniej wersji część tego kontekstu była tracona podczas interakcji z użytkownikiem.

Wyniki testów

Według DeepSeek, flagowa wersja oferuje wyniki porównywalne z wiodącymi systemami w wielu obszarach:

  • w zadaniach programistycznych na Codeforces model osiągnął ocenę 3206 — 23. miejsce wśród aktywnych programistów na świecie, na równi z GPT-5.4;
  • z matematyki uzyskała 95,2 punktu w teście HMMT 2026 i 89,8 punktu w teście IMOAnswerBench, wyprzedzając większość konkurentów;
  • w wiedzy SimpleQA Verified — 57,9 (Opus 4.6 — 46,2, ale Gemini 3.1 Pro — 75,6).
  • w rozumowaniu modele te pozostają w tyle za GPT-5.4 i Gemini 3.1 Pro tylko o trzy do sześciu miesięcy;
  • w wewnętrznym teście DeepSeek, obejmującym rozwój, debugowanie i refaktoryzację, model osiągnął wynik 67% — pomiędzy Sonnet 4.5 (47%) a Opus 4.5 (70%);
  • W scenariuszach agentowych i zadaniach rozwojowych V4-Pro-Max osiągnął wynik 80,6% w teście SWE Verified i 67,9% w teście Terminal Bench.

obraz

Źródło: Hugging Face.

V4 został specjalnie przeszkolony w zakresie scenariuszy z życia wziętych: analiza danych, raportowanie, edycja dokumentów i wyszukiwanie w Internecie przy użyciu iteracyjnych narzędzi.

Aby ocenić przydatność modelu w rzeczywistych warunkach programistycznych, startup przeprowadził wewnętrzne testy zadań swoich inżynierów. W ankiecie przeprowadzonej wśród 85 programistów i badaczy, 52% z nich zadeklarowało gotowość do wykorzystania V4-Pro jako głównego modelu kodowania, a kolejne 39% stwierdziło, że jest skłonnych do podjęcia takiej decyzji.

Przypomnijmy, że 23 kwietnia OpenAI wydało GPT-5.5. Model ten jest pozycjonowany jako „nowy poziom inteligencji do pracy w świecie rzeczywistym i zarządzania agentami”.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *