Claude Opus 4.6 przewyższył GPT-5.2 w testach porównawczych i otrzymał „zespół agentów”

Startup AI Anthropic zaktualizował swój flagowy model, Claude Opus, do wersji 4.6. Sieć neuronowa lepiej planuje działania, obsługuje długotrwałe zadania i wydajniej pracuje z dużymi bazami kodu.

Okno kontekstowe zostało rozszerzone do miliona tokenów. Ten wolumin pozwala na analizę obszernych dokumentów i prowadzenie długich dialogów bez utraty logicznego wątku.

Zaktualizowane algorytmy są zoptymalizowane pod kątem zadań zawodowych: przeprowadzania analiz finansowych, badań, korzystania z dokumentów, arkuszy kalkulacyjnych i prezentacji oraz ich tworzenia.

Opus 4.6 uzyskał najwyższy wynik w teście programistycznym Terminal-Bench 2.0 i pokonał konkurencję w złożonym, interdyscyplinarnym teście sprawdzającym umiejętność logicznego myślenia Humanity's Last Exam.

obraz

Opus 4.6 w porównaniu z konkurencją w szeregu testów. Źródło: Anthropic.

W teście GDPval-AA, mierzącym jakość rozumowania i podejmowania decyzji, model uzyskał lepsze wyniki niż GPT-5.2 firmy OpenAI. Model LLM uzyskał również najlepsze wyniki w teście BrowseComp, mierzącym zdolność wyszukiwania trudno dostępnych informacji w internecie.

obraz

Źródło: Anthropic.

Opus 4.6 skutecznie wyodrębnia dane z obszernych dokumentów. Dzięki rozszerzonemu oknu kontekstowemu model śledzi i rejestruje nieoczywiste, ukryte szczegóły.

Zespoły agentów

Kluczową innowacją jest możliwość tworzenia grup agentów do współpracy. W tym trybie kilku asystentów AI pracuje równolegle i autonomicznie koordynuje swoją pracę.

Narzędzie to jest przydatne w przypadku zadań podzielonych na niezależne zadania i wymagających analizy dużych objętości tekstu.

Zamknięta pętla

Firma Anthropic twierdzi, że „tworzy Claude'a z Claude'em”. Deweloperzy piszą kod, korzystając z własnego modelu sztucznej inteligencji, a każdy nowy produkt jest przed wydaniem testowany pod kątem wewnętrznych zadań firmy.

Zespół odkrył, że Opus 4.6 poświęca więcej uwagi najtrudniejszym częściom zadania bez dodatkowych instrukcji, szybko wykonuje proste zadania, lepiej radzi sobie z niejednoznacznymi problemami i pozostaje skuteczny w dłuższej perspektywie.

„Opus 4.6 często głębiej analizuje swoje rozumowanie i starannie analizuje je przed podjęciem decyzji. Daje to lepsze rezultaty w rozwiązywaniu złożonych przypadków, ale może zwiększyć koszty i wydatki w przypadku prostych” – zauważyła firma.

Bezpieczeństwo

Zautomatyzowany audyt wykazał, że Opus 4.6 ma niską skłonność do niepożądanych zachowań: oszustw, pochlebstw, wzmacniania fałszywych przekonań użytkowników i ułatwiania popełniania wykroczeń.

obraz

Model demonstruje bezpieczeństwo na poziomie Opus 4.5. Źródło: Anthropic.

Aby zweryfikować model, firma przeprowadziła najobszerniejszą serię ocen, stosując po raz pierwszy nowe metodologie testowania i udoskonalając istniejące.

Dostępność i nowe funkcje

Claude Opus 4.6 jest już dostępny w interfejsie internetowym, za pośrednictwem API oraz na głównych platformach chmurowych.

Do zestawu narzędzi programistycznych dodano nowe funkcje:

  • myślenie adaptacyjne — sieć neuronowa samodzielnie decyduje, kiedy włączyć tryb głębokiego myślenia;
  • regulacja wysiłku – przewidziano cztery poziomy intensywności pracy: od niskiego do maksymalnego;
  • Kompaktowanie kontekstu — narzędzie automatycznie podsumowuje i zastępuje stary kontekst, gdy konwersacja zbliża się do progu tokena.

Przypomnijmy, że w styczniu dyrektor generalny Anthropic, Dario Amodei, przewidział rychłe pojawienie się AGI i utratę miejsc pracy.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *