OpenAI udostępnia GPT‑5.4 z obsługą widzenia komputerowego

OpenAI udostępnia GPT‑5.4 z obsługą widzenia komputerowego 2

OpenAI wydało GPT-5.4 i GPT-5.4 Pro dwa dni po wydaniu wersji 5.3 Instant.

Standardowa wersja GPT-5.4 jest dostępna w interfejsie internetowym ChatGPT, poprzezAPI oraz w narzędziu Codex. Wersja GPT-5.4 Thinking została udostępniona subskrybentom Plus, Team i Pro.

Użytkownicy wersji Pro i Enterprise mogą korzystać z GPT‑5.4 Pro, do którego można również uzyskać dostęp za pośrednictwem interfejsu API.

Podstawowy koszt użytkowania wynosi 2,5 USD za milion tokenów przychodzących i 15 USD za milion tokenów wychodzących. Stawki za wersję Pro są znacznie wyższe: odpowiednio 30 USD i 180 USD za milion tokenów.

Produktywność w zadaniach zawodowych

GPT-5.4 zapewnia bardziej stabilne i wysokiej jakości wyniki w rzeczywistych scenariuszach. W benchmarku GDPval, który ocenia wydajność zadań w 44 zawodach, wersja uzyskała wynik 83%. Oznacza to, że model działa na poziomie wyspecjalizowanych specjalistów lub nawet ich przewyższa. Dla porównania, wynik GPT-5.2 wyniósł 70,9%.

obraz

Źródło: OpenAI.

Twórcy oprogramowania zwrócili szczególną uwagę na pracę z arkuszami kalkulacyjnymi, prezentacjami i dokumentami. W zadaniach na poziomie młodszego analityka banku inwestycyjnego, GPT-5.4 uzyskał 87,3%, w porównaniu z 68,4% dla GPT-5.2.

W 68% przypadków oceniający preferowali prezentacje oparte na nowym modelu — ze względu na lepszą estetykę, różnorodność i efektywne wykorzystanie generowanych obrazów.

obraz

Źródło: OpenAI.

GPT-5.4 stał się również najdokładniejszym modelem OpenAI pod względem pracy z faktami. Testowany na komunikatach ze znanymi błędami:

  • w przypadku poszczególnych stwierdzeń prawdopodobieństwo, że są fałszywe, było o 33% niższe;
  • Pełne odpowiedzi zawierały o 18% mniej błędów w porównaniu do GPT-5.2.

Wizja komputerowa

Wersja po raz pierwszy oferuje wbudowaną wizję komputerową i funkcje sterowania komputerem. Model może obsługiwać myszkę i klawiaturę, nawigować po zrzutach ekranu i pisać kod automatyzacji za pośrednictwem Playwrighta.

Dostosowywanie zachowania do konkretnych scenariuszy odbywa się z uwzględnieniem akceptowalnego poziomu ryzyka.

W teście porównawczym OSWorld-Verified (zarządzanie pulpitem) GPT-5.4 pomyślnie wykonał 75% zadań, przewyższając poprzednią wersję (47,3%) i ludzi (72,4%). Postęp ten wiąże się z lepszą percepcją wizualną:

  • w teście MMMU‑Pro (rozumienie i logika) wynik wyniósł 81,2% w porównaniu z 79,5% w teście GPT‑5.2;
  • w OmniDocBench (analiza dokumentów) średni wskaźnik błędów spadł z 0,140 do 0,109.

Programowanie

Pod względem kodowania model ten dorównuje specjalistycznemu GPT‑5.3‑Codex, ale działa szybciej.

Codex ma teraz tryb /fast, który przyspiesza generowanie półtora raza bez utraty jakości. Według testów wewnętrznych, GPT-5.4 wykazał wysokie wyniki w złożonych zadaniach front-endowych.

Wprowadzono również eksperymentalną umiejętność Playwright (Interactive). Pozwala ona modelowi na wizualne debugowanie aplikacji internetowych i Electron, testując własny kod w trakcie pisania.

Narzędzia

GPT-5.4 wprowadza funkcję wyszukiwania narzędzi. Wcześniej system musiał wstępnie wczytywać opisy wszystkich dostępnych wtyczek do kontekstu. Dodawało to tysiące dodatkowych tokenów do każdego żądania i zwiększało koszt.

Teraz model otrzymuje jedynie podstawową listę i samodzielnie wyszukuje oraz wczytuje niezbędne parametry w razie potrzeby. W testach opartych na MCP Atlas, takie podejście zmniejszyło zużycie tokenów o 47% bez utraty dokładności.

Wyszukiwanie w sieci stało się również bardziej produktywne – wyniki testów BrowseComp wzrosły o 17%, a wersja Pro osiągnęła rekordowy wynik 89,3%. GPT‑5.4 Thinking pozwala na efektywniejsze gromadzenie informacji z wielu źródeł, lepsze przetwarzanie złożonych zapytań i generowanie bardziej ustrukturyzowanych odpowiedzi.

Zarządzalność i kontekst

Podczas pracy ze złożonymi zapytaniami, GPT‑5.4 Thinking in ChatGPT najpierw pokazuje użytkownikowi plan działania. Pozwala to na bieżąco korygować kierunek, bez ponownego uruchamiania generowania i zbędnych wyjaśnień. Funkcja jest już dostępna na stronie internetowej i w aplikacji na Androida, a wkrótce pojawi się również na iOS.

Model ten lepiej zachowuje kontekst podczas długich rozmów i dłużej zastanawia się nad złożonymi zadaniami, co pomaga zachować spójność i trafność odpowiedzi nawet podczas pracy z dużą ilością informacji.

Przypomnijmy, że na początku marca użytkownicy zbojkotowali ChatGPT w związku z porozumieniem OpenAI z Pentagonem.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *