
Physical Intelligence, startup założony przez byłych inżynierów Google, zaprezentował model π0․7. Twórcy twierdzą, że stanowi on „przełomowy krok” w zdolności sztucznej inteligencji do generalizowania umiejętności i wykonywania zadań, których nie została bezpośrednio nauczona.
Nasz najnowszy model, π0.7, ma kilka interesujących, pojawiających się możliwości: potrafi sterować nowym robotem do składania koszul, w przypadku którego nie mieliśmy żadnych danych dotyczących składania koszul, potrafi dowiedzieć się, jak korzystać z urządzenia za pomocą komunikatów głosowych, a także wykonywać szeroki zakres zadań zręcznościowych — wszystko w jednym modelu! pic.twitter.com/s9NxKfb7pe
— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.
System należy do klasy Vision-Language-Action (VLA) i jest przeznaczony do sterowania robotami.
W przeciwieństwie do poprzednich rozwiązań, π0․7 wykazało oznaki generalizacji kompozycyjnej — zdolności łączenia wcześniej nabytych umiejętności w celu rozwiązywania nowych problemów.
Podczas eksperymentów model wykazał szereg nieoczekiwanych możliwości. W szczególności π0,7 był w stanie sterować nowym typem robota i składać koszulki, pomimo braku danych treningowych dla tej konkretnej platformy.
Generalizacja kompozycyjna jest kluczową funkcją dużych modeli, takich jak LLM, ale pozostaje nieuchwytna w robotyce. Inną nową funkcją, którą odkryliśmy, było sterowanie nowym robotem składającym koszulki (UR5e), mimo że nie dysponowaliśmy danymi na temat robota składającego bieliznę. pic.twitter.com/lAXYag002Z
— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.
Twórcy zauważyli, że wyniki są porównywalne z poziomem operatorów, którzy mają setki godzin doświadczenia w zdalnym sterowaniu.
Narzędzie potrafiło również zrozumieć, jak korzystać z urządzeń, które wcześniej nie były znane, w tym z urządzeń kuchennych. Na przykład, robot wykonał część zadania polegającego na gotowaniu słodkich ziemniaków we frytkownicy powietrznej, mimo że w zestawie treningowym nie było takich scenariuszy.
Twórcy twierdzą, że stało się to możliwe dzięki połączeniu różnych umiejętności — podobnie jak modele językowe łączą wiedzę z różnych dziedzin.
Zarządzanie poprzez język i kontekst
Jedną z kluczowych różnic π0,7 była możliwość zarządzania nie tylko za pomocą poleceń „co zrobić”, ale także poprzez wyjaśnienie „jak to zrobić”.
Model akceptuje:
- instrukcje tekstowe;
- metadane (np. szybkość i jakość wykonania);
- Podcele wizualne to obrazy spodziewanych rezultatów danego kroku.
Niektóre z podcelów mogą być tworzone przez system pomocniczy bezpośrednio w trakcie pracy. Pozwala to robotowi na dostosowanie swojego zachowania bez dodatkowego szkolenia.
π0.7 obsługuje różnorodne wskazówki, które nie tylko podpowiadają, co robić, ale także jak to robić, w tym bogaty język i informacje multimodalne, takie jak obrazy wizualnych podcelów. Podczas testów obrazy te mogą być generowane przez lekki model świata. pic.twitter.com/cbdovdVjBG
— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.
Dzięki takiemu podejściu możliwe jest łączenie danych z różnych źródeł — nagrań wideo, danych telemetrycznych od robotów i autonomicznie zbieranych epizodów — w ramach jednego systemu szkoleniowego.
Pierwszy krok w kierunku „uniwersalnych” robotów
Physical Intelligence zauważył, że wcześniej podobne modele wymagały ponownego trenowania dla każdego zadania – jak wczesne wersje modeli językowych. Zamiast tego π0,7 działa „od razu” i adaptuje się do nowych scenariuszy za pomocą języka.
Zespół podkreślił, że ten poziom generalizacji od dawna uważany jest za zaletę LLM , ale w robotyce jest nieosiągalny.
Pomimo postępu, model nadal nie zawsze radzi sobie ze złożonymi zadaniami bez instrukcji krok po kroku. Jednak dzięki spójnym instrukcjom jakość wykonania zauważalnie wzrasta.
W przyszłości takie instrukcje pomogą wyszkolić więcej autonomicznych maszyn, które będą mogły działać bez ludzi. Physical Intelligence uważa, że π0,7 wskazuje na pierwsze oznaki transformacji w kierunku uniwersalnych robotów, które dostosowują się do nowych warunków bez konieczności ręcznego dostrajania każdego zadania.
Przypomnijmy, że w lutym firma Carbon Robotics wypuściła model sztucznej inteligencji Large Plant Model, który potrafi rozpoznawać gatunki roślin w celu zwalczania chwastów.
