Byli inżynierowie Google'a zaprezentowali sztuczną inteligencję dla robotów „bez szkolenia”

Physical Intelligence, startup założony przez byłych inżynierów Google, zaprezentował model π0․7. Twórcy twierdzą, że stanowi on „przełomowy krok” w zdolności sztucznej inteligencji do generalizowania umiejętności i wykonywania zadań, których nie została bezpośrednio nauczona.

Nasz najnowszy model, π0.7, ma kilka interesujących, pojawiających się możliwości: potrafi sterować nowym robotem do składania koszul, w przypadku którego nie mieliśmy żadnych danych dotyczących składania koszul, potrafi dowiedzieć się, jak korzystać z urządzenia za pomocą komunikatów głosowych, a także wykonywać szeroki zakres zadań zręcznościowych — wszystko w jednym modelu! pic.twitter.com/s9NxKfb7pe

— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.

System należy do klasy Vision-Language-Action (VLA) i jest przeznaczony do sterowania robotami.

W przeciwieństwie do poprzednich rozwiązań, π0․7 wykazało oznaki generalizacji kompozycyjnej — zdolności łączenia wcześniej nabytych umiejętności w celu rozwiązywania nowych problemów.

Podczas eksperymentów model wykazał szereg nieoczekiwanych możliwości. W szczególności π0,7 był w stanie sterować nowym typem robota i składać koszulki, pomimo braku danych treningowych dla tej konkretnej platformy.

Generalizacja kompozycyjna jest kluczową funkcją dużych modeli, takich jak LLM, ale pozostaje nieuchwytna w robotyce. Inną nową funkcją, którą odkryliśmy, było sterowanie nowym robotem składającym koszulki (UR5e), mimo że nie dysponowaliśmy danymi na temat robota składającego bieliznę. pic.twitter.com/lAXYag002Z

— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.

Twórcy zauważyli, że wyniki są porównywalne z poziomem operatorów, którzy mają setki godzin doświadczenia w zdalnym sterowaniu.

Narzędzie potrafiło również zrozumieć, jak korzystać z urządzeń, które wcześniej nie były znane, w tym z urządzeń kuchennych. Na przykład, robot wykonał część zadania polegającego na gotowaniu słodkich ziemniaków we frytkownicy powietrznej, mimo że w zestawie treningowym nie było takich scenariuszy.

Twórcy twierdzą, że stało się to możliwe dzięki połączeniu różnych umiejętności — podobnie jak modele językowe łączą wiedzę z różnych dziedzin.

Zarządzanie poprzez język i kontekst

Jedną z kluczowych różnic π0,7 była możliwość zarządzania nie tylko za pomocą poleceń „co zrobić”, ale także poprzez wyjaśnienie „jak to zrobić”.

Model akceptuje:

instrukcje tekstowe;
metadane (np. szybkość i jakość wykonania);
Podcele wizualne to obrazy spodziewanych rezultatów danego kroku.

Niektóre z podcelów mogą być tworzone przez system pomocniczy bezpośrednio w trakcie pracy. Pozwala to robotowi na dostosowanie swojego zachowania bez dodatkowego szkolenia.

π0.7 obsługuje różnorodne wskazówki, które nie tylko podpowiadają, co robić, ale także jak to robić, w tym bogaty język i informacje multimodalne, takie jak obrazy wizualnych podcelów. Podczas testów obrazy te mogą być generowane przez lekki model świata. pic.twitter.com/cbdovdVjBG

— Inteligencja fizyczna (@physical_int) 16 kwietnia 2026 r.

Dzięki takiemu podejściu możliwe jest łączenie danych z różnych źródeł — nagrań wideo, danych telemetrycznych od robotów i autonomicznie zbieranych epizodów — w ramach jednego systemu szkoleniowego.

Pierwszy krok w kierunku „uniwersalnych” robotów

Physical Intelligence zauważył, że wcześniej podobne modele wymagały ponownego trenowania dla każdego zadania – jak wczesne wersje modeli językowych. Zamiast tego π0,7 działa „od razu” i adaptuje się do nowych scenariuszy za pomocą języka.

Zespół podkreślił, że ten poziom generalizacji od dawna uważany jest za zaletę LLM , ale w robotyce jest nieosiągalny.

Pomimo postępu, model nadal nie zawsze radzi sobie ze złożonymi zadaniami bez instrukcji krok po kroku. Jednak dzięki spójnym instrukcjom jakość wykonania zauważalnie wzrasta.

W przyszłości takie instrukcje pomogą wyszkolić więcej autonomicznych maszyn, które będą mogły działać bez ludzi. Physical Intelligence uważa, że π0,7 wskazuje na pierwsze oznaki transformacji w kierunku uniwersalnych robotów, które dostosowują się do nowych warunków bez konieczności ręcznego dostrajania każdego zadania.

Przypomnijmy, że w lutym firma Carbon Robotics wypuściła model sztucznej inteligencji Large Plant Model, który potrafi rozpoznawać gatunki roślin w celu zwalczania chwastów.

No votes yet.

Please wait...

Zarządzanie poprzez język i kontekst

Pierwszy krok w kierunku „uniwersalnych” robotów

Dodaj komentarzAnuluj odpowiedź