Byli inżynierowie Google'a zaprezentowali sztuczną inteligencję dla robotów „bez szkolenia”

Byli inżynierowie Google'a zaprezentowali sztuczną inteligencję dla robotów „bez szkolenia” 2

Physical Intelligence, startup założony przez byłych inżynierów Google, zaprezentował model π0․7. Twórcy twierdzą, że stanowi on „przełomowy krok” w zdolności sztucznej inteligencji do generalizowania umiejętności i wykonywania zadań, których nie została bezpośrednio nauczona.

System należy do klasy Vision-Language-Action (VLA) i jest przeznaczony do sterowania robotami.

W przeciwieństwie do poprzednich rozwiązań, π0․7 wykazało oznaki generalizacji kompozycyjnej — zdolności łączenia wcześniej nabytych umiejętności w celu rozwiązywania nowych problemów.

Podczas eksperymentów model wykazał szereg nieoczekiwanych możliwości. W szczególności π0,7 był w stanie sterować nowym typem robota i składać koszulki, pomimo braku danych treningowych dla tej konkretnej platformy.

Twórcy zauważyli, że wyniki są porównywalne z poziomem operatorów, którzy mają setki godzin doświadczenia w zdalnym sterowaniu.

Narzędzie potrafiło również zrozumieć, jak korzystać z urządzeń, które wcześniej nie były znane, w tym z urządzeń kuchennych. Na przykład, robot wykonał część zadania polegającego na gotowaniu słodkich ziemniaków we frytkownicy powietrznej, mimo że w zestawie treningowym nie było takich scenariuszy.

Twórcy twierdzą, że stało się to możliwe dzięki połączeniu różnych umiejętności — podobnie jak modele językowe łączą wiedzę z różnych dziedzin.

Zarządzanie poprzez język i kontekst

Jedną z kluczowych różnic π0,7 była możliwość zarządzania nie tylko za pomocą poleceń „co zrobić”, ale także poprzez wyjaśnienie „jak to zrobić”.

Model akceptuje:

  • instrukcje tekstowe;
  • metadane (np. szybkość i jakość wykonania);
  • Podcele wizualne to obrazy spodziewanych rezultatów danego kroku.

Niektóre z podcelów mogą być tworzone przez system pomocniczy bezpośrednio w trakcie pracy. Pozwala to robotowi na dostosowanie swojego zachowania bez dodatkowego szkolenia.

Dzięki takiemu podejściu możliwe jest łączenie danych z różnych źródeł — nagrań wideo, danych telemetrycznych od robotów i autonomicznie zbieranych epizodów — w ramach jednego systemu szkoleniowego.

Pierwszy krok w kierunku „uniwersalnych” robotów

Physical Intelligence zauważył, że wcześniej podobne modele wymagały ponownego trenowania dla każdego zadania – jak wczesne wersje modeli językowych. Zamiast tego π0,7 działa „od razu” i adaptuje się do nowych scenariuszy za pomocą języka.

Zespół podkreślił, że ten poziom generalizacji od dawna uważany jest za zaletę LLM , ale w robotyce jest nieosiągalny.

Pomimo postępu, model nadal nie zawsze radzi sobie ze złożonymi zadaniami bez instrukcji krok po kroku. Jednak dzięki spójnym instrukcjom jakość wykonania zauważalnie wzrasta.

W przyszłości takie instrukcje pomogą wyszkolić więcej autonomicznych maszyn, które będą mogły działać bez ludzi. Physical Intelligence uważa, że π0,7 wskazuje na pierwsze oznaki transformacji w kierunku uniwersalnych robotów, które dostosowują się do nowych warunków bez konieczności ręcznego dostrajania każdego zadania.

Przypomnijmy, że w lutym firma Carbon Robotics wypuściła model sztucznej inteligencji Large Plant Model, który potrafi rozpoznawać gatunki roślin w celu zwalczania chwastów.

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *