Forklog
April 23, 2026 11:15 AM UTC

Экс-сотрудники Google представили ИИ для роботов с «необученными» навыками

Основанный бывшими инженерами Google стартап Physical Intelligence представил модель π0.7. Разработчики заявили о «качественном скачке» в способности ИИ обобщать навыки и выполнять задачи, которым его не обучали напрямую. Our newest model, π0.7, has some interesting emergent capabilities: it can control a new robot to fold shirts for which we had no shirt folding data, figure out how to use an appliance with language-based coaching, and perform a wide range of dexterous tasks all in one model! pic.twitter.com/s9NxKfb7pe— Physical Intelligence (@physical_int) April 16, 2026 Система относится к классу «зрение-язык-действие» (Vision-Language-Action, или VLA) и предназначена для управления роботами.  В отличие от предыдущих решений, π0.7 продемонстрировала признаки композиционного обобщения — способности комбинировать ранее усвоенные навыки для решения новых задач. Необученные задачи и перенос между роботами В ходе экспериментов модель показала ряд неожиданных способностей. В частности, π0.7 смогла управлять новым типом робота и складывать футболки, несмотря на отсутствие обучающих данных для этой конкретной платформы. Compositional generalization is a key capability of large models like LLMs, but it has been elusive in robotics. Another emergent ability we found is to control a new robot (UR5e) to fold t-shirts, even though we didn't have any laundry folding data on this robot. pic.twitter.com/lAXYag002Z— Physical Intelligence (@physical_int) April 16, 2026 Результаты сопоставимы с уровнем операторов, имеющих сотни часов опыта телоуправления, отметили программисты.  Инструмент также смог разобраться в использовании ранее незнакомых устройств, включая кухонную технику. Например, робот выполнил часть задачи по приготовлению батата в аэрогриле, хотя подобных сценариев в обучающей выборке не было. По словам разработчиков, это стало возможным за счет объединения разрозненных навыков — аналогично тому, как языковые модели комбинируют знания из разных областей. Управление через язык и контекст Одним из ключевых отличий π0.7 стала возможность управлять не только через команды «что делать», но и через уточнение «как делать». Модель принимает: текстовые инструкции; метаданные (например, скорость и качество выполнения); визуальные субцели — изображения ожидаемого результата шага. Некоторые из субцелей вспомогательная система может создавать прямо во время работы. Это дает роботу возможность корректировать поведение без дообучения. π0.7 handles diverse prompts that don't just say what to do, but also how to do it, including rich language and multimodal information, such as visual subgoal images. At test time, these images can be produced by a lightweight world model. pic.twitter.com/cbdovdVjBG— Physical Intelligence (@physical_int) April 16, 2026 Такой подход позволяет объединять данные от разных источников — видео, телеметрию с роботов и автономно собранные эпизоды — в единую систему обучения. Первый шаг к «универсальным» роботам В Physical Intelligence отметили, что раньше подобные модели требовали дообучения под каждую задачу — как ранние версии языковых моделей. π0.7, напротив, работает «из коробки» и адаптируется к новым сценариям через язык. Команда подчеркнула: такой уровень обобщения долгое время считался сильной стороной LLM, но в робототехнике оставался недостижимым. Несмотря на прогресс, модель пока не всегда справляется со сложными задачами без пошаговых подсказок. Однако при последовательных инструкциях качество выполнения заметно растет. В будущем такие инструкции помогут обучать более автономные машины, способные действовать без человека. В Physical Intelligence считают, что π0.7 показывает первые признаки перехода к универсальным роботам, которые адаптируются к новым условиям без ручной настройки под каждую задачу. Напомним, в феврале компания Carbon Robotics выпустила ИИ-модель Large Plant Model, которая умеет распознавать виды растений для борьбы с сорняками. 

ChartModo Newsletter
면책 조항 읽기 : 본 웹 사이트, 하이퍼 링크 사이트, 관련 응용 프로그램, 포럼, 블로그, 소셜 미디어 계정 및 기타 플랫폼 (이하 "사이트")에 제공된 모든 콘텐츠는 제 3 자 출처에서 구입 한 일반적인 정보 용입니다. 우리는 정확성과 업데이트 성을 포함하여 우리의 콘텐츠와 관련하여 어떠한 종류의 보증도하지 않습니다. 우리가 제공하는 컨텐츠의 어떤 부분도 금융 조언, 법률 자문 또는 기타 용도에 대한 귀하의 특정 신뢰를위한 다른 형태의 조언을 구성하지 않습니다. 당사 콘텐츠의 사용 또는 의존은 전적으로 귀하의 책임과 재량에 달려 있습니다. 당신은 그들에게 의존하기 전에 우리 자신의 연구를 수행하고, 검토하고, 분석하고, 검증해야합니다. 거래는 큰 손실로 이어질 수있는 매우 위험한 활동이므로 결정을 내리기 전에 재무 고문에게 문의하십시오. 본 사이트의 어떠한 콘텐츠도 모집 또는 제공을 목적으로하지 않습니다.