Boston Dynamics создает «Spot copilot» - как ChatGPT для робота
Boston Dynamics обучает робота Spot взаимодействовать с окружающим миром с помощью большой языковой модели. В результате появился интерфейс наподобие ChatGPT: на естественном языке можно попросить робота выполнить задачу, а он затем сам разберётся, как её осуществить. Это новое направление, которое создатели робота называют «Spot copilot», является важным шагом к созданию по-настоящему универсального робота.
«Есть фабрика с тысячами клапанов. Какой из них нужно открыть?» — спросил инженер Boston Dynamics. Spot, оснащённый большой языковой моделью (LLM), понимает вопрос и начинает сканировать помещение. Он находит конкретный клапан — тот, что находится под наибольшим давлением, — и поворачивает его. Эта демонстрация входит в последние эксперименты компании, где механических «созданий» соединяют с ИИ, чтобы сделать их полезнее и проще в управлении.
По словам Boston Dynamics, цель — перейти от подхода, при котором человек задаёт точные инструкции, к ситуации, где человек указывает лишь желаемый результат. Компания смещается от подробных команд низкого уровня к запросам на естественном языке высокого уровня.
Например, вместо того чтобы оператор вручную ведёт Spot с помощью джойстика в нужную точку, затем нажимает кнопку и запускает тщательно запрограммированный сценарий для переключения тумблера, оператор может просто сказать роботу: «Проверь автоматический выключатель в лаборатории и включи его».
Чтобы это стало возможным, команда Boston Dynamics использует готовую LLM (какую именно — не уточняется) в роли планировщика высокого уровня. Команда оператора подаётся в модель. Затем она раскладывает сложную задачу на последовательность заранее определённых навыков или действий, которые робот уже умеет выполнять.
Эти навыки, которые Boston Dynamics называет «Robot Atomic Actions» (RAAs), — базовые строительные блоки системы. К ним относятся навигация («Go to»), распознавание объектов («Find») и манипуляции с предметами («Pick», «Place», «Flip»). Представьте LLM как руководителя проекта, а RAAs — как отдельных работников, каждый из которых владеет узкоспециализированной задачей.
Оператор говорит: «Проверь автоматический выключатель в лаборатории и включи его».
Планировщик LLM сначала разлагает задачу на шаги:
Найти лабораторию.
Дойти до лаборатории.
Найти автоматический выключатель.
Дойти до автоматического выключателя.
Включить автоматический выключатель.
Команды «find» и «navigate» — это RAAs. Но фраза «включить автоматический выключатель» всё ещё слишком абстрактна. Поэтому планировщик LLM разбивает её дальше на конкретные физические действия:
Установить манипуляторную руку над переключателем.
Опустить захват на переключатель.
Сжать захват.
Повернуть запястье на 30 градусов.
Вся цепочка рассуждений отображается пользователю в чат-интерфейсе, чтобы он видел, как робот интерпретировал команду. После этого пользователь может подтвердить план или попросить скорректировать его.
Подобный подход, где LLM выступает только как планировщик и выдаёт код для заранее определённых навыков, сегодня считается популярным и практичным в робототехнике. Его обычно считают более безопасным и надёжным, чем передавать LLM прямое низкоуровневое управление исполнительными механизмами робота. Кроме того, система «привязана» к окружающей среде с помощью зрительных систем: камеры помогают понимать мир и объекты в нём.
Например, в демонстрации с клапанами оператор спросил: «На фабрике тысячи клапанов. Какой из них нужно открыть?» Логика LLM свелась к тому, что клапан под наибольшим давлением, вероятно, является наиболее критичным. Затем Spot использовал тепловизионную камеру, чтобы найти самый горячий клапан (как косвенный признак давления), и механическую руку — чтобы повернуть его.
Система несовершенна. Во время демонстрации для IEEE Spectrum Spot успешно нашёл и переключил автоматический выключатель, хотя первая попытка не удалась: рука робота была недостаточно высоко, чтобы перекрыть ограждение. Робот распознал ошибку, диагностировал причину и скорректировал план, подняв руку выше при второй попытке. Это демонстрирует уровень автономного восстановления после ошибок.
Boston Dynamics применяет тот же подход с LLM-планировщиком к своему гуманоидному роботу Atlas и к новой электрической версии Spot. Компания рассматривает это как ключевую часть стратегии — создавать роботов, которые смогут работать в самых разных реальных условиях: от фабрик и строительных площадок до электростанций и домов, без необходимости в длительном специализированном программировании под каждую площадку. Конечная цель — робот, который сможет понимать и выполнять команды так же легко, как попросить человека о помощи.
