Скажи "апорт": как голос превращает робота-собаку в умного помощника
Биомеханический интеллектуальный четвероногий робот Unitree Go1

Скажи "апорт": как голос превращает робота-собаку в умного помощника


Почему голос, а не пульт? 

Спросите любого инженера: самый медленный элемент в управлении — человек. Пока найдёшь нужную кнопку, нажмёшь её, пока робот обработает сигнал — уходит немало времени. Особенно это важно в спасательных операциях или при работе с людьми с ограниченными возможностями, для которых движение рукой может быть трудноосуществимым. 

Голосовое управление меняет правила. Вы говорите — робот слушает и выполняет команду, минуя ручные устройства вроде джойстика или экрана. Именно так я подошёл к работе с роботом Unitree Go1. 

 

Что умеет сам робот (и зачем это нужно) 

Unitree Go1 — это не игрушка за миллион, а серьёзная исследовательская платформа весом примерно 12 кг, на которую можно грузить до 3–5 кг. Робот оснащён 12 мощными сервоприводами, благодаря которым движется почти как живое животное. Он может бегать со скоростью до 3,7 м/с — достаточно быстро, чтобы идти рядом с человеком. 

Из коробки он умеет ходить, бегать, подниматься по лестнице, переворачиваться после падения и даже танцевать под музыку. Ультразвуковые датчики и камера Intel RealSense D435 помогают видеть препятствия и обходить их. Но главное — голосовое управление, которое я добавил и которое работает без подключения к интернету. 

 

Как работает голосовой модуль: три этапа 

Моё решение состоит из трёх частей, каждая важна сама по себе. 

Первая — система распознавания речи Vosk. Это бесплатная оффлайн-библиотека. В отличие от Алисы или Siri, которая отправляет голос в интернет, Vosk всё делает прямо на компьютере робота. Модели весят около 50 мегабайт на один язык. Поддерживается 17 языков и диалектов, включая русский с акцентами. Распознавание происходит быстро — в среднем за 50–100 миллисекунд. 

Вторая — текстовый файл, куда записывается распознанная фраза. Зачем? Это буфер между распознаванием и выполнением команд. Если один модуль зависнет, другой продолжит работать. 

Третья — модуль, который читает этот файл, ищет нужные слова и отправляет команды через официальный API unitree_legged_sdk. Я использовал аудио в формате 16 кГц, моно, 16 бит, чтобы найти баланс между качеством распознавания и нагрузкой на процессор. 

 

Цифры, которые впечатляют 

Тесты показали: в тихой комнате точность распознавания достигает 92–95% для коротких команд из 2–4 слов. При шуме около 65 дБ, например разговор или работающий пылесос, точность падает до 78–82%, но этого хватает для большинства задач. Время от произнесённой команды до реакции робота — около 0,9 секунды, включая все этапы обработки. 

Для сравнения, пульт управляется за 0,4–0,6 секунды, если оператор сразу нажмёт нужную кнопку. Разница есть, но она не критична в обычных условиях. А в тех случаях, когда руки заняты или человек не может пользоваться пультом (например, при параличе), голос остаётся единственным вариантом. 

 

Проблемы и ограничения 

Если честно, есть и минусы. Главная сложность — шум. В шумном цеху, на ветру или рядом с генератором робот может перестать распознавать команды. Офлайн-распознавание не имеет доступа к мощным облачным алгоритмам подавления шумов, поэтому качество падает быстрее чем у Siri или Алисы. 

Вторая проблема — ограниченный набор команд. Сейчас робот понимает только заранее запрограммированные фразы. Команду, вроде «эй, пёс, иди сюда», он не распознает — нужна точная формулировка, например «ко мне». Добавление полноценного понимания естественного языка потребует мощных языковых моделей, а это совсем другой уровень сложности и мощности. 

И, наконец, безопасность. Локальная система не подвержена интернет-атакам — это плюс. Но она не защищает от случайных или злонамеренных голосовых команд со стороны посторонних. Представьте, что кто-то выкрикнул «прыжок», когда робот стоит на лестнице. Вопрос, кто будет отвечать, пока остаётся открытым. 

 

Куда двигаться дальше? 

Я вижу три пути развития. Первый — расширить набор команд до 100–150, чтобы покрыть больше сценариев. Второй — добавить адаптацию под голос конкретного оператора, чтобы лучше работать с разными акцентами. Третий — объединить голосовое управление с жестами для работы в сильно шумной среде, где голос не поможет. 

 

Итог: голос вместо пульта 

Unitree Go1 с голосовым управлением — это не просто лабораторный эксперимент. Это пример того, как технологии могут сделать управление удобнее. Будь вы инженер на строительстве, спасатель или человек с ограничениями, голос остаётся самым естественным способом общения с машиной. 

Этот робот не требует интернета, не следит за вами и реагирует быстрее, чем вы произнесёте «апорт». Для меня главное — сделать сложную технику простой и доступной тем, кому она действительно нужна.

Оценить публикацию