Qwen-Robot обеспечивает навигацию, работу с объектами и прогнозирование действий в реальном мире, помогая роботам функционировать в реальных условиях.
Китайская компания Alibaba представила первое семейство воплощенных моделей искусственного интеллекта, которые объединяют большие языковые модели с реальными роботизированными системами.
Набор Qwen-Robot был разработан подразделением Tongyi Lab компании Alibaba и проходит пилотное тестирование с участием некоторых корпоративных клиентов Alibaba Cloud.
Набор включает в себя три модели, ориентированные на навигацию, манипуляции и моделирование мира для роботов, работающих в физической среде.
По словам представителей Alibaba, эти модели позволяют машинам воспринимать, анализировать и взаимодействовать с реальным миром, что способствует развитию воплощенного искусственного интеллекта за пределами традиционных чат-ботов.
Роботы учатся рассуждать
По словам представителей Alibaba, семейство ИИ-моделей Qwen очень хорошо справляется с пониманием физического мира. Эти модели могут распознавать объекты, понимать пространственные отношения, выполнять сложные визуальные инструкции и анализировать окружающую среду. Например, модель может понять такую команду: «Иди на кухню, найди красную чашку, возьми ее и поставь на полку».
Однако понимание задачи — это не то же самое, что ее выполнение. Хотя визуально-языковая модель (vision-language model, VLM) может описать шаги, необходимые для выполнения задачи, она не может напрямую управлять движениями робота. Задача состоит в том, чтобы связать человеческий язык и визуальное восприятие с двигательными действиями, необходимыми для взаимодействия с физическим миром.
Эта задача сложна, потому что данные для обучения робота сильно отличаются от данных из интернета. Информация, собираемая с помощью навигационных систем, роботизированных манипуляторов, транспортных средств и камер, поступает в разных форматах, и ее сбор требует больших затрат. Простое объединение всех этих данных часто приводит к конфликтам, а не к повышению эффективности.
Чтобы решить эту проблему, компания Alibaba разработала набор Qwen-Robot Suite, в который входят три специализированные модели. Qwen-RobotNav ориентирован на движение и навигацию. Он помогает роботам выполнять инструкции, перемещаться в заданные точки, отслеживать цели и поддерживать автономное вождение.

Согласно информации на веб-сайте, Qwen-RobotManip ориентирован на физическое взаимодействие. Он позволяет роботам захватывать, перемещать и манипулировать объектами, используя большой обучающий набор данных, собранный с различных роботизированных систем. Qwen-RobotWorld выступает в роли модели мира, предсказывая возможные изменения окружающей среды и помогая роботам понимать вероятные результаты своих действий.
Вместе эти модели призваны научить роботов понимать инструкции, взаимодействовать с объектами, ориентироваться в пространстве и принимать решения в реальном мире.
Физический искусственный интеллект ускоряется
Компания Alibaba продемонстрировала Qwen-RobotNav на четвероногом роботе Unitree Go2 с аппаратным обеспечением NVIDIA Jetson Thor и одной камерой низкого разрешения. Робот успешно перемещался по незнакомой квартире, следуя устным инструкциям в разных комнатах без предварительно загруженных карт, при этом задержка логического вывода составляла 196 миллисекунд.
Компания утверждает, что ее роботизированная манипуляционная модель Qwen-RobotManip была обучена на более чем 38 000 часах данных из открытых источников, охватывающих задачи по перемещению объектов и взаимодействию с ними.
По данным Alibaba, недавно эта модель набрала наибольшее количество баллов в категории универсальных роботов на соревновании RoboChallenge, получив 59,83 балла за процесс и 45 % успешных результатов.
Компания также представила Qwen-RobotClaw — фреймворк для роботизированных агентов, который позволяет моделям Qwen использовать набор Qwen-Robot в качестве инструментов для работы в физическом мире. В ходе одной из демонстраций агент искал туалет, заметил табличку «Не работает» и самостоятельно направился в другое место.
Кроме того, Alibaba открыла доступ к Chat2Robot — браузерной платформе для тестирования взаимодействия с воплощенным искусственным интеллектом.
По мере усиления конкуренции в сфере воплощенного искусственного интеллекта по всему миру компания Alibaba расширила свои амбиции, выпустив не только языковое и мультимодальное программное обеспечение, но и модели Qwen-Robot. Этот шаг отражает общую тенденцию в отрасли к созданию систем искусственного интеллекта, способных понимать физический мир и взаимодействовать с ним.

Решение Alibaba было принято на фоне растущей конкуренции в сфере физического искусственного интеллекта по всему миру. В США компания Google DeepMind развивает Gemini Robotics, а Nvidia расширяет свою экосистему робототехники за счет Cosmos, Isaac и GR00T.
По данным South China Morning Post, стартапы, в том числе Physical Intelligence, Skild AI и Figure AI, также разрабатывают роботизированный интеллект общего назначения.
Китай укрепляет свои позиции, сочетая производственные преимущества с растущими инвестициями в программное обеспечение на основе искусственного интеллекта для автономного принятия решений.
В этом секторе сейчас работают разработчики ИИ, робототехники и производители электромобилей. Такие компании, как Alibaba, Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng и Xiaomi, активно внедряют технологии воплощенного ИИ.
Этот сектор также становится все более привлекательным для публичных рынков. Компания Unitree подала заявку на регистрацию в регулирующие органы после получения одобрения листингового комитета Шанхайской биржи. Ожидается, что этот шаг повысит интерес инвесторов к сектору во второй половине года.
По словам промышленного аналитика Morgan Stanley Чжун Шэна, доходы от большинства первичных публичных размещений акций китайских компаний, занимающихся производством человекоподобных роботов, пойдут на исследования и разработки, «особенно в области моделей роботов», а меньшая часть — на расширение производства.
Больше технической информации и видео можно найти здесь: qwen.ai
Источник на английском языке: interestingengineering.com





