Интернет-магазин MagazinWeb

Google DeepMind раскрывает модели искусственного искусства Gemini Robotics, которые могут контролировать роботов в реальном мире

< h2 class = "sdesc" > Google DeepMind обнародовал робототехнику Gemini и Gemini Robotics-Er (воплощенные рассуждения) модели AI. < img src = "https://i.gadgets360cdn.com/large/gemini_robotics_1741852094517.jpg? lownsize=950:*" alt = "Google DeepMind Предоставление Gemini Robotics AI модели, которые могут контролировать роботы в реальном мире" Deeplis in in ine " Gemini Robotics Models, которые могут контролировать роботов в реальном мире "ширина =" 950 "высота =" 534 "/> < p class = 'Подпись' > gemini robotics-er фокусируется на пространственных рассуждениях в реальных средах

Реклама < P >Google DeepMind представила две новые модели искусственного интеллекта (ИИ) в четверг, которые могут управлять роботами, чтобы заставить их выполнять широкий спектр задач в реальных средах. Названные робототехникой Gemini и Gemini Robotics-Er (воплощенные рассуждения), это продвинутые модели языка зрения, способные отображать пространственный интеллект и выполнять действия. Технический гигант, основанный на Маунтин-Вью, также сообщил, что он сотрудничает с Applonik для создания гуманоидных роботов Biemini 2.0. The company is also testing these models to evaluate them further, and understand how to make them better.

Google DeepMind Unveils Gemini Robotics AI Models

In a blog post, DeepMind detailed the new AI models для роботов. Каролина Парада, старший директор и глава робототехники в Google DeepMind, сказала, что для того, чтобы ИИ был полезен для людей в физическом мире, им придется продемонстрировать «воплощенные» рассуждения – способность взаимодействовать и понимать физический мир и выполнять действия для выполнения задач.

~ 60 >Gemini Robotics, первая из двух моделей AI, представляет собой модель Advanced Vision-Language-Action (VLA), которая была построена с использованием модели Gemini 2.0. Он имеет новую модальность вывода «физических действий», которая позволяет модели непосредственно управлять роботами.

< P > DeepMind подчеркивал, что для того, чтобы быть полезными в физическом мире, модели AI для робототехники требуют трех ключевых возможностей – общность, интерактивность и локализация. Общность относится к способности модели адаптироваться к различным ситуациям. Gemini Robotics «искусна в работе с новыми объектами, разнообразными инструкциями и новыми средами», заявила компания. Основываясь на внутреннем тестировании, исследователи обнаружили, что модель AI более чем удваивает производительность по всестороннему эталону обобщения.

< P >Интерактивность модели ИИ построена на основе Gemini 2.0, и она может понимать и реагировать на команды, сформулированные на повседневном, разговорном языке и разных языках. Google утверждал, что модель также непрерывно контролирует свое окружение, обнаруживает изменения в окружающей среде или инструкциях и корректирует свои действия на основе ввода. Исследователи сказали, что модель ИИ может контролировать роботов, чтобы сложить лист бумаги или упаковать закуски в сумку.

< P > Вторая модель AI, Gemini Robotics-Er, также является моделью языка зрения, но она фокусируется на пространственных рассуждениях. Опираясь на кодирование Gemini 2.0 и трехмерное обнаружение, модель ИИ, как говорят, демонстрирует способность понимать правильные движения, чтобы манипулировать объектом в реальном мире. Подчеркнув пример, Парада сказал, что когда модели показали кофейную кружку, она смогла создать команду для захвата двух пальцев, чтобы поднять ее под ручкой вдоль безопасной траектории.

< ul > < li > Вот как ИИ помог Google сделать заметные научные открытия в 2024 году

< P > Модель AI выполняет большое количество шагов, необходимых для контроля робота в физическом мире, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода. Примечательно, что ни одна из двух моделей ИИ в настоящее время не доступна в общественном доступе. DeepMind, вероятно, сначала интегрирует модель AI в гуманоидный робот и оценит ее возможности, прежде чем выпустить технологию.