“Самостоятельный оценщик” Meta — та же самая техника “цепочки мыслей”, которая используется моделями OpenAI o1 для вынесения надежных суждений об ответах моделей.
Выпуск последовал за введением инструмента Meta в августовской статье, в которой подробно описывалось, как он полагается на ту же технику «цепочки мыслей», которая используется недавно выпущенными моделями OpenAI o1, чтобы заставить его выносить надежные суждения об ответах моделей.
Эта техника включает в себя разбиение сложных проблем на более мелкие логические шаги и, по-видимому, повышает точность ответов на сложные проблемы в таких предметах, как наука, кодирование и математика.
Исследователи Meta использовали полностью сгенерированные ИИ данные для обучения модели оценщика, исключив человеческий вклад на этом этапе, поскольку ну.стр><стр>Возможность использования ИИ для надежной оценки ИИ дает представление о возможном пути к созданию автономных агентов ИИ, которые могут учиться на своих собственных ошибках, сообщили Reuters двое исследователей Meta, стоящих за проектом.
Многие в области ИИ представляют себе таких агентов как цифровых помощников, достаточно умных, чтобы выполнять широкий спектр задач без вмешательства человека.
Самосовершенствующиеся модели могут исключить необходимость в часто дорогостоящем и неэффективном процессе, используемом сегодня, называемом обучением с подкреплением на основе обратной связи с человеком, который требует участия людей-аннотаторов, которые должны обладать специальными знаниями для точной маркировки данных и проверки правильности ответов на сложные математические и письменные запросы.
«Мы надеемся, что по мере того, как ИИ становится все более и более сверхчеловеческим, он будет все лучше и лучше проверять свою работу, так что он действительно будет лучше среднего человека», — сказал Джейсон. Уэстон, один из исследователей.
«Идея самообучения и способности к самооценке имеет решающее значение для идеи достижения такого сверхчеловеческого уровня ИИ», — сказал он.
Другие компании, включая Google и Anthropic, также опубликовали исследования по концепции RLAIF, или обучения с подкреплением на основе обратной связи ИИ. Однако, в отличие от Meta, эти компании, как правило, не публикуют свои модели для публичного использования.
Другие инструменты ИИ, выпущенные Meta в пятницу, включали обновление модели идентификации изображений Segment Anything компании, инструмента, который ускоряет время генерации ответов LLM и наборов данных, которые можно использовать для помощи в открытии новых неорганических материалов.
- Meta AI теперь может «представлять» вас в разных аватарах
© Thomson Reuters 2024