Anthropic проинструктировал Claude не извиняться перед пользователями, если он не может — или не будет — выполнять задачу из-за того, что она находится за пределами его возможностей или директив.
Реклама
Anthropic в понедельник выпустила системные подсказки для своей последней модели искусственного интеллекта Claude 3.5 Sonnet. Эти системные подсказки были предназначены для текстовых разговоров в веб-клиенте Claude, а также в приложениях iOS и Android. Системные подсказки являются руководящими принципами модели искусственного интеллекта, которые определяют ее поведение и формируют ее «личность» при взаимодействии с пользователями-людьми. Например, Claude 3.5 Sonnet был описан как «очень умный и интеллектуально любознательный», что позволяет ему участвовать в обсуждении тем, предлагать помощь и выступать в качестве эксперта.
Anthropic выпускает системные подсказки Claude 3.5 Sonnet
Системные подсказки обычно являются тщательно охраняемыми секретами фирм, занимающихся ИИ, поскольку они дают представление о правилах, формирующих поведение модели ИИ, а также о том, что она не может и не будет делать. Стоит отметить, что у их публичного распространения есть и обратная сторона. Самая большая из них заключается в том, что злоумышленники могут провести обратную разработку системных подсказок, чтобы найти лазейки и заставить ИИ выполнять задачи, для которых он не предназначен.
Несмотря на опасения, Anthropic подробно описала системные подсказки для Claude 3.5 Sonnet в своих примечаниях к выпуску. Компания также заявила, что периодически обновляет подсказки, чтобы продолжать улучшать ответы Клода. Кроме того, эти системные подсказки предназначены только для публичной версии чат-бота ИИ, которая является веб-клиентом, а также для приложений iOS и Android.
В начале подсказки указывается дата ее последнего обновления, дата окончания сбора знаний и имя ее создателя. Модель ИИ запрограммирована на предоставление этой информации в случае, если какой-либо пользователь спросит.
Есть подробности о том, как Claude должен себя вести и чего он не может делать. Например, модели ИИ запрещено открывать URL-адреса, ссылки или видео. Ей запрещено выражать свои взгляды на тему. Когда ее спрашивают о спорных темах, она предоставляет только четкую информацию и добавляет отказ от ответственности, что тема является деликатной, и информация не представляет объективных фактов.
Anthropic проинструктировала Claude не извиняться перед пользователями, если он не может — или не будет — выполнять задачу, выходящую за рамки его возможностей или директив. Модели ИИ также сказано использовать слово «галлюцинировать», чтобы подчеркнуть, что она может совершить ошибку при поиске информации о чем-то неясном.
Кроме того, подсказки системы гласят, что Claude 3.5 Sonnet должен «отвечать так, как будто он полностью слеп на лицо». Это означает, что если пользователь поделится изображением с человеческим лицом, модель ИИ не идентифицирует или не называет людей на изображении и не подразумевает, что может их распознать. Даже если пользователь сообщит ИИ о личности человека на изображении, Claude обсудит личность человека, не подтверждая, что он может его распознать.
- Samsung добавляет голосового помощника Bixby в свою бытовую технику с искусственным интеллектом
Эти подсказки подчеркивают видение Anthropic, лежащее в основе Claude, и то, как чат-бот должен перемещаться по потенциально опасным запросам и ситуациям. Следует отметить, что системные подсказки являются одним из многих ограждений, которые компании, занимающиеся разработкой искусственного интеллекта, добавляют в систему искусственного интеллекта, чтобы защитить ее от взлома и помощи в задачах, для которых она не предназначена.