Как сообщается, инструмент транскрипции Whisper от OpenAI добавляет расовую информацию и вымышленные лекарства в записи консультаций.
OpenAI Whisper, как сообщается, склонен к галлюцинациям
Associated Press сообщило, что система автоматического распознавания речи (ASR) OpenAI Whisper имеет высокий потенциал для генерации галлюцинаторного текста. Ссылаясь на интервью с несколькими инженерами-программистами, разработчиками и научными исследователями, издание утверждает, что воображаемый текст включает расовые описания, насилие, а также медицинские процедуры и лекарства.
Галлюцинация, на языке ИИ, является серьезной проблемой, которая заставляет системы ИИ генерировать ответы, которые являются неверными или вводящими в заблуждение. В случае с Whisper, как говорят, ИИ изобретает текст, который никогда никем не произносился.
В примере, подтвержденном изданием, предложение говорящего: «Он, мальчик, собирался, я не уверен точно, взять зонтик». было изменено на «Он взял большой кусок креста, крошечный, маленький кусочек… Я уверен, что у него не было ножа для террора, поэтому он убил несколько человек». В другом случае, как сообщается, Whisper добавил расовую информацию, не упомянув об этом.
Хотя галлюцинации не являются новой проблемой в сфере ИИ, проблема этого конкретного инструмента более значительна, поскольку технология с открытым исходным кодом используется несколькими инструментами, которые используются в отраслях с высоким уровнем риска. Например, парижская компания Nabla создала инструмент на основе Whisper, который, как сообщается, используют более 30 000 врачей и 40 систем здравоохранения.
Инструмент Nabla использовался для расшифровки более семи миллионов медицинских визитов. Для обеспечения безопасности данных компания также удаляет исходные записи со своих серверов. Это означает, что если в этих семи миллионах расшифровок был сгенерирован какой-либо галлюцинаторный текст, его невозможно проверить и исправить.
Еще одна область, где используется эта технология, — это создание инструментов доступности для глухих и слабослышащих, где опять же проверка точности инструмента значительно затруднена. Говорят, что большая часть галлюцинаций вызвана фоновыми шумами, резкими паузами и другими звуками окружающей среды.
Масштабы проблемы также вызывают беспокойство. Ссылаясь на исследователя, издание утверждает, что восемь из каждых десяти аудиотранскрипций содержат галлюцинированный текст. Разработчик сообщил изданию, что галлюцинации возникали в «каждой из 26 000 транскриптов, которые он создал с помощью Whisper».
- OpenAI заявляет, что ChatGPT не добавляет предвзятости на основе личности пользователей
Примечательно, что при запуске Whisper OpenAI заявила, что Whisper обеспечивает устойчивость человеческого уровня к акцентам, фоновому шуму и техническому языку. Представитель компании сообщил изданию, что фирма ИИ постоянно изучает способы уменьшения галлюцинаций и пообещала включить обратную связь в будущие обновления модели.