Meta рекомендует использовать Llama 3.1 70B, 8B и 1B для поддержки возможностей генерации подкастов NotebookLlama.
Meta NotebookLlama выпущен
Инструмент ИИ Meta NotebookLlama использует три большие языковые модели для генерации аудиоподкастов из блоков текста. В настоящее время инструмент принимает в качестве входных данных только файлы PDF, поэтому пользователям придется конвертировать любой текстовый формат в PDF.
NotebookLlama сначала использует модель инструкций Llama 3.2 1B для предварительной обработки PDF-файла и сохранения его в файле «.txt». Затем модель инструкций Llama 3.1 70B используется для записи расшифровки подкаста с использованием исходного набора данных. Затем транскрипция драматизируется с помощью переписывателя, который использует модель Llama 3.1 8B instruct. Наконец, используется специальный инструмент для добавления транскрипции в рабочий процесс преобразования текста в речь. Для этого Meta использует инструмент Parler TTS. Заинтересованные лица могут получить доступ ко всем моделям, необходимым для генерации подкастов, из списка GitHub здесь.
Однако упомянутые выше модели ИИ — это всего лишь рекомендации разработчиков. Пользователи могут предпочесть использовать меньшие модели для каждого шага, однако результаты могут отличаться. Meta подчеркнула, что для запуска системы ИИ в рекомендуемой настройке пользователям потребуется графический процессор с агрегированной памятью примерно 140 ГБ.
Пользователь X (ранее известный как Twitter) опубликовал образец сгенерированного подкаста. Исходя из этого, кажется, что качество звука не такое хорошее, как у Google NotebookLM, и он звучит пронзительно и роботизированно. Кроме того, есть случаи, когда части звука пропускаются, и хосты ИИ в конечном итоге говорят друг над другом.
Meta признает некоторые проблемы и планирует улучшить их в следующей итерации продукта ИИ. Компания подчеркнула: «Модель TTS — это ограничение того, насколько естественно это будет звучать. Вероятно, это можно улучшить с помощью лучшего конвейера и с помощью кого-то более знающего.”
- Meta банит аккаунты, отслеживающие частные самолеты Марка Цукерберга, Илона Маска
- Meta тестирует распознавание лиц, чтобы обнаружить мошенничество с рекламой «Celeb-Bait»
- Meta AI в WhatsApp вскоре сможет запоминать ваши предпочтения
Технический гигант также планирует использовать двух разных LLM для написания сценария, где каждая модель будет спорить с другой, чтобы сделать подкаст более разговорным. Это также часть будущего конвейера разработчиков. Кроме того, компания также тестирует модель искусственного интеллекта Llama 405B для записи транскриптов, а также увеличивает поддержку большего количества форматов ввода и вывода.