Интернет-магазин MagazinWeb

Alibaba выпускает модели с открытым исходным кодом.

< H2 Class = "SDESC" > Видео-модель Alibaba’s WAN 2.1 T2V-1.3B может генерировать 5-секундное видео 480p, используя NVIDIA RTX 4090 за четыре минуты.

Alibaba Releases Open-Source Wan 2.1 Suite of AI Video Generation Models, Claimed to Outperform OpenAI’s Sora

< p class = 'Подпись' > видео модели WAN 2.1 доступны с лицензией Apache 2.0

Реклама < P >В среду Alibaba выпустила набор моделей генерации видео -генерации искусственного интеллекта (ИИ). Дублированный WAN 2.1, это модели с открытым исходным кодом, которые могут использоваться как для академических, так и для коммерческих целей. Китайский гигант электронной коммерции выпустил модели в нескольких вариантах на основе параметров. Разработанные командой компании WAN, эти модели были впервые представлены в январе, и компания утверждала, что WAN 2.1 может генерировать очень реалистичные видеоролики. В настоящее время эти модели размещаются в обнимающем лицо Hub AI и машинного обучения (ML). Страница обнимающего лица Alibaba WAN. На страницах модели также подробно описывается набор WAN 2.1 крупных языковых моделей (LLMS). Всего есть четыре модели-T2V-1.3B, T2V-14B, I2V-14B-720p и I2V-14B-480p. T2V короткий для текста к Video, в то время как I2V означает изображение-видео.

< P >Исследователи утверждают, что наименьший вариант, WAN 2.1 T2V-1.3B, может быть запускается на графическом процессоре потребительского уровня с всего лишь 8,19 ГБ VRAM. Согласно сообщению, модель AI может генерировать пятисекунднее видео с разрешением 480p с использованием NVIDIA RTX 4090 примерно за четыре минуты.

< P >, в то время как WAN 2.1 набор предназначена для генерации видео, они также могут выполнять другие функции, такие как генерация изображений, генерация видео-добычи и видео-эдитинги. Тем не менее, в настоящее время модели с открытым исходным кодом не способны на эти передовые задачи. Для генерации видео он принимает текстовые подсказки на китайских и английских языках, а также входы изображений.

< P > Поступая в архитектуру, исследователи показали, что модели WAN 2.1 разработаны с использованием архитектуры диффузионного трансформатора. Тем не менее, компания внедрила базовую архитектуру новыми вариационными автоподорами (VAE), стратегиями обучения и т. Д.

< P > В частности, модели AI используют новую трехмерную архитектуру VAE, подчиненную WAN-VAE. Это улучшает пространственно -временное сжатие и уменьшает использование памяти. AutoEncoder может кодировать и декодировать видео с разрешением 1080p неограниченной длины без потери исторической временной информации. Это обеспечивает последовательную генерацию видео.

< P > На основе внутреннего тестирования компания утверждала, что модели WAN 2.1 превосходят модель SORA AI Openai в последовательности, качеством генерации сцены, точностью единого объекта и пространственном положении.

< ul > < li > Alibaba выпускает еще одну модель искусственного интеллекта, эта специализируется на видении

< P > Эти модели доступны по лицензии Apache 2.0. Несмотря на то, что это позволяет использовать неограниченное использование для академических и исследовательских целей, коммерческое использование имеет множество ограничений.