< H2 Class = "SDESC" > Видео-модель Alibaba’s WAN 2.1 T2V-1.3B может генерировать 5-секундное видео 480p, используя NVIDIA RTX 4090 за четыре минуты.
< p class = 'Подпись' > видео модели WAN 2.1 доступны с лицензией Apache 2.0
Реклама < P >В среду Alibaba выпустила набор моделей генерации видео -генерации искусственного интеллекта (ИИ). Дублированный WAN 2.1, это модели с открытым исходным кодом, которые могут использоваться как для академических, так и для коммерческих целей. Китайский гигант электронной коммерции выпустил модели в нескольких вариантах на основе параметров. Разработанные командой компании WAN, эти модели были впервые представлены в январе, и компания утверждала, что WAN 2.1 может генерировать очень реалистичные видеоролики. В настоящее время эти модели размещаются в обнимающем лицо Hub AI и машинного обучения (ML). Страница обнимающего лица Alibaba WAN. На страницах модели также подробно описывается набор WAN 2.1 крупных языковых моделей (LLMS). Всего есть четыре модели-T2V-1.3B, T2V-14B, I2V-14B-720p и I2V-14B-480p. T2V короткий для текста к Video, в то время как I2V означает изображение-видео. < P >Исследователи утверждают, что наименьший вариант, WAN 2.1 T2V-1.3B, может быть запускается на графическом процессоре потребительского уровня с всего лишь 8,19 ГБ VRAM. Согласно сообщению, модель AI может генерировать пятисекунднее видео с разрешением 480p с использованием NVIDIA RTX 4090 примерно за четыре минуты. < P >, в то время как WAN 2.1 набор предназначена для генерации видео, они также могут выполнять другие функции, такие как генерация изображений, генерация видео-добычи и видео-эдитинги. Тем не менее, в настоящее время модели с открытым исходным кодом не способны на эти передовые задачи. Для генерации видео он принимает текстовые подсказки на китайских и английских языках, а также входы изображений. < P > Поступая в архитектуру, исследователи показали, что модели WAN 2.1 разработаны с использованием архитектуры диффузионного трансформатора. Тем не менее, компания внедрила базовую архитектуру новыми вариационными автоподорами (VAE), стратегиями обучения и т. Д. < P > В частности, модели AI используют новую трехмерную архитектуру VAE, подчиненную WAN-VAE. Это улучшает пространственно -временное сжатие и уменьшает использование памяти. AutoEncoder может кодировать и декодировать видео с разрешением 1080p неограниченной длины без потери исторической временной информации. Это обеспечивает последовательную генерацию видео. < P > На основе внутреннего тестирования компания утверждала, что модели WAN 2.1 превосходят модель SORA AI Openai в последовательности, качеством генерации сцены, точностью единого объекта и пространственном положении. < ul > < li > Alibaba выпускает еще одну модель искусственного интеллекта, эта специализируется на видении< P > Эти модели доступны по лицензии Apache 2.0. Несмотря на то, что это позволяет использовать неограниченное использование для академических и исследовательских целей, коммерческое использование имеет множество ограничений.