Пока никто толком не знает, для чего нужны модели генеративного видео, но это не мешает таким компаниям, как Runway, OpenAI и Meta, вкладывать миллионы в их разработку. Последняя разработка Meta называется Movie Gen и, в соответствии со своим названием, превращает текстовые подсказки в относительно реалистичное видео со звуком… но, к счастью, озвучки пока нет. И это мудро, что они не публикуют эту версию.
На самом деле Movie Gen — это коллекция (или, как они выражаются, “актерский состав”) базовых моделей, самой крупной из которых является текстовая версия для видео. Meta утверждает, что он превосходит такие игры, как Gen3 от Runway, последняя версия от LumaLabs и Kling1.5, хотя, как всегда, это скорее показывает, что они играют в одну игру, чем то, что выигрывает Movie Gen. Технические подробности можно найти в статье Meta, опубликованной с описанием всех компонентов.
Звук генерируется в соответствии с содержанием видео, добавляя, например, шум двигателя, соответствующий движению автомобиля, или шум водопада на заднем плане, или раскаты грома в середине видео, когда это требуется. Программа даже добавит музыку, если это покажется уместным.
Его обучали ”сочетанию лицензированных и общедоступных наборов данных“, которые они назвали ”конфиденциальными/коммерчески уязвимыми» и не предоставили никаких дополнительных подробностей. Мы можем только догадываться, что имеется в виду множество видеороликов в Instagram и Facebook, а также некоторые материалы партнеров и множество других материалов, которые недостаточно защищены от взломщиков — они же “общедоступны”.
Однако, очевидно, что Meta стремится к тому, чтобы не просто на месяц или два получить “ультрасовременную” корону, но и использовать практичный подход «от начала до конца», при котором с помощью очень простого запроса на естественном языке можно получить цельный конечный продукт. Что-то вроде “представьте меня пекарем, пекущим блестящий торт с бегемотиком в грозу”.
Например, одним из недостатков этих видеогенераторов было то, что их обычно сложно редактировать. Если вы попросите снять на видео, как кто-то переходит улицу, а затем поймете, что хотите, чтобы он шел справа налево, а не слева направо, есть большая вероятность, что весь снимок будет выглядеть по-другому, когда вы повторите запрос с этой дополнительной инструкцией. Meta добавляет простой текстовый метод редактирования, при котором вы можете просто сказать: “измените фон на оживленный перекресток” или “переоденьте ее в красное платье”, и программа попытается внести это изменение, но только это.
Движения камеры также в целом понятны, при создании видео учитываются такие вещи, как “отслеживание кадра” и “поворот влево”. Это все еще довольно неуклюже по сравнению с реальным управлением камерой, но это намного лучше, чем ничего.
Ограничения этой модели немного странны. Она генерирует видео шириной 768 пикселей, что знакомо большинству по знаменитому, но устаревшему разрешению 1024×768, но также в три раза превышает 256, что позволяет ей хорошо воспроизводиться с другими HD-форматами. Система Movie Gen увеличивает разрешение до 1080p, что и является причиной утверждения о том, что она обеспечивает такое разрешение. На самом деле это не так, но мы не будем возражать, потому что увеличение масштаба на удивление эффективно.
Как ни странно, он генерирует видео продолжительностью до 16 секунд… со скоростью 16 кадров в секунду, о которой никто в истории не мечтал и не просил. Однако вы также можете снимать видео продолжительностью 10 секунд со скоростью 24 кадра в секунду. С этим вы можете стать лидером!
Что касается того, почему это не работает с голосом… ну, вероятно, есть две причины. Во-первых, это очень сложно. Генерировать речь сейчас легко, но сопоставить ее с движениями губ, а эти губы — с движениями лица, гораздо сложнее. Я не виню их за то, что они отложили это на потом, так как это был бы минутный провал. Кто—то мог бы сказать: “Создайте клоуна, произносящего Геттисбергскую речь, разъезжая кругами на крошечном велосипеде” — «топливо кошмаров» готово стать вирусным.
Вторая причина, скорее всего, политическая: запуск генератора глубокой подделки за месяц до крупных выборов — это… не самое лучшее решение для оптики. Небольшое ограничение его возможностей, так что, если злоумышленники попытаются его использовать, это потребует от них реальной работы, является практическим превентивным шагом. Конечно, можно было бы объединить эту генеративную модель с генератором речи и открытой синхронизацией губ, но вы не можете просто заставить ее генерировать кандидата, делающего дикие заявления.
“На данный момент Movie Gen — это исключительно исследовательская концепция искусственного интеллекта, и даже на этом раннем этапе безопасность является главным приоритетом, как и во всех наших технологиях искусственного интеллекта”, — сказал представитель Meta в ответ на вопросы TechCrunch.
В отличие, скажем, от моделей Llama large language, Movie Gen не будет общедоступным. Вы можете в какой-то степени повторить его методы, следуя исследовательской статье, но код опубликован не будет, за исключением “базового набора данных о подсказках для оценки”, то есть записи о том, какие подсказки были использованы для создания тестовых видеороликов.
Источник: techcrunch.com