ИИ за стабилност влиза в играта за генериране на видеоклипове

Share

Изглежда, че стартиращите компании за изкуствен интелект, които не са OpenAI, продължават да работят тази седмица – придържайки се към своите продуктови пътни карти, дори когато в ефира преобладава отразяването на хаоса в OpenAI.

Вижте: Stability AI, която този следобед обяви Stable Video Diffusion – модел на изкуствен интелект, който генерира видеоклипове чрез анимиране на съществуващи изображения. Въз основа на съществуващия модел на Stability Stable Diffusion за преобразуване на текст в изображение, Stable Video Diffusion е един от малкото модели за генериране на видеоклипове, налични с отворен код – или с търговска цел, в този смисъл.

Но не за всеки.

Понастоящем Stable Video Diffusion е в състояние, което Stability описва като „изследователски предварителен преглед“. Тези, които искат да стартират модела, трябва да се съгласят с определени условия за ползване, които очертават предвидените приложения на Stable Video Diffusion (например „образователни или творчески инструменти“, „дизайн и други художествени процеси“ и т.н.) и непредвидените такива („фактически или истински представяния на хора или събития“).

Като се има предвид как в исторически план са протекли други подобни предварителни проучвания на ИИ – включително и собственото на Stability – този автор не би се изненадал да види как моделът започва да циркулира в тъмната мрежа в кратък срок. Ако това се случи, бих се притеснил за начините, по които може да се злоупотреби със Stable Video, като се има предвид, че не изглежда да има вграден филтър за съдържание. Когато беше пусната Стабилна дифузия, не след дълго участници със съмнителни намерения я използваха за създаване на неконсенсусно deepfake порно – и по-лошо.

Но се отклонявам.

Стабилната видеодифузия всъщност се предлага под формата на два модела – SVD и SVD-XT. Първият, SVD, трансформира неподвижни изображения във видеоклипове с резолюция 576×1024 в 14 кадъра. SVD-XT използва същата архитектура, но увеличава броя на кадрите на 24. И двете могат да генерират видеоклипове със скорост между 3 и 30 кадъра в секунда.

Според документа, публикуван заедно със стабилната видеодифузия, SVD и SVD-XT първоначално са били обучени върху набор от данни от милиони видеоклипове, а след това са били „прецизирани“ върху много по-малък набор от стотици хиляди до около един милион клипа. Не е ясно веднага откъде идват тези видеоклипове – в документа се предполага, че много от тях са от публични набори от данни за научни изследвания, така че не може да се каже дали някои от тях са защитени с авторски права. Ако е така, това би могло да постави потребителите на Stability и Stable Video Diffusion пред правни и етични предизвикателства, свързани с правата за използване. Времето ще покаже.

Stable Video Diffusion

Кредитиране на изображенията: Стабилност AI

Какъвто и да е източникът на данните за обучение, моделите – както SVD, така и SVD-XT – генерират доста висококачествени четирисекундни клипове. По преценка на този автор подбраните в блога на Stability образци могат да се сравнят с резултатите от скорошния модел за генериране на видео на Meta, както и с примерите, създадени от изкуствен интелект, които сме виждали от Google и стартиращите компании за изкуствен интелект Runway и Pika Labs.

Но Stable Video Diffusion има ограничения. Стабилност е прозрачна по този въпрос, като на страниците на моделите Hugging Face – страниците, от които изследователите могат да кандидатстват за достъп до Stable Video Diffusion – пише, че моделите не могат да генерират видеоклипове без движение или бавни завъртания на камерата, да бъдат управлявани от текст, да визуализират текст (поне не четливо) или последователно да генерират лица и хора „правилно“.

Все пак – макар и в началото – Stability отбелязва, че моделите са доста разширяеми и могат да бъдат адаптирани към случаи на употреба като генериране на 360-градусови изгледи на обекти.

И така, в какво може да се превърне Stable Video Diffusion? Е, Stability казва, че планира „разнообразие“ от модели, които „надграждат и разширяват“ SVD и SVD-XT, както и инструмент „текст-видео“, който ще предоставя текстови подсказки на моделите в мрежата. Крайната цел изглежда е комерсиализация – Stability с право отбелязва, че Stable Video Diffusion има потенциални приложения в „рекламата, образованието, развлеченията и извън тях“.

Със сигурност Stability се стреми към успех, тъй като инвеститорите в стартъпа увеличават натиска.

През април Semafor съобщи, че Stability AI изгаря парични средства, което стимулира издирването на изпълнителни директори с цел увеличаване на продажбите. Според Forbes компанията многократно е забавяла или направо не е плащала заплати и данъци върху заплатите, което е накарало AWS – която Stability използва за изчисления, за да обучава моделите си – да заплаши, че ще отнеме достъпа на Stability до нейните графични процесори.

Stable Video Diffusion

Кредитиране на изображения: Стабилност AI

Наскоро Stability AI набра 25 млн. долара чрез конвертируема облигация (т.е. дълг, който се превръща в капитал), с което общият размер на набраните средства надхвърли 125 млн. долара. Но тя не е приключвала ново финансиране при по-висока оценка; стартъпът за последен път беше оценен на 1 млрд. долара. Твърди се, че Stability се стреми да удвои тази стойност в рамките на следващите няколко месеца, въпреки упорито ниските приходи и високия процент на изгаряне.

Наскоро Stability претърпя още един удар с напускането на Ед Нютън-Рекс, който беше вицепрезидент по аудио в стартъпа малко повече от година и изигра ключова роля в стартирането на инструмента за генериране на музика на Stability, Stable Audio. В публично писмо Нютън-Рекс заяви, че е напуснал Stability заради разногласия относно авторските права и начина, по който данните, защитени с авторски права, трябва – и не трябва – да се използват за обучение на модели на изкуствен интелект.

Подобни статии

Не пропускайте