Un model AI care va schimba rețelele sociale: poate genera videoclipuri pornind de la text

Data:

Runway, unul dintre cele două startup-uri care au contribuit la construcția generatorului AI de artă Stable Diffusion, a anunțat luni că primul test public pentru modelul de inteligență artificială pentru video, Gen-2, va fi lansat în curând. Compania a afirmat că este „primul model text-to-video disponibil pentru public”.

Totuși, concurența și în acest domeniu este acerbă. Un grup mai puțin cunoscut, care a făcut un model inițial text-to-video mult mai slab, ar putea depăși Runway până la urmă, scrie Gizmodo.

Citește și: Primăria unde aproape toate posturile sunt vacante. Primarul a murit, contabilul și secretarul general au ales joburi mai bine plătite

Cum poate îmbunătăți AI anumite videoclipuri

Google și Meta lucrează deja la propriile lor generatoare de imagine pornind de la text, dar niciuna dintre companii nu a fost deschisă în a mai da știri despre aplicațiile lor, de la primele testări. Din februarie, echipa relativ mică de 45 de persoane de la Runway este cunoscută pentru instrumentele sale de editare video online, inclusiv pentru modelul AI Gen-1 video-to-video, care ar putea crea și transforma videoclipuri pe baza solicitărilor de text sau a imaginilor de referință.

Gen-1 poate transforma o simplă figurină desenată în timp ce înoată într-un scafandru sau să transforme un bărbat care merge pe stradă într-un monstru de plastilină dintr-un coșmar. Gen-2 ar urma să fie chiar mai puternic, permițând utilizatorilor să creeze videoclipuri de 3 secunde din mai nimic, pe baza unor simple mesaje de tip text.

Deși compania nu a lăsat pe nimeni să testeze aplicația încă, a distribuit câteva clipuri bazate pe solicitări precum „un ochi văzut de aproape” și „o fotografie din aer a unui peisaj montan”.

Puțini oameni din afara companiei au reușit să experimenteze noul model Runway, dar pentru cei interesați să genereze videoclipuri cu ajutorul inteligenței artificiale există și alte opțiuni.

Sistemul de transformarea a textului în video numit ModelScope a fost lansat weekendul trecut și deja a provocat un pic de agitație, pentru clipurile sale video de 2 secunde uneori incomode și adesea nebunești.

Citește și: Un medic a testat ChatGPT în camera de urgențe. O pacientă aproape a murit

DAMO Vision Intelligence Lab

DAMO Vision Intelligence Lab, o divizie de cercetare a gigantului de e-commerce Alibaba, a creat sistemul ca un fel de exercițiu public de testare. Folosește un model de difuzie destul de simplu, pentru a crea videoclipurile, conform paginii companiei, care descrie modelul său de AI, potrivit Gizmodo.

ModelScope este open source și deja disponibil pe Hugging Face, deși poate fi greu să faci aplicația să funcționeze fără a plăti o taxă mică pentru a rula sistemul pe un server GPU separat. Matt Wolfe, tech youtuber, are un tutorial bun despre cum să-l configurați.

ModelScope este destul de clar în ceea ce privește locul de unde provin datele sale. Multe dintre aceste videoclipuri generate conțin conturul vag al siglei Shutterstock, ceea ce înseamnă că datele de testare au inclus probabil o parte considerabilă de videoclipuri și imagini preluate de pe respectivul site de fotografii.

Este o problemă similară cu alte generatoare AI de imagini, cum ar fi Stable Diffusion. Getty Images a dat în judecată Stability AI, compania care a adus publicului generatorul să de artă AI, unde au putut fi remarcate câte imagini Stable Diffusion creează o versiune a imaginilor de la Getty, relatează Gizmodo.

Desigur, acest lucru încă nu i-a împiedicat pe unii utilizatori să facă filme de scurtă durată folosind inteligența artificală.

Modelul Runway, antrenat pe imagini și videoclipuri

În ceea ce privește Runway, grupul caută să-și facă un nume în lumea din ce în ce mai aglomerată a cercetării inteligenței artificiale. În lucrarea lor care descrie sistemul Gen-1, cercetătorii de la Runway au spus că modelul lor este antrenat atât pe imagini, cât și pe videoclipuri ale unui „set de date la scară mare”, cu date text-imagine alături de videoclipuri fără subtitrare.

Acei cercetători au descoperit că există pur și simplu o lipsă de seturi de date video-text cu aceeași calitate ca și alte seturi de date de imagine care prezintă imagini de pe internet. Acest lucru obligă compania să-și obțină datele din videoclipuri, conform Gizmodo.

Dacă noua listă de așteptare pentru Gen-2 a Runway este ca cea pentru Gen-1, atunci utilizatorii se pot aștepta să aștepte câteva săptămâni înainte de a pune pe deplin mâna pe sistem. Între timp, experimentarea cu ModelScope poate fi o primă opțiune bună pentru cei care caută modele de AI ieșite din comun.

Urmăriți PressHUB și pe Google News!

Foto: PEXELS.COM

spot_imgspot_img
Bianca Iosef
Bianca Iosef
Bianca Iosef a terminat Facultatea de Jurnalism și Științele Comunicării din cadrul Universității București în anul 2022. A început să lucreze ca jurnalist încă din timpul facultății și este interesată să evolueze cât mai mult în acest domeniu.

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

spot_img

Distribuie articolul

spot_img

Știri de astăzi

Mai multe articole similare
Related

Operațiunea Conversus: 107 arestări și 1.388 de arme confiscate VIDEO

Operațiunea Conversus: Poliția Română a condus o operațiune, la...

Cultură de canabis, descoperită de polițiști într-un apartament

La data de 28 aprilie 2024, polițiștii Brigăzii de...

Îndemn la vot impresionant: „Un mesaj pentru nepotul meu” | VIDEO

Îndemn la vot impresionant la vot realizat de Parlamentul...

Procurorul Cristian Ardelean mai are un  pas și se întoarce la DNA Oradea

Procurorul Cristian Ardelean mai are un  pas și se...