Google onthult Lumiere generatieve AI om realistischere afbeeldingen en video's van tekst te maken
Google heeft Lumiere onthuld, het neusje van de zalm op het gebied van realistische tekst-naar-beeld en video generatieve AI. De software verbetert de beweging aanzienlijk door gebruik te maken van een nieuwe benadering voor het genereren van videoframes, waarbij alle frames in één keer worden gemaakt om bewegingsfouten te beperken.
Generatieve beeld-AI creëert afbeeldingen uit tekst. Een sleutel die dit mogelijk maakt, is de enorme hoeveelheid online afbeeldingen en video's die beschikbaar zijn voor training. Een andere is de ontwikkeling van methoden om alle woorden in een taal met elkaar te associëren via vectoren. Daarom kan AI begrijpen als een paar woorden, of in een zin, "ik ben" waarschijnlijker is dan "ik eenzijdig". AI die afbeeldingen maakt, zoals Stable Diffusion, associeert woorden met afbeeldingen van objecten. Dergelijke AI begrijpt dat de woorden "koninklijke residentie" nauwer verbonden zijn met een afbeelding van een "kasteel" dan met een afbeelding van een "huis".
Generatieve video-AI breidt beeld-AI uit om video's van tekst te maken. Lumiere-deelnemers maken eerst keyframes en vervolgens de frames ertussen. Dit is alsof een meesteranimator het begin- en eindbeeld van een basketbalshot tekent en vervolgens een assistent de beelden ertussenin laat tekenen. Het probleem is dat er vaak bewegingsfouten optreden omdat de beelden ertussen niet correct worden getekend, dus Lumiere omzeilt dit door alle videoframes te maken zonder keyframes. Lumiere is ook getraind om te weten hoe bewegende objecten eruit zien op verschillende beeldformaten, dus de video's zien er superieur uit.
Technisch gezien maakt Lumiere gebruik van diffusion probabilistic modellen om beelden te genereren, gekoppeld aan een Space-Time U-Net, een U-net architectuur met temporele up- en downscaling plus aandachtsblokken toegevoegd aan de gebruikelijke beeldresolutieschaling. Tijdelijk omlaag schalen gelijktijdig met resolutie vermindert de werklast aanzienlijk, terwijl omhoog schalen in combinatie met een tijdsbewust ruimtelijk superresolutiemodel de uitvoer met hoge resolutie genereert. Toch is beeldframesegmentatie nodig vanwege geheugenbeperkingen, dus wordt Multidiffusion gebruikt over overlappende framegrenzen om temporele bewegingsartefacten te beperken.
Lumiere kan worden gekoppeld met andere AI om een breder scala aan uitvoer te creëren. Dit omvat:
- Cinemagraphs - één deel van een afbeelding wordt geanimeerd
- Inpainting - een object in een video wordt vervangen door een ander object
- Gestileerde generatie - het uiterlijk wordt opnieuw gecreëerd in een andere kunststijl
- Image-to-video - een gewenst beeld wordt geanimeerd
- Video-to-video - video's worden opnieuw gemaakt in een andere kunststijl
De videolengte is beperkt tot 5 seconden, terwijl er geen mogelijkheid is om video-overgangen en meerdere camerastandpunten te maken. Lezers die willen experimenteren met generatieve AI op hun desktopcomputers moeten upgraden naar een krachtige videokaart(zoals deze bij Amazon) voor de beste prestaties tijdens het trainen.
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon