Το μοντέλο AI νέας γενιάς βίντεο της Google Lumiere χρησιμοποιεί α νέο μοντέλο διάχυσης που ονομάζεται Space-Time-U-Net, ή STUNet, που υπολογίζει πού βρίσκονται τα πράγματα σε ένα βίντεο (χώρος) και πώς κινούνται και αλλάζουν ταυτόχρονα (χρόνος). Ars Technica αναφέρει ότι αυτή η μέθοδος επιτρέπει στον Lumiere να δημιουργήσει το βίντεο σε μία διαδικασία αντί να συνδυάζει μικρότερα ακίνητα καρέ μαζί.
Το Lumiere ξεκινά με τη δημιουργία ενός βασικού πλαισίου από την προτροπή. Στη συνέχεια, χρησιμοποιεί το πλαίσιο STUNet για να αρχίσει να προσεγγίζει πού θα κινηθούν τα αντικείμενα μέσα σε αυτό το πλαίσιο για να δημιουργήσει περισσότερα πλαίσια που ρέουν το ένα μέσα στο άλλο, δημιουργώντας την εμφάνιση απρόσκοπτης κίνησης. Το Lumiere παράγει επίσης 80 καρέ σε σύγκριση με 25 καρέ από το Stable Video Diffusion.
Ομολογουμένως, είμαι περισσότερο δημοσιογράφος κειμένου παρά άτομο βίντεο, αλλά ο κύλινδρος που δημοσίευσε η Google, μαζί με μια προεκτυπωμένη επιστημονική εργασία, δείχνει ότι τα εργαλεία δημιουργίας και επεξεργασίας βίντεο με τεχνητή νοημοσύνη έχουν μετατραπεί από την ασυνήθιστη κοιλάδα σε σχεδόν ρεαλιστικά σε λίγα μόνο χρόνια. Επίσης, καθιερώνει την τεχνολογία της Google στον χώρο που ήδη καταλαμβάνουν ανταγωνιστές όπως το Runway, το Stable Video Diffusion ή το Meta’s Είδος στρουθοκαμήλου. Runway, μια από τις πρώτες πλατφόρμες μετατροπής κειμένου σε βίντεο μαζικής αγοράς, κυκλοφόρησε το Runway Gen-2 τον Μάρτιο του περασμένου έτους και άρχισε να προσφέρει βίντεο με πιο ρεαλιστική εμφάνιση. Τα βίντεο πασαρέλας δυσκολεύονται επίσης να απεικονίσουν την κίνηση.
Η Google είχε την καλοσύνη να βάλει κλιπ και προτροπές στον ιστότοπο Lumiere, κάτι που μου επέτρεψε να βάλω τα ίδια μηνύματα μέσω του Runway για σύγκριση. Εδώ είναι τα αποτελέσματα:
Ναι, μερικά από τα κλιπ που παρουσιάζονται έχουν μια πινελιά τεχνητότητας, ειδικά αν κοιτάξετε προσεκτικά την υφή του δέρματος ή εάν η σκηνή είναι πιο ατμοσφαιρική. Αλλά κοίτα αυτή τη χελώνα! Κινείται όπως θα έκανε μια χελώνα στο νερό! Μοιάζει με αληθινή χελώνα! Έστειλα το εισαγωγικό βίντεο του Lumiere σε έναν φίλο που είναι επαγγελματίας πρόγραμμα επεξεργασίας βίντεο. Ενώ επεσήμανε ότι «μπορείτε ξεκάθαρα να πείτε ότι δεν είναι εντελώς πραγματικό», θεώρησε ότι ήταν εντυπωσιακό ότι αν δεν της έλεγα ότι ήταν AI, θα νόμιζε ότι ήταν CGI. (Είπε επίσης: «Θα μου πάρει τη δουλειά, έτσι δεν είναι;»)
Άλλα μοντέλα συρράπτουν βίντεο από δημιουργημένα βασικά καρέ όπου έχει ήδη γίνει η κίνηση (σκεφτείτε σχέδια σε ένα flip book), ενώ το STUNet επιτρέπει στο Lumiere να εστιάσει στην ίδια την κίνηση με βάση το πού πρέπει να βρίσκεται το περιεχόμενο που δημιουργείται σε μια δεδομένη στιγμή στο βίντεο.
Η Google δεν ήταν μεγάλος παίκτης στην κατηγορία κειμένου σε βίντεο, αλλά σιγά-σιγά κυκλοφόρησε πιο προηγμένα μοντέλα τεχνητής νοημοσύνης και στράφηκε σε μια πιο πολυτροπική εστίαση. Του Μοντέλο μεγάλης γλώσσας Gemini θα φέρει τελικά τη δημιουργία εικόνων στον Bard. Το Lumiere δεν είναι ακόμα διαθέσιμο για δοκιμή, αλλά δείχνει την ικανότητα της Google να αναπτύξει μια πλατφόρμα βίντεο τεχνητής νοημοσύνης που είναι συγκρίσιμη – και αναμφισβήτητα λίγο καλύτερη από – γενικά διαθέσιμες γεννήτριες βίντεο τεχνητής νοημοσύνης όπως οι Runway και Pika. Και μόνο μια υπενθύμιση, εδώ ήταν που Η Google ήταν με βίντεο AI πριν δύο χρόνια.
Πέρα από τη δημιουργία κειμένου σε βίντεο, το Lumiere θα επιτρέψει επίσης τη δημιουργία εικόνας σε βίντεο, τη δημιουργία στυλιζαρισμένης, η οποία επιτρέπει στους χρήστες να κάνουν βίντεο σε συγκεκριμένο στυλ, κινηματογραφικές φωτογραφίες που κινούν μόνο ένα μέρος ενός βίντεο και ζωγραφική για να κρύψουν μια περιοχή του βίντεο για να αλλάξετε το χρώμα ή το σχέδιο.
Ωστόσο, το έγγραφο Lumiere της Google σημείωσε ότι «υπάρχει κίνδυνος κακής χρήσης για τη δημιουργία ψεύτικο ή επιβλαβές περιεχόμενο με την τεχνολογία μας και πιστεύουμε ότι είναι ζωτικής σημασίας να αναπτύξουμε και να εφαρμόσουμε εργαλεία για τον εντοπισμό προκαταλήψεων και περιπτώσεων κακόβουλης χρήσης για να διασφαλίσουμε μια ασφαλή και δίκαιη χρήση.” Οι συντάκτες της εφημερίδας δεν εξήγησαν πώς μπορεί να επιτευχθεί αυτό.