Το Lumiere της Google φέρνει το βίντεο AI πιο κοντά στο πραγματικό παρά στο εξωπραγματικό

Το μοντέλο AI νέας γενιάς βίντεο της Google Lumiere χρησιμοποιεί α νέο μοντέλο διάχυσης που ονομάζεται Space-Time-U-Net, ή STUNet, που υπολογίζει πού βρίσκονται τα πράγματα σε ένα βίντεο (χώρος) και πώς κινούνται και αλλάζουν ταυτόχρονα (χρόνος). Ars Technica αναφέρει ότι αυτή η μέθοδος επιτρέπει στον Lumiere να δημιουργήσει το βίντεο σε μία διαδικασία αντί να συνδυάζει μικρότερα ακίνητα καρέ μαζί.

Το Lumiere ξεκινά με τη δημιουργία ενός βασικού πλαισίου από την προτροπή. Στη συνέχεια, χρησιμοποιεί το πλαίσιο STUNet για να αρχίσει να προσεγγίζει πού θα κινηθούν τα αντικείμενα μέσα σε αυτό το πλαίσιο για να δημιουργήσει περισσότερα πλαίσια που ρέουν το ένα μέσα στο άλλο, δημιουργώντας την εμφάνιση απρόσκοπτης κίνησης. Το Lumiere παράγει επίσης 80 καρέ σε σύγκριση με 25 καρέ από το Stable Video Diffusion.

Ομολογουμένως, είμαι περισσότερο δημοσιογράφος κειμένου παρά άτομο βίντεο, αλλά ο κύλινδρος που δημοσίευσε η Google, μαζί με μια προεκτυπωμένη επιστημονική εργασία, δείχνει ότι τα εργαλεία δημιουργίας και επεξεργασίας βίντεο με τεχνητή νοημοσύνη έχουν μετατραπεί από την ασυνήθιστη κοιλάδα σε σχεδόν ρεαλιστικά σε λίγα μόνο χρόνια. Επίσης, καθιερώνει την τεχνολογία της Google στον χώρο που ήδη καταλαμβάνουν ανταγωνιστές όπως το Runway, το Stable Video Diffusion ή το Meta’s Είδος στρουθοκαμήλου. Runway, μια από τις πρώτες πλατφόρμες μετατροπής κειμένου σε βίντεο μαζικής αγοράς, κυκλοφόρησε το Runway Gen-2 τον Μάρτιο του περασμένου έτους και άρχισε να προσφέρει βίντεο με πιο ρεαλιστική εμφάνιση. Τα βίντεο πασαρέλας δυσκολεύονται επίσης να απεικονίσουν την κίνηση.

Η Google είχε την καλοσύνη να βάλει κλιπ και προτροπές στον ιστότοπο Lumiere, κάτι που μου επέτρεψε να βάλω τα ίδια μηνύματα μέσω του Runway για σύγκριση. Εδώ είναι τα αποτελέσματα:

Ναι, μερικά από τα κλιπ που παρουσιάζονται έχουν μια πινελιά τεχνητότητας, ειδικά αν κοιτάξετε προσεκτικά την υφή του δέρματος ή εάν η σκηνή είναι πιο ατμοσφαιρική. Αλλά κοίτα αυτή τη χελώνα! Κινείται όπως θα έκανε μια χελώνα στο νερό! Μοιάζει με αληθινή χελώνα! Έστειλα το εισαγωγικό βίντεο του Lumiere σε έναν φίλο που είναι επαγγελματίας πρόγραμμα επεξεργασίας βίντεο. Ενώ επεσήμανε ότι «μπορείτε ξεκάθαρα να πείτε ότι δεν είναι εντελώς πραγματικό», θεώρησε ότι ήταν εντυπωσιακό ότι αν δεν της έλεγα ότι ήταν AI, θα νόμιζε ότι ήταν CGI. (Είπε επίσης: «Θα μου πάρει τη δουλειά, έτσι δεν είναι;»)

Άλλα μοντέλα συρράπτουν βίντεο από δημιουργημένα βασικά καρέ όπου έχει ήδη γίνει η κίνηση (σκεφτείτε σχέδια σε ένα flip book), ενώ το STUNet επιτρέπει στο Lumiere να εστιάσει στην ίδια την κίνηση με βάση το πού πρέπει να βρίσκεται το περιεχόμενο που δημιουργείται σε μια δεδομένη στιγμή στο βίντεο.

Η Google δεν ήταν μεγάλος παίκτης στην κατηγορία κειμένου σε βίντεο, αλλά σιγά-σιγά κυκλοφόρησε πιο προηγμένα μοντέλα τεχνητής νοημοσύνης και στράφηκε σε μια πιο πολυτροπική εστίαση. Του Μοντέλο μεγάλης γλώσσας Gemini θα φέρει τελικά τη δημιουργία εικόνων στον Bard. Το Lumiere δεν είναι ακόμα διαθέσιμο για δοκιμή, αλλά δείχνει την ικανότητα της Google να αναπτύξει μια πλατφόρμα βίντεο τεχνητής νοημοσύνης που είναι συγκρίσιμη – και αναμφισβήτητα λίγο καλύτερη από – γενικά διαθέσιμες γεννήτριες βίντεο τεχνητής νοημοσύνης όπως οι Runway και Pika. Και μόνο μια υπενθύμιση, εδώ ήταν που Η Google ήταν με βίντεο AI πριν δύο χρόνια.

Κλιπ Google Imagen από το 2022

Εικόνα: Google

Πέρα από τη δημιουργία κειμένου σε βίντεο, το Lumiere θα επιτρέψει επίσης τη δημιουργία εικόνας σε βίντεο, τη δημιουργία στυλιζαρισμένης, η οποία επιτρέπει στους χρήστες να κάνουν βίντεο σε συγκεκριμένο στυλ, κινηματογραφικές φωτογραφίες που κινούν μόνο ένα μέρος ενός βίντεο και ζωγραφική για να κρύψουν μια περιοχή του βίντεο για να αλλάξετε το χρώμα ή το σχέδιο.

Ωστόσο, το έγγραφο Lumiere της Google σημείωσε ότι «υπάρχει κίνδυνος κακής χρήσης για τη δημιουργία ψεύτικο ή επιβλαβές περιεχόμενο με την τεχνολογία μας και πιστεύουμε ότι είναι ζωτικής σημασίας να αναπτύξουμε και να εφαρμόσουμε εργαλεία για τον εντοπισμό προκαταλήψεων και περιπτώσεων κακόβουλης χρήσης για να διασφαλίσουμε μια ασφαλή και δίκαιη χρήση.” Οι συντάκτες της εφημερίδας δεν εξήγησαν πώς μπορεί να επιτευχθεί αυτό.

Τι είναι καυτό

Η τιμή του Bitcoin (BTC) εξετάζει τις προσεχείς αποφάσεις πολιτικής της Κεντρικής Τράπεζας

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

Η τιμή του Dogecoin σε κίνδυνο καθώς οι αρκούδες ανεβαίνουν στον τοίχο πωλήσεων 92 εκατομμυρίων $

Το Lumiere της Google φέρνει το βίντεο AI πιο κοντά στο πραγματικό παρά στο εξωπραγματικό

Η τιμή του Bitcoin (BTC) εξετάζει τις προσεχείς αποφάσεις πολιτικής της Κεντρικής Τράπεζας

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

Τι είναι το μετασύμπαν; Το ουσιώδες

Leave A Reply Cancel Reply

🚀 Unisat Studio: Ο απόλυτος προορισμός σας για BRC20 Tokens και δημιουργία NFT! 🚀 | από Blessingamen | Ιανουάριος, 2024

🔮 Αργή τεχνητή νοημοσύνη; Chatbot θεραπευτές. Παραπληροφόρηση; Blockchain γένεση; Μακρύς Covid ++ #458

👨‍❤️‍👩”Είχα δίκιο αυτή τη μέρα:” Ο 51χρονος σύζυγος εντόπισε το εγκεφαλικό της γυναίκας

🌟🆓 DePioneers Airdrop : Το πρώτο υβριδικό DePIN DAO NFT 🌟🆓 | από το Πρωτόκολλο Alvara | Μάιος, 2024

Το “Hey Google” θα γίνει ποτέ “Hey Gemini”

Η Ινδία είναι μία από τις πιο ενεργές χώρες για νήματα παγκοσμίως

Η τελευταία πτώση της δυνατότητας Pixel της Google προσθέτει το Circle στην Αναζήτηση, το Magic Compose και πολλά άλλα

Εγγραφείτε στις Ενημερώσεις

Τι είναι καυτό

Το Lumiere της Google φέρνει το βίντεο AI πιο κοντά στο πραγματικό παρά στο εξωπραγματικό

σχετικές αναρτήσεις

Leave A Reply Cancel Reply