Το μοντέλο VLOGGER AI της Google μπορεί να δημιουργήσει είδωλα βίντεο από εικόνες – τι μπορεί να πάει στραβά;

Το VLOGGER μπορεί να τραβήξει μια φωτογραφία κάποιου και να δημιουργήσει κλιπ υψηλής πιστότητας και ποικίλου μήκους, με ακριβείς εκφράσεις του προσώπου και κινήσεις του σώματος, μέχρι ένα βλέμμα, που ξεπερνούν τα προηγούμενα είδη λογισμικού “μιλώντας κεφάλι”.

Google

ο τεχνητή νοημοσύνη Η κοινότητα (AI) έχει γίνει τόσο καλή στην παραγωγή ψεύτικων κινούμενων εικόνων — ρίξτε μια ματιά στο Sora του OpenAIπου κυκλοφόρησε τον περασμένο μήνα, με τις γλαφυρές φανταστικές περιηγήσεις — που πρέπει να θέσουμε μια διανοητική και πρακτική ερώτηση: τι πρέπει να κάνουμε με όλα αυτά τα βίντεο;

Επίσης: Το OpenAI αποκαλύπτει το μοντέλο κειμένου σε βίντεο και τα αποτελέσματα είναι εκπληκτικά. Ρίξτε μια ματιά μόνοι σας

Αυτή την εβδομάδα, ο μελετητής της Google, Enric Corona και οι συνεργάτες του απάντησαν: ελέγξτε τους χρησιμοποιώντας το εργαλείο μας VLOGGER. Το VLOGGER μπορεί να δημιουργήσει ένα βίντεο υψηλής ανάλυσης με άτομα που μιλούν με βάση μια φωτογραφία. Το πιο σημαντικό, το VLOGGER μπορεί να κάνει κίνηση στο βίντεο σύμφωνα με ένα δείγμα ομιλίας, πράγμα που σημαίνει ότι η τεχνολογία μπορεί να κάνει κίνηση στα βίντεο ως ελεγχόμενη ομοιότητα ενός ατόμου — ένα “άβαταρ” υψηλής πιστότητας.

Αυτό το εργαλείο θα μπορούσε να ενεργοποιήσει όλα τα είδη δημιουργιών. Στο απλούστερο επίπεδο, η ομάδα της Corona προτείνει ότι το VLOGGER θα μπορούσε να έχει μεγάλο αντίκτυπο στα avatars του γραφείου υποστήριξης, επειδή οι πιο ρεαλιστικοί συνθετικοί άνθρωποι που μιλάνε μπορούν «να αναπτύξουν ενσυναίσθηση». Προτείνουν ότι η τεχνολογία θα μπορούσε να «επιτρέψει εντελώς νέες περιπτώσεις χρήσης, όπως βελτιωμένη διαδικτυακή επικοινωνία, εκπαίδευση ή εξατομικευμένους εικονικούς βοηθούς».

Το VLOGGER θα μπορούσε επίσης να οδηγήσει σε ένα νέο σύνορο σε deepfakes, ομοιότητες που φαίνονται αληθινές που λένε και κάνουν πράγματα που ο πραγματικός άνθρωπος δεν έκανε ποτέ στην πραγματικότητα. Η ομάδα της Corona σκοπεύει να εξετάσει τις κοινωνικές επιπτώσεις του VLOGGER σε συμπληρωματικό υποστηρικτικό υλικό. Ωστόσο, αυτό το υλικό δεν είναι διαθέσιμο στη σελίδα GitHub του έργου. Το ZDNET επικοινώνησε με την Corona για να ρωτήσει σχετικά με το υποστηρικτικό υλικό, αλλά δεν είχε λάβει απάντηση κατά τη στιγμή της δημοσίευσης.

Επίσης: Καθώς οι πράκτορες της τεχνητής νοημοσύνης εξαπλώνονται, αυξάνονται και οι κίνδυνοι, λένε οι μελετητές

Όπως περιγράφεται στο επίσημο έγγραφο, “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, η ομάδα της Corona στοχεύει να ξεπεράσει τις ανακρίβειες της τελευταίας τεχνολογίας στα avatar. «Η δημιουργία ρεαλιστικών βίντεο με ανθρώπους είναι ακόμα πολύπλοκη και ώριμη με τεχνουργήματα», έγραψε η ομάδα του Corona.

Η ομάδα σημείωσε ότι τα υπάρχοντα είδωλα βίντεο συχνά βγάζουν το σώμα και τα χέρια, δείχνοντας μόνο το πρόσωπο. Το VLOGGER μπορεί να δείξει ολόκληρους κορμούς μαζί με κινήσεις των χεριών. Άλλα εργαλεία συνήθως έχουν περιορισμένες παραλλαγές στις εκφράσεις του προσώπου ή στις στάσεις, προσφέροντας απλώς στοιχειώδη συγχρονισμό των χειλιών. Το VLOGGER μπορεί να δημιουργήσει «βίντεο υψηλής ανάλυσης με την κίνηση του κεφαλιού και του άνω μέρους του σώματος […] με πολύ διαφορετικές εκφράσεις προσώπου και χειρονομίες» και είναι «η πρώτη προσέγγιση για τη δημιουργία μιλούντων και κινούμενων ανθρώπων με εισροές ομιλίας».

Όπως εξήγησε η ερευνητική ομάδα, «είναι ακριβώς ο αυτοματισμός και ο συμπεριφορικός ρεαλισμός που [are] τι στοχεύουμε σε αυτή την εργασία: Το VLOGGER είναι μια πολυτροπική διεπαφή σε έναν ενσωματωμένο συνομιλητή, εξοπλισμένη με οπτική αναπαράσταση ήχου και κινούμενης εικόνας, με περίπλοκες εκφράσεις του προσώπου και αυξανόμενο επίπεδο κίνησης, σχεδιασμένο να υποστηρίζει φυσικές συνομιλίες με έναν άνθρωπο χρήστη .”

google-2024-vlogger-example — Βασισμένο σε μία φωτογραφία, αριστερά, το λογισμικό VLOGGER προβλέπει τα καρέ βίντεο, δεξιά, που πρέπει να συνοδεύουν κάθε στιγμή ενός αρχείου ήχου κάποιου που μιλάει, χρησιμοποιώντας μια διαδικασία γνωστή ως “διάχυση” και στη συνέχεια δημιουργεί αυτά τα καρέ βίντεο σε υψηλή – ορισμός ποιότητας.

Google

Το VLOGGER συγκεντρώνει μερικές πρόσφατες τάσεις στη βαθιά μάθηση.

Πολυτροπικότητα συγκλίνει τα εργαλεία τεχνητής νοημοσύνης με πολλές λειτουργίες μπορεί να απορροφήσει και να συνθέσει, συμπεριλαμβανομένων κειμένου και ήχου, και εικόνων και βίντεο.

Μεγάλα γλωσσικά μοντέλα όπως το GPT-4 του OpenAI καθιστούν δυνατή τη χρήση της φυσικής γλώσσας ως εισόδου για την προώθηση ενεργειών διαφόρων ειδών, είτε πρόκειται για τη δημιουργία παραγράφων κειμένου, ενός τραγουδιού ή μιας εικόνας.

Οι ερευνητές έχουν επίσης βρει πολλούς τρόπους για να δημιουργούν ρεαλιστικές εικόνες και βίντεο τα τελευταία χρόνια, βελτιώνοντας τη «διάχυση». Ο όρος προέρχεται από τη μοριακή φυσική και αναφέρεται στο πώς, καθώς αυξάνεται η θερμοκρασία, τα σωματίδια της ύλης μετατρέπονται από πολύ συγκεντρωμένα σε μια περιοχή σε πιο απλωμένα. Κατ’ αναλογία, τα κομμάτια των ψηφιακών πληροφοριών μπορούν να θεωρηθούν “διάχυτα” όσο πιο ασυνάρτητα γίνονται με τον ψηφιακό θόρυβο.

Επίσης: Μετακινηθείτε πάνω από το Gemini, η τεχνητή νοημοσύνη ανοιχτού κώδικα έχει τα δικά της κόλπα βίντεο

Η διάχυση AI εισάγει θόρυβο σε μια εικόνα και αναδομεί την αρχική εικόνα για να εκπαιδεύσει ένα νευρωνικό δίκτυο να βρει τους κανόνες με τους οποίους κατασκευάστηκε. Η διάχυση είναι η ρίζα της εντυπωσιακής διαδικασίας δημιουργίας εικόνων στο Stable Diffusion του Stability AI και στο DALL-E του OpenAI. Είναι επίσης ο τρόπος με τον οποίο το OpenAI δημιουργεί κομψά βίντεο στο Sora.

Για το VLOGGER, η ομάδα του Corona εκπαίδευσε ένα νευρωνικό δίκτυο για να συσχετίσει τον ήχο ενός ομιλητή με μεμονωμένα καρέ βίντεο αυτού του ηχείου. Η ομάδα συνδύασε μια διαδικασία διάχυσης ανακατασκευής του πλαισίου βίντεο από τον ήχο χρησιμοποιώντας μια άλλη πρόσφατη καινοτομία, το Transformer.

Το Transformer χρησιμοποιεί τη μέθοδο της προσοχής για να προβλέψει τα καρέ βίντεο με βάση τα καρέ που έχουν συμβεί στο παρελθόν, σε συνδυασμό με τον ήχο. Με την πρόβλεψη των ενεργειών, το νευρωνικό δίκτυο μαθαίνει να αποδίδει ακριβείς κινήσεις χεριών και σώματος και εκφράσεις του προσώπου, καρέ προς καρέ, σε συγχρονισμό με τον ήχο.

Το τελευταίο βήμα είναι να χρησιμοποιήσουμε τις προβλέψεις από αυτό το πρώτο νευρωνικό δίκτυο για να τροφοδοτήσουμε στη συνέχεια τη δημιουργία πλαισίων βίντεο υψηλής ανάλυσης χρησιμοποιώντας ένα δεύτερο νευρωνικό δίκτυο που χρησιμοποιεί επίσης διάχυση. Αυτό το δεύτερο βήμα είναι επίσης ένα σημάδι υψηλής ποιότητας στα δεδομένα.

Επίσης: Το Generative AI αποτυγχάνει σε αυτή την πολύ κοινή ικανότητα της ανθρώπινης σκέψης

Για να κάνει τις εικόνες υψηλής ανάλυσης, η ομάδα του Corona συνέταξε το MENTOR, ένα σύνολο δεδομένων που περιλαμβάνει 800.000 «ταυτότητες» βίντεο με άτομα που μιλούν. Το MENTOR αποτελείται από 2.200 ώρες βίντεο, το οποίο η ομάδα ισχυρίζεται ότι το καθιστά “το μεγαλύτερο σύνολο δεδομένων που έχει χρησιμοποιηθεί μέχρι σήμερα όσον αφορά την ταυτότητα και το μήκος” και είναι 10 φορές μεγαλύτερο από τα προηγούμενα συγκρίσιμα σύνολα δεδομένων.

Οι συγγραφείς βρίσκουν ότι μπορούν να βελτιώσουν αυτή τη διαδικασία με ένα επόμενο βήμα που ονομάζεται “λεπτή ρύθμιση”. Υποβάλλοντας ένα βίντεο πλήρους μήκους στο VLOGGER, αφού έχει ήδη “εκπαιδευτεί” στο MENTOR, μπορούν να αποτυπώσουν πιο ρεαλιστικά τις ιδιοσυγκρασίες της κίνησης του κεφαλιού ενός ατόμου, όπως το αναβοσβήσιμο: “Με τον καλύτερο συντονισμό του μοντέλου διάχυσης με περισσότερα δεδομένα , σε ένα μονόφθαλμο βίντεο ενός θέματος, το VLOGGER μπορεί να μάθει να αποτυπώνει καλύτερα την ταυτότητα, π.χ. όταν η εικόνα αναφοράς εμφανίζει τα μάτια κλειστά”, μια διαδικασία που η ομάδα αναφέρεται ως “εξατομίκευση”.

google-2024-vlogger-architecture — Το νευρωνικό δίχτυ του VLOGGER είναι ένας συνδυασμός δύο διαφορετικών νευρωνικών δικτύων. Ο πρώτος χρησιμοποιεί τη “μάσκα προσοχής” μέσω ενός μετασχηματιστή για να προβλέψει ποιες στάσεις πρέπει να συμβούν σε ένα καρέ βίντεο με βάση τον ήχο που προέρχεται από το ηχογραφημένο σήμα του ηχείου. Το δεύτερο νευρωνικό δίχτυ χρησιμοποιεί τη διάχυση για να δημιουργήσει μια συνεπή ακολουθία πλαισίων βίντεο χρησιμοποιώντας τις ενδείξεις κίνησης και έκφρασης του σώματος από το πρώτο νευρικό δίκτυο.

Google

Το μεγαλύτερο σημείο αυτής της προσέγγισης — η σύνδεση των προβλέψεων σε ένα νευρωνικό δίκτυο με εικόνες υψηλής ανάλυσης και αυτό που κάνει το VLOGGER προκλητικό — είναι ότι το πρόγραμμα δεν δημιουργεί απλώς ένα βίντεο, όπως ο Sora. Το VLOGGER συνδέει αυτό το βίντεο με ενέργειες και εκφράσεις που μπορούν να ελεγχθούν. Τα ζωντανά βίντεό του μπορούν να χειραγωγηθούν καθώς ξετυλίγονται, σαν μαριονέτες.

Επίσης: Ο Διευθύνων Σύμβουλος της Nvidia, Jensen Huang, αποκαλύπτει την οικογένεια τσιπ επόμενης γενιάς «Blackwell» στο GTC

«Ο στόχος μας είναι να γεφυρώσουμε το χάσμα μεταξύ των πρόσφατων προσπαθειών σύνθεσης βίντεο», έγραψε η ομάδα της Corona, «που μπορούν να δημιουργήσουν δυναμικά βίντεο χωρίς έλεγχο της ταυτότητας ή της πόζας, και ελεγχόμενες μεθόδους δημιουργίας εικόνας».

Το VLOGGER όχι μόνο μπορεί να είναι ένα avatar που βασίζεται στη φωνή, αλλά μπορεί επίσης να οδηγήσει σε λειτουργίες επεξεργασίας, όπως η αλλαγή του στόματος ή των ματιών ενός θέματος που μιλάει. Για παράδειγμα, ένα εικονικό άτομο που αναβοσβήνει πολύ σε ένα βίντεο θα μπορούσε να αλλάξει σε λίγο ή καθόλου. Ο τρόπος ομιλίας με πλατύ στόμα θα μπορούσε να περιοριστεί σε μια πιο διακριτική κίνηση των χειλιών.

Έχοντας επιτύχει έναν τρόπο ελέγχου βίντεο υψηλής ανάλυσης μέσω φωνητικών ενδείξεων, το VLOGGER ανοίγει το δρόμο σε χειρισμούς, όπως η αλλαγή των κινήσεων των χειλιών του ηχείου σε κάθε τέντωμα του βίντεο ώστε να διαφέρει από το αρχικό βίντεο πηγής.

VLOGGER

Έχοντας επιτύχει μια νέα κατάσταση στην προσομοίωση ανθρώπων, το ερώτημα που δεν απαντά η ομάδα της Corona είναι τι πρέπει να περιμένει ο κόσμος από οποιαδήποτε κακή χρήση της τεχνολογίας. Είναι εύκολο να φανταστεί κανείς ομοιότητες μιας πολιτικής φιγούρας να λέει κάτι απολύτως καταστροφικό για, ας πούμε, τον επικείμενο πυρηνικό πόλεμο.

Προφανώς, το επόμενο στάδιο σε αυτό το παιχνίδι avatar θα είναι τα νευρωνικά δίκτυα που, όπως το ‘Δοκιμή Voight-KampffΣτην ταινία Blade Runner, μπορεί να βοηθήσει την κοινωνία να εντοπίσει ποια ηχεία είναι αληθινά και ποια είναι απλά ψεύτικα με εντυπωσιακά ρεαλιστικούς τρόπους.

Τι είναι καυτό

Η τιμή του Bitcoin (BTC) εξετάζει τις προσεχείς αποφάσεις πολιτικής της Κεντρικής Τράπεζας

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

Η τιμή του Dogecoin σε κίνδυνο καθώς οι αρκούδες ανεβαίνουν στον τοίχο πωλήσεων 92 εκατομμυρίων $

Το μοντέλο VLOGGER AI της Google μπορεί να δημιουργήσει είδωλα βίντεο από εικόνες – τι μπορεί να πάει στραβά;

Η τιμή του Bitcoin (BTC) εξετάζει τις προσεχείς αποφάσεις πολιτικής της Κεντρικής Τράπεζας

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

Τι είναι το μετασύμπαν; Το ουσιώδες

Leave A Reply Cancel Reply

🚀 Unisat Studio: Ο απόλυτος προορισμός σας για BRC20 Tokens και δημιουργία NFT! 🚀 | από Blessingamen | Ιανουάριος, 2024

🔮 Αργή τεχνητή νοημοσύνη; Chatbot θεραπευτές. Παραπληροφόρηση; Blockchain γένεση; Μακρύς Covid ++ #458

👨‍❤️‍👩”Είχα δίκιο αυτή τη μέρα:” Ο 51χρονος σύζυγος εντόπισε το εγκεφαλικό της γυναίκας

🌟🆓 DePioneers Airdrop : Το πρώτο υβριδικό DePIN DAO NFT 🌟🆓 | από το Πρωτόκολλο Alvara | Μάιος, 2024

Κερδίστε ένα νέο Samsung Galaxy Watch 7 για 49,99 $, εάν ανταλλάξετε το παλιό σας smartwatch

Η Casper Labs αποκαλύπτει τη λύση Blockchain για Διακυβέρνηση AI

Συνδυάζει βιομιμητισμό με τεχνολογία τεχνητής νοημοσύνης

Εγγραφείτε στις Ενημερώσεις

Τι είναι καυτό

Το μοντέλο VLOGGER AI της Google μπορεί να δημιουργήσει είδωλα βίντεο από εικόνες – τι μπορεί να πάει στραβά;

σχετικές αναρτήσεις

Leave A Reply Cancel Reply