ο τεχνητή νοημοσύνη Η κοινότητα (AI) έχει γίνει τόσο καλή στην παραγωγή ψεύτικων κινούμενων εικόνων — ρίξτε μια ματιά στο Sora του OpenAIπου κυκλοφόρησε τον περασμένο μήνα, με τις γλαφυρές φανταστικές περιηγήσεις — που πρέπει να θέσουμε μια διανοητική και πρακτική ερώτηση: τι πρέπει να κάνουμε με όλα αυτά τα βίντεο;
Αυτή την εβδομάδα, ο μελετητής της Google, Enric Corona και οι συνεργάτες του απάντησαν: ελέγξτε τους χρησιμοποιώντας το εργαλείο μας VLOGGER. Το VLOGGER μπορεί να δημιουργήσει ένα βίντεο υψηλής ανάλυσης με άτομα που μιλούν με βάση μια φωτογραφία. Το πιο σημαντικό, το VLOGGER μπορεί να κάνει κίνηση στο βίντεο σύμφωνα με ένα δείγμα ομιλίας, πράγμα που σημαίνει ότι η τεχνολογία μπορεί να κάνει κίνηση στα βίντεο ως ελεγχόμενη ομοιότητα ενός ατόμου — ένα “άβαταρ” υψηλής πιστότητας.
Αυτό το εργαλείο θα μπορούσε να ενεργοποιήσει όλα τα είδη δημιουργιών. Στο απλούστερο επίπεδο, η ομάδα της Corona προτείνει ότι το VLOGGER θα μπορούσε να έχει μεγάλο αντίκτυπο στα avatars του γραφείου υποστήριξης, επειδή οι πιο ρεαλιστικοί συνθετικοί άνθρωποι που μιλάνε μπορούν «να αναπτύξουν ενσυναίσθηση». Προτείνουν ότι η τεχνολογία θα μπορούσε να «επιτρέψει εντελώς νέες περιπτώσεις χρήσης, όπως βελτιωμένη διαδικτυακή επικοινωνία, εκπαίδευση ή εξατομικευμένους εικονικούς βοηθούς».
Το VLOGGER θα μπορούσε επίσης να οδηγήσει σε ένα νέο σύνορο σε deepfakes, ομοιότητες που φαίνονται αληθινές που λένε και κάνουν πράγματα που ο πραγματικός άνθρωπος δεν έκανε ποτέ στην πραγματικότητα. Η ομάδα της Corona σκοπεύει να εξετάσει τις κοινωνικές επιπτώσεις του VLOGGER σε συμπληρωματικό υποστηρικτικό υλικό. Ωστόσο, αυτό το υλικό δεν είναι διαθέσιμο στη σελίδα GitHub του έργου. Το ZDNET επικοινώνησε με την Corona για να ρωτήσει σχετικά με το υποστηρικτικό υλικό, αλλά δεν είχε λάβει απάντηση κατά τη στιγμή της δημοσίευσης.
Όπως περιγράφεται στο επίσημο έγγραφο, “VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, η ομάδα της Corona στοχεύει να ξεπεράσει τις ανακρίβειες της τελευταίας τεχνολογίας στα avatar. «Η δημιουργία ρεαλιστικών βίντεο με ανθρώπους είναι ακόμα πολύπλοκη και ώριμη με τεχνουργήματα», έγραψε η ομάδα του Corona.
Η ομάδα σημείωσε ότι τα υπάρχοντα είδωλα βίντεο συχνά βγάζουν το σώμα και τα χέρια, δείχνοντας μόνο το πρόσωπο. Το VLOGGER μπορεί να δείξει ολόκληρους κορμούς μαζί με κινήσεις των χεριών. Άλλα εργαλεία συνήθως έχουν περιορισμένες παραλλαγές στις εκφράσεις του προσώπου ή στις στάσεις, προσφέροντας απλώς στοιχειώδη συγχρονισμό των χειλιών. Το VLOGGER μπορεί να δημιουργήσει «βίντεο υψηλής ανάλυσης με την κίνηση του κεφαλιού και του άνω μέρους του σώματος […] με πολύ διαφορετικές εκφράσεις προσώπου και χειρονομίες» και είναι «η πρώτη προσέγγιση για τη δημιουργία μιλούντων και κινούμενων ανθρώπων με εισροές ομιλίας».
Όπως εξήγησε η ερευνητική ομάδα, «είναι ακριβώς ο αυτοματισμός και ο συμπεριφορικός ρεαλισμός που [are] τι στοχεύουμε σε αυτή την εργασία: Το VLOGGER είναι μια πολυτροπική διεπαφή σε έναν ενσωματωμένο συνομιλητή, εξοπλισμένη με οπτική αναπαράσταση ήχου και κινούμενης εικόνας, με περίπλοκες εκφράσεις του προσώπου και αυξανόμενο επίπεδο κίνησης, σχεδιασμένο να υποστηρίζει φυσικές συνομιλίες με έναν άνθρωπο χρήστη .”
Το VLOGGER συγκεντρώνει μερικές πρόσφατες τάσεις στη βαθιά μάθηση.
Πολυτροπικότητα συγκλίνει τα εργαλεία τεχνητής νοημοσύνης με πολλές λειτουργίες μπορεί να απορροφήσει και να συνθέσει, συμπεριλαμβανομένων κειμένου και ήχου, και εικόνων και βίντεο.
Μεγάλα γλωσσικά μοντέλα όπως το GPT-4 του OpenAI καθιστούν δυνατή τη χρήση της φυσικής γλώσσας ως εισόδου για την προώθηση ενεργειών διαφόρων ειδών, είτε πρόκειται για τη δημιουργία παραγράφων κειμένου, ενός τραγουδιού ή μιας εικόνας.
Οι ερευνητές έχουν επίσης βρει πολλούς τρόπους για να δημιουργούν ρεαλιστικές εικόνες και βίντεο τα τελευταία χρόνια, βελτιώνοντας τη «διάχυση». Ο όρος προέρχεται από τη μοριακή φυσική και αναφέρεται στο πώς, καθώς αυξάνεται η θερμοκρασία, τα σωματίδια της ύλης μετατρέπονται από πολύ συγκεντρωμένα σε μια περιοχή σε πιο απλωμένα. Κατ’ αναλογία, τα κομμάτια των ψηφιακών πληροφοριών μπορούν να θεωρηθούν “διάχυτα” όσο πιο ασυνάρτητα γίνονται με τον ψηφιακό θόρυβο.
Επίσης: Μετακινηθείτε πάνω από το Gemini, η τεχνητή νοημοσύνη ανοιχτού κώδικα έχει τα δικά της κόλπα βίντεο
Η διάχυση AI εισάγει θόρυβο σε μια εικόνα και αναδομεί την αρχική εικόνα για να εκπαιδεύσει ένα νευρωνικό δίκτυο να βρει τους κανόνες με τους οποίους κατασκευάστηκε. Η διάχυση είναι η ρίζα της εντυπωσιακής διαδικασίας δημιουργίας εικόνων στο Stable Diffusion του Stability AI και στο DALL-E του OpenAI. Είναι επίσης ο τρόπος με τον οποίο το OpenAI δημιουργεί κομψά βίντεο στο Sora.
Για το VLOGGER, η ομάδα του Corona εκπαίδευσε ένα νευρωνικό δίκτυο για να συσχετίσει τον ήχο ενός ομιλητή με μεμονωμένα καρέ βίντεο αυτού του ηχείου. Η ομάδα συνδύασε μια διαδικασία διάχυσης ανακατασκευής του πλαισίου βίντεο από τον ήχο χρησιμοποιώντας μια άλλη πρόσφατη καινοτομία, το Transformer.
Το Transformer χρησιμοποιεί τη μέθοδο της προσοχής για να προβλέψει τα καρέ βίντεο με βάση τα καρέ που έχουν συμβεί στο παρελθόν, σε συνδυασμό με τον ήχο. Με την πρόβλεψη των ενεργειών, το νευρωνικό δίκτυο μαθαίνει να αποδίδει ακριβείς κινήσεις χεριών και σώματος και εκφράσεις του προσώπου, καρέ προς καρέ, σε συγχρονισμό με τον ήχο.
Το τελευταίο βήμα είναι να χρησιμοποιήσουμε τις προβλέψεις από αυτό το πρώτο νευρωνικό δίκτυο για να τροφοδοτήσουμε στη συνέχεια τη δημιουργία πλαισίων βίντεο υψηλής ανάλυσης χρησιμοποιώντας ένα δεύτερο νευρωνικό δίκτυο που χρησιμοποιεί επίσης διάχυση. Αυτό το δεύτερο βήμα είναι επίσης ένα σημάδι υψηλής ποιότητας στα δεδομένα.
Επίσης: Το Generative AI αποτυγχάνει σε αυτή την πολύ κοινή ικανότητα της ανθρώπινης σκέψης
Για να κάνει τις εικόνες υψηλής ανάλυσης, η ομάδα του Corona συνέταξε το MENTOR, ένα σύνολο δεδομένων που περιλαμβάνει 800.000 «ταυτότητες» βίντεο με άτομα που μιλούν. Το MENTOR αποτελείται από 2.200 ώρες βίντεο, το οποίο η ομάδα ισχυρίζεται ότι το καθιστά “το μεγαλύτερο σύνολο δεδομένων που έχει χρησιμοποιηθεί μέχρι σήμερα όσον αφορά την ταυτότητα και το μήκος” και είναι 10 φορές μεγαλύτερο από τα προηγούμενα συγκρίσιμα σύνολα δεδομένων.
Οι συγγραφείς βρίσκουν ότι μπορούν να βελτιώσουν αυτή τη διαδικασία με ένα επόμενο βήμα που ονομάζεται “λεπτή ρύθμιση”. Υποβάλλοντας ένα βίντεο πλήρους μήκους στο VLOGGER, αφού έχει ήδη “εκπαιδευτεί” στο MENTOR, μπορούν να αποτυπώσουν πιο ρεαλιστικά τις ιδιοσυγκρασίες της κίνησης του κεφαλιού ενός ατόμου, όπως το αναβοσβήσιμο: “Με τον καλύτερο συντονισμό του μοντέλου διάχυσης με περισσότερα δεδομένα , σε ένα μονόφθαλμο βίντεο ενός θέματος, το VLOGGER μπορεί να μάθει να αποτυπώνει καλύτερα την ταυτότητα, π.χ. όταν η εικόνα αναφοράς εμφανίζει τα μάτια κλειστά”, μια διαδικασία που η ομάδα αναφέρεται ως “εξατομίκευση”.
Το μεγαλύτερο σημείο αυτής της προσέγγισης — η σύνδεση των προβλέψεων σε ένα νευρωνικό δίκτυο με εικόνες υψηλής ανάλυσης και αυτό που κάνει το VLOGGER προκλητικό — είναι ότι το πρόγραμμα δεν δημιουργεί απλώς ένα βίντεο, όπως ο Sora. Το VLOGGER συνδέει αυτό το βίντεο με ενέργειες και εκφράσεις που μπορούν να ελεγχθούν. Τα ζωντανά βίντεό του μπορούν να χειραγωγηθούν καθώς ξετυλίγονται, σαν μαριονέτες.
«Ο στόχος μας είναι να γεφυρώσουμε το χάσμα μεταξύ των πρόσφατων προσπαθειών σύνθεσης βίντεο», έγραψε η ομάδα της Corona, «που μπορούν να δημιουργήσουν δυναμικά βίντεο χωρίς έλεγχο της ταυτότητας ή της πόζας, και ελεγχόμενες μεθόδους δημιουργίας εικόνας».
Το VLOGGER όχι μόνο μπορεί να είναι ένα avatar που βασίζεται στη φωνή, αλλά μπορεί επίσης να οδηγήσει σε λειτουργίες επεξεργασίας, όπως η αλλαγή του στόματος ή των ματιών ενός θέματος που μιλάει. Για παράδειγμα, ένα εικονικό άτομο που αναβοσβήνει πολύ σε ένα βίντεο θα μπορούσε να αλλάξει σε λίγο ή καθόλου. Ο τρόπος ομιλίας με πλατύ στόμα θα μπορούσε να περιοριστεί σε μια πιο διακριτική κίνηση των χειλιών.
Έχοντας επιτύχει μια νέα κατάσταση στην προσομοίωση ανθρώπων, το ερώτημα που δεν απαντά η ομάδα της Corona είναι τι πρέπει να περιμένει ο κόσμος από οποιαδήποτε κακή χρήση της τεχνολογίας. Είναι εύκολο να φανταστεί κανείς ομοιότητες μιας πολιτικής φιγούρας να λέει κάτι απολύτως καταστροφικό για, ας πούμε, τον επικείμενο πυρηνικό πόλεμο.
Προφανώς, το επόμενο στάδιο σε αυτό το παιχνίδι avatar θα είναι τα νευρωνικά δίκτυα που, όπως το ‘Δοκιμή Voight-KampffΣτην ταινία Blade Runner, μπορεί να βοηθήσει την κοινωνία να εντοπίσει ποια ηχεία είναι αληθινά και ποια είναι απλά ψεύτικα με εντυπωσιακά ρεαλιστικούς τρόπους.