I Ryu/Visual China Group/Getty Images
Μια πινακίδα της Microsoft εμφανίζεται στα κεντρικά γραφεία της εταιρείας στις 19 Μαρτίου 2023 στο Σιάτλ της Ουάσιγκτον.
Νέα Υόρκη
CNN
—
Η Μόνα Λίζα μπορεί πλέον να κάνει περισσότερα από το χαμόγελο, χάρη στη νέα τεχνολογία τεχνητής νοημοσύνης της Microsoft.
Την περασμένη εβδομάδα, οι ερευνητές της Microsoft εξέθεσαν ένα νέο μοντέλο τεχνητής νοημοσύνης που ανέπτυξαν, το οποίο μπορεί να τραβήξει μια ακίνητη εικόνα ενός προσώπου και ένα ηχητικό κλιπ κάποιου που μιλάει και να δημιουργήσει αυτόματα ένα ρεαλιστικό βίντεο του ατόμου που μιλάει. Τα βίντεο — τα οποία μπορούν να δημιουργηθούν από φωτορεαλιστικά πρόσωπα, καθώς και από κινούμενα σχέδια ή έργα τέχνης — είναι πλήρη με συναρπαστικό συγχρονισμό χειλιών και φυσικές κινήσεις προσώπου και κεφαλιού.
Σε ένα βίντεο επίδειξης, οι ερευνητές έδειξαν πώς έκαναν κινούμενα σχέδια στη Μόνα Λίζα για να απαγγέλλει ένα κωμικό ραπ από την ηθοποιό Αν Χάθαγουεϊ.
Έξοδοι από το μοντέλο AI, καλούνται VASA-1, είναι και διασκεδαστικά και λίγο ταραχώδη στην πραγματικότητά τους. Η Microsoft είπε ότι η τεχνολογία θα μπορούσε να χρησιμοποιηθεί για εκπαίδευση ή «βελτίωση της προσβασιμότητας για άτομα με επικοινωνιακές προκλήσεις» ή ενδεχομένως για τη δημιουργία εικονικών συντρόφων για ανθρώπους. Αλλά είναι επίσης εύκολο να δει κανείς πώς θα μπορούσε να γίνει κατάχρηση του εργαλείου και να χρησιμοποιηθεί για να πλαστοπροσωπηθεί πραγματικούς ανθρώπους.
Είναι μια ανησυχία που υπερβαίνει τη Microsoft: καθώς εμφανίζονται περισσότερα εργαλεία για τη δημιουργία πειστικών εικόνων, βίντεο και ήχου που δημιουργούνται από AI, οι ειδικοί ανησυχούν ότι η κακή χρήση τους θα μπορούσε να οδηγήσει σε νέες μορφές παραπληροφόρησης. Ορισμένοι ανησυχούν επίσης ότι η τεχνολογία θα μπορούσε να διαταράξει περαιτέρω τις δημιουργικές βιομηχανίες από τον κινηματογράφο έως τη διαφήμιση.
Προς το παρόν, η Microsoft είπε ότι δεν σκοπεύει να κυκλοφορήσει το μοντέλο VASA-1 στο κοινό αμέσως. Η κίνηση είναι παρόμοια με τον τρόπο με τον οποίο ο συνεργάτης της Microsoft OpenAI χειρίζεται τις ανησυχίες εργαλείο βίντεο που δημιουργείται από AISora: Το OpenAI πείραξε το Sora τον Φεβρουάριο, αλλά μέχρι στιγμής το έχει καταστήσει διαθέσιμο μόνο σε ορισμένους επαγγελματίες χρήστες και καθηγητές κυβερνοασφάλειας για σκοπούς δοκιμής.
«Είμαστε αντίθετοι σε οποιαδήποτε συμπεριφορά για τη δημιουργία παραπλανητικού ή επιβλαβούς περιεχομένου πραγματικών προσώπων», ανέφεραν οι ερευνητές της Microsoft σε μια ανάρτηση ιστολογίου. Ωστόσο, πρόσθεσαν, η εταιρεία «δεν σχεδιάζει να κυκλοφορήσει» το προϊόν δημόσια «μέχρι να είμαστε σίγουροι ότι η τεχνολογία θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με τους κατάλληλους κανονισμούς».
Το νέο μοντέλο τεχνητής νοημοσύνης της Microsoft εκπαιδεύτηκε σε πολυάριθμα βίντεο με τα πρόσωπα των ανθρώπων ενώ μιλούν και έχει σχεδιαστεί για να αναγνωρίζει τις φυσικές κινήσεις του προσώπου και του κεφαλιού, συμπεριλαμβανομένης της κίνησης των χειλιών, της έκφρασης (χωρίς τα χείλη), του βλέμματος των ματιών και του ανοιγοκλείματος, μεταξύ άλλων», ανέφεραν οι ερευνητές. Το αποτέλεσμα είναι ένα πιο ζωντανό βίντεο όταν το VASA-1 κάνει κίνηση σε μια ακίνητη φωτογραφία.
Για παράδειγμα, σε ένα βίντεο επίδειξης που έχει οριστεί σε ένα κλιπ με κάποιον που ακούγεται ταραγμένος, προφανώς ενώ παίζει βιντεοπαιχνίδια, το πρόσωπο που μιλάει έχει αυλακωμένα φρύδια και σφιγμένα χείλη.
Το εργαλείο AI μπορεί επίσης να κατευθυνθεί για την παραγωγή ενός βίντεο όπου το θέμα κοιτάζει προς μια συγκεκριμένη κατεύθυνση ή εκφράζει ένα συγκεκριμένο συναίσθημα.
Όταν κοιτάζετε προσεκτικά, εξακολουθούν να υπάρχουν ενδείξεις ότι τα βίντεο έχουν δημιουργηθεί από μηχανή, όπως σπάνια βλεφαρίσματα και υπερβολικές κινήσεις των φρυδιών. Ωστόσο, η Microsoft είπε ότι πιστεύει ότι το μοντέλο της «υπερέχει σημαντικά» άλλα παρόμοια εργαλεία και «ανοίγει το δρόμο για δεσμεύσεις σε πραγματικό χρόνο με ρεαλιστικά avatars που μιμούνται ανθρώπινες συμπεριφορές συνομιλίας».