Η Microsoft Research Asia έχει αποκαλύφθηκε ένα νέο πειραματικό Εργαλείο AI που ονομάζεται VASA-1 και μπορεί να τραβήξει μια ακίνητη εικόνα ενός ατόμου —ή το σχέδιο ενός— και ένα υπάρχον αρχείο ήχου για να δημιουργήσει ένα ζωντανό πρόσωπο που μιλάει σε πραγματικό χρόνο. Έχει την ικανότητα να δημιουργεί εκφράσεις του προσώπου και κινήσεις του κεφαλιού για μια υπάρχουσα ακίνητη εικόνα και τις κατάλληλες κινήσεις των χειλιών που ταιριάζουν με μια ομιλία ή ένα τραγούδι. Οι ερευνητές ανέβασαν έναν τόνο παραδειγμάτων στη σελίδα του έργου και τα αποτελέσματα φαίνονται αρκετά καλά ώστε να μπορούν να ξεγελάσουν τους ανθρώπους να πιστεύουν ότι είναι αληθινά.
Ενώ οι κινήσεις των χειλιών και του κεφαλιού στα παραδείγματα θα μπορούσαν ακόμα να φαίνονται λίγο ρομποτικές και μη συγχρονισμένες μετά από πιο προσεκτική εξέταση, είναι ακόμα σαφές ότι η τεχνολογία θα μπορούσε να χρησιμοποιηθεί κατάχρηση για την εύκολη και γρήγορη δημιουργία deepfake βίντεο πραγματικών ανθρώπων. Οι ίδιοι οι ερευνητές γνωρίζουν αυτό το δυναμικό και αποφάσισαν να μην κυκλοφορήσουν “μια διαδικτυακή επίδειξη, API, προϊόν, πρόσθετες λεπτομέρειες εφαρμογής ή οποιεσδήποτε σχετικές προσφορές” έως ότου βεβαιωθούν ότι η τεχνολογία τους “θα χρησιμοποιηθεί υπεύθυνα και σύμφωνα με την κατάλληλη Κανονισμοί.” Ωστόσο, δεν είπαν εάν σχεδιάζουν να εφαρμόσουν ορισμένες διασφαλίσεις για να αποτρέψουν τους κακούς ηθοποιούς από το να τις χρησιμοποιούν για κακόβουλους σκοπούς, όπως για τη δημιουργία ψεύτικο πορνό ή εκστρατείες παραπληροφόρησης.
Οι ερευνητές πιστεύουν ότι η τεχνολογία τους έχει έναν τόνο πλεονεκτημάτων παρά την πιθανότητα κακής χρήσης της. Είπαν ότι μπορεί να χρησιμοποιηθεί για τη βελτίωση της εκπαιδευτικής ισότητας, καθώς και για τη βελτίωση της προσβασιμότητας για όσους αντιμετωπίζουν προκλήσεις επικοινωνίας, ίσως δίνοντάς τους πρόσβαση σε ένα avatar που μπορεί να επικοινωνήσει για αυτούς. Μπορεί επίσης να παρέχει συντροφικότητα και θεραπευτική υποστήριξη σε όσους το χρειάζονται, είπαν, υπονοώντας ότι το VASA-1 θα μπορούσε να χρησιμοποιηθεί σε προγράμματα που προσφέρουν πρόσβαση σε χαρακτήρες AI με τους οποίους οι άνθρωποι μπορούν να μιλήσουν.
Σύμφωνα με την χαρτί που δημοσιεύτηκε με την ανακοίνωση, η VASA-1 εκπαιδεύτηκε στο VoxCeleb2 Dataset, το οποίο περιέχει “πάνω από 1 εκατομμύριο δηλώσεις για 6.112 διασημότητες” που εξήχθησαν από βίντεο του YouTube. Παρόλο που το εργαλείο εκπαιδεύτηκε σε πραγματικά πρόσωπα, λειτουργεί επίσης σε καλλιτεχνικές φωτογραφίες όπως η Μόνα Λίζα, τις οποίες οι ερευνητές συνδύασαν διασκεδαστικά με ένα αρχείο ήχου της viral απόδοσης της Anne Hathaway του Lil Wayne. Παπαράτσι. Είναι τόσο απολαυστικό, αξίζει να το παρακολουθήσετε, ακόμα κι αν αμφιβάλλετε για το πόσο καλό μπορεί να κάνει μια τεχνολογία όπως αυτή.
Αυτό το άρθρο περιέχει συνδέσμους συνεργατών. Εάν κάνετε κλικ σε έναν τέτοιο σύνδεσμο και κάνετε μια αγορά, ενδέχεται να κερδίσουμε μια προμήθεια.