Η DeepMind, το ερευνητικό εργαστήριο τεχνητής νοημοσύνης της Google, λέει ότι αναπτύσσει τεχνολογία τεχνητής νοημοσύνης για τη δημιουργία soundtrack για βίντεο.
Σε ένα Θέση στο επίσημο ιστολόγιό της, η DeepMind λέει ότι βλέπει την τεχνολογία, V2A (συντομογραφία «video-to-audio»), ως ουσιαστικό κομμάτι του παζλ πολυμέσων που δημιουργείται από την τεχνητή νοημοσύνη. Ενώ άφθονα οργ συμπεριλαμβανομένου του DeepMind έχουν αναπτύξει μοντέλα τεχνητής νοημοσύνης που δημιουργούν βίντεο, αυτά τα μοντέλα δεν μπορούν να δημιουργήσουν ηχητικά εφέ για συγχρονισμό με τα βίντεο που δημιουργούν.
«Τα μοντέλα παραγωγής βίντεο προχωρούν με απίστευτο ρυθμό, αλλά πολλά τρέχοντα συστήματα μπορούν να παράγουν μόνο αθόρυβη έξοδο», γράφει η DeepMind. «Τεχνολογία V2A [could] γίνει μια πολλά υποσχόμενη προσέγγιση για τη ζωή των ταινιών που δημιουργούνται».
Η τεχνολογία V2A της DeepMind ακολουθεί μια περιγραφή ενός soundtrack (π.χ. «μέδουσες που πάλλονται κάτω από το νερό, θαλάσσια ζωή, ωκεανός») σε συνδυασμό με ένα βίντεο για να δημιουργήσει μουσική, ηχητικά εφέ και ακόμη και διαλόγους που ταιριάζουν με τους χαρακτήρες και τον τόνο του βίντεο, υδατογραφημένο από τα deepfakes του DeepMind – καταπολέμηση SynthID τεχνολογία. Το μοντέλο AI που τροφοδοτεί το V2A — α διάχυση μοντέλο — εκπαιδεύτηκε σε συνδυασμό ήχων και μεταγραφών διαλόγων καθώς και βίντεο κλιπ, λέει ο DeepMind.
«Με την εκπαίδευση σε βίντεο, ήχο και πρόσθετους σχολιασμούς, η τεχνολογία μας μαθαίνει να συσχετίζει συγκεκριμένα ηχητικά συμβάντα με διάφορες οπτικές σκηνές, ενώ ανταποκρίνεται στις πληροφορίες που παρέχονται στους σχολιασμούς ή τις μεταγραφές», γράφει η DeepMind.
Η μαμά είναι ο λόγος για το εάν κάποιο από τα δεδομένα εκπαίδευσης προστατεύεται από πνευματικά δικαιώματα — και εάν οι δημιουργοί των δεδομένων ενημερώθηκαν για το έργο του DeepMind. Απευθυνθήκαμε στη DeepMind για διευκρίνιση και θα ενημερώσουμε αυτήν την ανάρτηση εάν λάβουμε νέα.
Τα εργαλεία παραγωγής ήχου που τροφοδοτούνται με AI δεν είναι καινοτόμα. Startup Stability AI απελευθερώθηκε ένα μόλις την περασμένη εβδομάδα και το ElevenLabs εκτοξεύτηκε ένα τον Μάιο. Ούτε τα μοντέλα για τη δημιουργία εφέ ήχου βίντεο. Μια Microsoft έργο μπορεί να δημιουργήσει βίντεο ομιλίας και τραγουδιού από ακίνητη εικόνα και πλατφόρμες όπως Πίκα και GenreX έχουν εκπαιδεύσει μοντέλα να τραβούν βίντεο και να μαντεύουν καλύτερα ποια μουσική ή εφέ είναι κατάλληλα σε μια δεδομένη σκηνή.
Αλλά η DeepMind ισχυρίζεται ότι η τεχνολογία V2A της είναι μοναδική στο ότι μπορεί να κατανοήσει τα ακατέργαστα pixel από ένα βίντεο και να συγχρονίσει αυτόματα τους ήχους που παράγονται με το βίντεο, προαιρετικά χωρίς περιγραφή.
Το V2A δεν είναι τέλειο — και το DeepMind το αναγνωρίζει αυτό. Επειδή το υποκείμενο μοντέλο δεν έχει εκπαιδευτεί σε πολλά βίντεο με τεχνουργήματα ή παραμορφώσεις, δεν δημιουργεί ήχο ιδιαίτερα υψηλής ποιότητας για αυτά. Και γενικά, ο ήχος που δημιουργείται δεν είναι σούπερ πειστικός; Η συνάδελφός μου Νατάσα Λόμας το περιέγραψε ως «ένα σαράκι στερεοτυπικών ήχων» και δεν μπορώ να πω ότι διαφωνώ.
Για αυτούς τους λόγους – και για να αποφευχθεί η κακή χρήση – η DeepMind λέει ότι δεν θα κυκλοφορήσει την τεχνολογία στο κοινό σύντομα, αν ποτέ.
«Για να βεβαιωθούμε ότι η τεχνολογία V2A μας μπορεί να έχει θετικό αντίκτυπο στη δημιουργική κοινότητα, συλλέγουμε διαφορετικές προοπτικές και ιδέες από κορυφαίους δημιουργούς και κινηματογραφιστές και χρησιμοποιούμε αυτά τα πολύτιμα σχόλια για να ενημερώσουμε τη συνεχιζόμενη έρευνα και ανάπτυξή μας», γράφει η DeepMind. «Προτού εξετάσουμε το ενδεχόμενο να ανοίξουμε την πρόσβαση σε αυτό στο ευρύτερο κοινό, η τεχνολογία V2A μας θα υποβληθεί σε αυστηρές αξιολογήσεις ασφάλειας και δοκιμές».
Το DeepMind παρουσιάζει την τεχνολογία V2A του ως ένα ιδιαίτερα χρήσιμο εργαλείο για αρχειονόμους και ανθρώπους που εργάζονται με ιστορικά πλάνα. Όμως, όπως έγραψα στο α κομμάτι σήμερα το πρωί, η γενετική τεχνητή νοημοσύνη σε αυτές τις γραμμές απειλεί επίσης να ανατρέψει τη βιομηχανία του κινηματογράφου και της τηλεόρασης. Θα χρειαστούν κάποια σοβαρά ισχυρά μέτρα προστασίας της εργασίας για να διασφαλιστεί ότι τα εργαλεία παραγωγής μέσων δεν καταργούν θέσεις εργασίας — ή, ανάλογα με την περίπτωση, ολόκληρα επαγγέλματα.