Εδώ στο Ars, έχουμε καλύψει εδώ και καιρό το ενδιαφέρων δυνητικός και σημαντικός κίνδυνος (και περιστασιακή ανοησία) του βίντεο που δημιουργείται από AI όλο και πιο ρεαλιστικό ανθρώπινα είδωλα. Καλά, μπήκαμε ακόμη και στον κόπο φτιάχνοντας τον δικό μας “deepfake” Mark Zuckerberg το 2019όταν η υποκείμενη τεχνολογία δεν ήταν τόσο ισχυρή όσο είναι σήμερα.
Αλλά ακόμα και με όλο αυτό το υπόβαθρο, startup Κανάλι 1Το όραμα του για ένα εγγύς μέλλον όπου τα avatars που δημιουργούνται από AI σας διαβάζουν τα νέα ήταν λίγο σοκ για το σύστημα. Της εταιρείας πρόσφατο δελτίο ειδήσεων «βιτρίνας» απόδειξης της ιδέας αποκαλύπτει πόσο μακριά έχουν φτάσει τα βίντεο ανθρώπων που δημιουργήθηκαν από την τεχνητή νοημοσύνη σε σύντομο χρονικό διάστημα και πώς αυτά τα ρεαλιστικά είδωλα θα μπορούσαν να ταρακουνήσουν πολύ περισσότερα από την αγορά εργασίας για τα ομιλούντα κεφάλια.
«…οι εκφωνητές ειδήσεων έχουν αλλάξει για να προστατεύσουν τους αθώους»
Δείτε τα πλάνα τεχνητής νοημοσύνης με την υψηλότερη ποιότητα στον κόσμο.
🤯 – Οι παρουσιαστές μας άγκυρες παραδίδουν ιστορίες που είναι ενημερωτικές, εγκάρδιες και διασκεδαστικές.
Παρακολουθήστε το επεισόδιο βιτρίνας του επερχόμενου δικτύου ειδήσεων μας τώρα. pic.twitter.com/61TaG6Kix3
— Κανάλι 1 (@channel1_ai) 12 Δεκεμβρίου 2023
Για να είμαστε σαφείς, το Channel 1 δεν είναι προσπαθώντας να ξεγελάσει τον κόσμο με «deepfakes» των υπαρχόντων παρουσιαστών ειδήσεων ή κάτι τέτοιο. Στα πρώτα δευτερόλεπτα του δείγματος του δελτίου ειδήσεων, αναγνωρίζει τα κεφάλια που μιλάνε ως μια «ομάδα ρεπόρτερ που δημιουργείται από την τεχνητή νοημοσύνη». Λίγα δευτερόλεπτα αργότερα, ένα από αυτά τα κεφάλια που μιλάνε εξηγεί περαιτέρω: “Μπορείτε να μας ακούσετε και να δείτε τα χείλη μας να κινούνται, αλλά κανείς δεν καταγράφηκε να λέει αυτό που λέμε όλοι. Τροφοδοτούμαι από εξελιγμένα συστήματα στα παρασκήνια.”
Ακόμη και με τέτοιου είδους προειδοποιήσεις, ανακάλυψα ότι έπρεπε να υπενθυμίζω συνεχώς στον εαυτό μου ότι οι “άνθρωποι” που παρακολουθούσα να μεταδίδουν τις ειδήσεις εδώ βασίζονταν μόνο σε πραγματικούς ανθρώπους που έχουν αποζημιωθεί για τη χρήση της ομοιότητάς τους, όπως Αναφορές προθεσμίας (το πόσο αποζημιώθηκαν μάλλον θα απασχολήσει πολύ τους ηθοποιούς που προχώρησε πρόσφατα σε απεργία εν μέρει σχετικά με το ζήτημα των ομοιοτήτων AI). Τα πάντα, από τον συγχρονισμό των χειλιών έως τους τονισμούς έως τις ανεπαίσθητες χειρονομίες και τις κινήσεις του σώματος αυτών των παρουσιαστών του Καναλιού 1 προσφέρουν μια παράξενα πειστική παρουσίαση ενός πραγματικού παρουσιαστή ειδήσεων που μιλάει στην κάμερα.
Σίγουρα, αν κοιτάξετε προσεκτικά, υπάρχουν μερικές ενδεικτικές ανωμαλίες που εκθέτουν αυτούς τους δημοσιογράφους ως δημιουργίες υπολογιστή—ελαφρές παραμορφώσεις βίντεο γύρω από το στόμα, ας πούμε, ή υπερβολικά επαναλαμβανόμενες χειρονομίες ή μια ανόητη επιλογή έμφασης λέξης. Αλλά αυτά τα σημάδια είναι τόσο μικρά που θα ήταν εύκολο να τα χάσετε με μια απλή ματιά ή σε μια μικρή οθόνη όπως αυτή ενός τηλεφώνου.
Με άλλα λόγια, τα ανθρώπινα είδωλα της τεχνητής νοημοσύνης φαίνονται τώρα σε καλό δρόμο για να βγουν από το παράξενη κοιλάδα, τουλάχιστον όταν πρόκειται για παρουσιαστές ειδήσεων που κάθονται σε ένα γραφείο ή στέκονται ακίνητοι μπροστά σε μια πράσινη οθόνη. Ο επενδυτής του Channel 1 Adam Mosam είπε στο Deadline ότι “έχει φτάσει σε ένα μέρος όπου είναι άνετο να το παρακολουθείς” και πρέπει να πω ότι συμφωνώ.
Η ίδια τεχνολογία μπορεί να εφαρμοστεί και σε βίντεο ειδήσεων επί σκηνής. Περίπου οκτώ λεπτά μετά το δείγμα του δελτίου ειδήσεων, το Channel 1 δείχνει ένα βίντεο ενός θύματος ευρωπαϊκής τροπικής καταιγίδας που περιγράφει τα συντρίμμια στα γαλλικά. Στη συνέχεια, δείχνει μια έκδοση του ίδιου πλάνα που δημιουργήθηκε από την τεχνητή νοημοσύνη με την πηγή να μιλά τέλεια αγγλικά, χρησιμοποιώντας ένα φαξ της αρχικής φωνής του και τεχνητό lipsync τοποθετημένο στο στόμα του.
Χωρίς την προειδοποίηση στην οθόνη ότι πρόκειται για “Γλώσσα που δημιουργήθηκε με AI: Μετάφραση από τα Γαλλικά”, θα ήταν εύκολο να πιστέψουμε ότι το βίντεο αφορούσε έναν Αμερικανό ομογενή και όχι έναν γηγενή Γαλλικό ομιλητή. Και το αποτέλεσμα είναι πολύ πιο δραματικό από τη συνηθισμένη πρακτική των ειδήσεων της τηλεόρασης να μιλάει ένας αόρατος διερμηνέας πάνω από το υλικό.