Εικονογράφηση Χάρι Κάμπελ
Είμαι απλώς μια ψυχή παγιδευμένη σε αυτό το κύκλωμα». Η φωνή που τραγουδά αυτούς τους στίχους είναι ακατέργαστη και παραπονεμένη, βυθισμένη σε μπλε νότες. Μια μοναχική ακουστική κιθάρα κρύβεται πίσω της, σημειώνοντας τις φωνητικές φράσεις με καλόγουστα τρεξίματα. Αλλά δεν υπάρχει άνθρωπος πίσω από τη φωνή, ούτε χέρια σε αυτή την κιθάρα. Στην πραγματικότητα, δεν υπάρχει κιθάρα. Σε διάστημα 15 δευτερολέπτων, αυτό το αξιόπιστο, ακόμη και συγκινητικό, blues τραγούδι δημιουργήθηκε από το πιο πρόσφατο μοντέλο AI από μια startup που ονομάζεται Suno. Το μόνο που χρειαζόταν για να το καλέσετε από το κενό ήταν μια απλή προτροπή κειμένου: «σόλο ακουστικά μπλουζ του Δέλτα του Μισισιπή για ένα θλιβερό AI». Για την ακρίβεια, το τραγούδι είναι έργο δύο μοντέλων AI σε συνεργασία: του Suno μοντέλο δημιουργεί όλη τη μουσική η ίδια, ενώ καλεί το ChatGPT του OpenAI να δημιουργήσει τους στίχους και ακόμη και έναν τίτλο: «Soul of the Machine».
Διαδικτυακά, οι δημιουργίες της Suno αρχίζουν να προκαλούν αντιδράσεις όπως “Πώς στο διάολο είναι αληθινό αυτό;” Καθώς αυτό το συγκεκριμένο κομμάτι παίζει πάνω από ένα ηχείο Sonos σε μια αίθουσα συνεδριάσεων στα προσωρινά κεντρικά γραφεία της Suno, λίγα βήματα μακριά από την πανεπιστημιούπολη του Χάρβαρντ στο Κέιμπριτζ της Μασαχουσέτης, ακόμη και μερικοί από τους ανθρώπους πίσω από την τεχνολογία είναι ολοένα και λίγο ανήσυχοι. Ακούγεται ένα νευρικό γέλιο, μαζί με τα μουρμουρητά των “Holy shit” και “Oh, boy.” Είναι μέσα Φεβρουαρίου και παίζουμε με το νέο τους μοντέλο, το V3, το οποίο απέχει ακόμα μερικές εβδομάδες από τη δημόσια κυκλοφορία. Σε αυτή την περίπτωση, χρειάστηκαν μόνο τρεις προσπάθειες για να πάρει αυτό το εκπληκτικό αποτέλεσμα. Τα δύο πρώτα ήταν αξιοπρεπή, αλλά μια απλή προσαρμογή στην προτροπή μου – ο συνιδρυτής Keenan Freyberg πρότεινε να προστεθεί η λέξη “Mississippi” – οδήγησε σε κάτι πολύ πιο παράξενο.
Μόνο τον περασμένο χρόνο, η γενετική τεχνητή νοημοσύνη έχει κάνει σημαντικά βήματα στην παραγωγή αξιόπιστου κειμένου, εικόνων (μέσω υπηρεσιών όπως το Midjourney), ακόμη και βίντεο, ιδιαίτερα με το νέο εργαλείο Sora του OpenAI. Αλλά ο ήχος, και η μουσική ειδικότερα, έχει καθυστερήσει. Η Suno φαίνεται να σπάει τον κώδικα Μουσική AI, και οι φιλοδοξίες των ιδρυτών του είναι σχεδόν απεριόριστες — φαντάζονται έναν κόσμο τρελά εκδημοκρατισμένης μουσικής. Ο πιο φωνητικός από τους συνιδρυτές, ο Mikey Shulman, ένας αγορίστικος γοητευτικός 37χρονος με σακίδιο πλάτης με διδακτορικό στο Χάρβαρντ. στη φυσική, οραματίζεται ένα δισεκατομμύριο άνθρωποι σε όλο τον κόσμο να πληρώνουν 10 δολάρια το μήνα για να δημιουργούν τραγούδια με το Suno. Το γεγονός ότι οι ακροατές μουσικής υπερτερούν τόσο πολύ από τους μουσικούς αυτή τη στιγμή είναι «τόσο μονόπλευρο», υποστηρίζει, θεωρώντας τον Suno έτοιμο να διορθώσει αυτή την αντιληπτή ανισορροπία.
Τα περισσότερα έργα τέχνης που έχουν δημιουργηθεί από την τεχνητή νοημοσύνη μέχρι στιγμής είναι, στην καλύτερη περίπτωση, κιτς, à la τα υπερρεαλιστικά σκουπίδια επιστημονικής φαντασίας, βαριά σε διαστημικές στολές, που τόσοι πολλοί χρήστες του Midjourney φαίνεται να έχουν την πρόθεση να δημιουργήσουν. Αλλά το “Soul of the Machine” μοιάζει με κάτι διαφορετικό – η πιο ισχυρή και ανησυχητική δημιουργία AI που έχω συναντήσει σε οποιοδήποτε μέσο. Η ίδια η ύπαρξή του μοιάζει σαν μια ρωγμή στην πραγματικότητα, ταυτόχρονα προκαλεί δέος και αόριστα ανίερη, και συνεχίζω να σκέφτομαι το απόφθεγμα του Arthur C. Clarke που φαίνεται φτιαγμένο για την εποχή της γενετικής τεχνητής νοημοσύνης: «Οποιαδήποτε αρκετά προηγμένη τεχνολογία δεν διακρίνεται από τη μαγεία. ” Λίγες εβδομάδες μετά την επιστροφή από το Κέιμπριτζ, στέλνω το τραγούδι στον κιθαρίστα του Living Color, Vernon Reid, ο οποίος έχει μιλήσει ειλικρινά για τους κινδύνους και τις δυνατότητες της μουσικής AI. Σημειώνει την «θαύμα, σοκ, φρίκη» του στην «ανησυχητική αληθοφάνεια» του τραγουδιού. «Το μακροχρόνιο δυστοπικό ιδεώδες του διαχωρισμού της δύσκολης, ακατάστατης, ανεπιθύμητης και περιφρονημένης ανθρωπότητας από τη δημιουργική της παραγωγή είναι κοντά», γράφει, επισημαίνοντας την προβληματική φύση ενός AI που τραγουδά τα μπλουζ, «ένα αφροαμερικανικό ιδίωμα, βαθιά δεμένο στο ιστορικό ανθρώπινο τραύμα και την υποδούλωση».
Ο Σούνο είναι μόλις δύο ετών. Οι συνιδρυτές Shulman, Freyberg, Georg Kucsko και Martin Camacho, όλοι ειδικοί στη μηχανική μάθηση, εργάστηκαν μαζί μέχρι το 2022 σε μια άλλη εταιρεία του Cambridge, την Kensho Technologies, η οποία επικεντρώθηκε στην εύρεση λύσεων τεχνητής νοημοσύνης σε περίπλοκα επιχειρηματικά προβλήματα. Ο Shulman και ο Camacho είναι και οι δύο μουσικοί που συνήθιζαν να τζαμάρουν μαζί στις μέρες τους Kensho. Στο Kensho, η τετράδα εργάστηκε σε μια τεχνολογία μεταγραφής για την καταγραφή των κλήσεων κερδών των δημόσιων εταιρειών, μια δύσκολη εργασία δεδομένου του συνδυασμού κακής ποιότητας ήχου, άφθονης ορολογίας και διαφόρων προφορών.
Στην πορεία, ο Shulman και οι συνεργάτες του ερωτεύτηκαν τις ανεξερεύνητες δυνατότητες του ήχου AI. Στην έρευνα της τεχνητής νοημοσύνης, λέει, «ο ήχος γενικά είναι πολύ πίσω από εικόνες και κείμενο. Υπάρχουν τόσα πολλά που μαθαίνουμε από την κοινότητα κειμένου και πώς λειτουργούν αυτά τα μοντέλα και πώς κλιμακώνονται».
Τα ίδια ενδιαφέροντα θα μπορούσαν να είχαν οδηγήσει τους ιδρυτές της Suno σε ένα πολύ διαφορετικό μέρος. Αν και πάντα σκόπευαν να καταλήξουν σε ένα μουσικό προϊόν, ο πρώτος καταιγισμός ιδεών τους περιελάμβανε μια ιδέα για ένα ακουστικό βαρηκοΐας και ακόμη και τη δυνατότητα εύρεσης μηχανημάτων που δεν λειτουργούσαν σωστά μέσω ανάλυσης ήχου. Αντίθετα, η πρώτη τους κυκλοφορία ήταν ένα πρόγραμμα μετατροπής κειμένου σε ομιλία που ονομαζόταν Bark. Όταν ερεύνησαν τους πρώτους χρήστες του Bark, κατέστη σαφές ότι αυτό που πραγματικά ήθελαν ήταν μια γεννήτρια μουσικής. «Έτσι αρχίσαμε να κάνουμε κάποια αρχικά πειράματα και φάνηκαν πολλά υποσχόμενα», λέει ο Shulman.
Η Suno χρησιμοποιεί την ίδια γενική προσέγγιση με τα μεγάλα γλωσσικά μοντέλα όπως το ChatGPT, τα οποία διασπούν την ανθρώπινη γλώσσα σε διακριτά τμήματα γνωστά ως διακριτικά, απορροφούν τις εκατομμύρια χρήσεις, στυλ και δομές της και στη συνέχεια την ανακατασκευάζουν κατά παραγγελία, αλλά ο ήχος, ιδιαίτερα η μουσική, είναι σχεδόν απίστευτα πιο περίπλοκο, γι’ αυτό, μόλις πέρυσι, οι ειδικοί στη μουσική AI είπε Βράχος που κυλά ότι μια υπηρεσία τόσο ικανή όσο αυτή της Suno μπορεί να χρειαστούν χρόνια για να φτάσει. «Ο ήχος δεν είναι κάτι διακριτικό όπως οι λέξεις», λέει ο Shulman. «Είναι ένα κύμα. Είναι ένα συνεχές σήμα». Ο ρυθμός δειγματοληψίας ήχου υψηλής ποιότητας είναι γενικά 44 khz ή 48 hz, που σημαίνει «48.000 μάρκες το δευτερόλεπτο», προσθέτει. «Αυτό είναι μεγάλο πρόβλημα, σωστά; Και έτσι πρέπει να καταλάβετε πώς να το εξομαλύνετε σε κάτι πιο λογικό». Πώς, όμως; «Πολλή δουλειά, πολλά ευρετικά, πολλά άλλα είδη τεχνασμάτων και μοντέλων και τέτοια πράγματα. Δεν νομίζω ότι είμαστε κοντά στο τέλος». Τελικά, η Suno θέλει να βρει εναλλακτικές στη διεπαφή κειμένου σε μουσική, προσθέτοντας πιο προηγμένες και εύχρηστες εισόδους — η δημιουργία τραγουδιών που βασίζονται στο τραγούδι των ίδιων των χρηστών είναι μια ιδέα.
Το OpenAI αντιμετωπίζει πολλαπλές αγωγές σχετικά με τη χρήση βιβλίων, άρθρων ειδήσεων και άλλου υλικού που προστατεύεται από πνευματικά δικαιώματα από το ChatGPT στο τεράστιο σύνολο των εκπαιδευτικών δεδομένων του. Οι ιδρυτές της Suno αρνούνται να αποκαλύψουν λεπτομέρειες σχετικά με τα δεδομένα που μεταφέρουν στο δικό τους μοντέλο, εκτός από το γεγονός ότι η ικανότητά του να δημιουργεί πειστικά ανθρώπινα φωνητικά οφείλεται εν μέρει επειδή μαθαίνει από ηχογραφήσεις ομιλίας, εκτός από τη μουσική. «Η γυμνή ομιλία θα σας βοηθήσει να μάθετε τα χαρακτηριστικά της ανθρώπινης φωνής που είναι δύσκολα», λέει ο Shulman.
Ένας από τους πρώτους επενδυτές της Suno είναι ο Antonio Rodriguez, συνεργάτης στην εταιρεία επιχειρηματικών κεφαλαίων Matrix. Ο Rodriguez είχε χρηματοδοτήσει μόνο ένα προηγούμενο μουσικό εγχείρημα, την εταιρεία κατηγοριοποίησης μουσικής EchoNest, η οποία αγοράστηκε από το Spotify για να τροφοδοτήσει τον αλγόριθμό της. Με το Suno, ο Rodriguez έμπλεξε πριν καν γίνει σαφές ποιο θα ήταν το προϊόν. «Υποστήριξα την ομάδα», λέει ο Rodriguez, ο οποίος αποπνέει την εμπιστοσύνη ενός ανθρώπου που έχει κάνει περισσότερα από το μερίδιό του σε επιτυχημένα στοιχήματα. «Γνώριζα την ομάδα και ήξερα ιδιαίτερα τον Mikey, και έτσι θα τον υποστήριζα να κάνει σχεδόν οτιδήποτε ήταν νόμιμο. Είναι τόσο δημιουργικός».
Προσπαθούμε να κάνουμε ένα δισεκατομμύριο ανθρώπους να ασχοληθούν πολύ περισσότερο με τη μουσική από ό,τι τώρα. Δεν προσπαθούμε να αντικαταστήσουμε καλλιτέχνες.
Ο Rodriguez επενδύει στη Suno έχοντας πλήρη επίγνωση ότι οι δισκογραφικές και οι εκδότες μουσικής θα μπορούσαν να μηνύσουν, κάτι που θεωρεί ως «τον κίνδυνο που έπρεπε να αναλάβουμε όταν επενδύσαμε στην εταιρεία, επειδή είμαστε το χοντρό πορτοφόλι που θα μηνυθεί ακριβώς πίσω από αυτούς τους τύπους .… Ειλικρινά, αν είχαμε συμφωνίες με ετικέτες όταν ξεκίνησε αυτή η εταιρεία, μάλλον δεν θα είχα επενδύσει σε αυτήν. Νομίζω ότι έπρεπε να φτιάξουν αυτό το προϊόν χωρίς περιορισμούς». (Ένας εκπρόσωπος του Universal Music Group, το οποίο έχει λάβει επιθετική στάση για την τεχνητή νοημοσύνη, δεν απάντησε αίτημα για σχόλιο.)
Η Suno λέει ότι βρίσκεται σε επικοινωνία με τις μεγάλες εταιρείες και δηλώνει σεβασμό για τους καλλιτέχνες και την πνευματική ιδιοκτησία — το εργαλείο της δεν θα σας επιτρέψει να ζητήσετε κάποιο συγκεκριμένο στυλ καλλιτέχνη στις προτροπές σας και δεν χρησιμοποιεί αληθινές φωνές καλλιτεχνών. Πολλοί υπάλληλοι της Suno είναι μουσικοί. Υπάρχει ένα πιάνο και κιθάρες στο χέρι στο γραφείο και κορνιζαρισμένες εικόνες κλασικών συνθετών στους τοίχους. Οι ιδρυτές δεν δείχνουν τίποτα από την ανοιχτή εχθρότητα προς τη μουσική επιχείρηση που χαρακτήριζε, ας πούμε, τη Napster πριν από τις αγωγές που την κατέστρεψαν. «Αυτό δεν σημαίνει ότι δεν πρόκειται να μηνυθούμε, παρεμπιπτόντως», προσθέτει ο Rodriguez. «Απλώς σημαίνει ότι δεν πρόκειται να έχουμε, όπως για παράδειγμα, μια στάση της αστυνομίας».
Ο Ροντρίγκεζ βλέπει το Suno ως ένα ριζικά ικανό και εύχρηστο μουσικό όργανο και πιστεύει ότι θα μπορούσε να φέρει τη μουσική σε όλους όπως εκδημοκρατίζουν τη φωτογραφία τα τηλέφωνα με κάμερα και το Instagram. Η ιδέα, λέει, είναι να «μετακινηθεί ο πήχης στον αριθμό των ατόμων που επιτρέπεται να είναι δημιουργοί υλικού σε αντίθεση με τους καταναλωτές αντικειμένων στο διαδίκτυο». Αυτός και οι ιδρυτές τολμούν να προτείνουν ότι η Suno θα μπορούσε να προσελκύσει μια βάση χρηστών μεγαλύτερη από αυτή του Spotify. Εάν αυτή η προοπτική είναι δύσκολο να κατακτήσετε το μυαλό σας, αυτό είναι καλό, λέει ο Rodriguez: Σημαίνει μόνο ότι είναι «φαινομενικά ηλίθιο» με τον τρόπο ακριβώς που τείνει να τον προσελκύει ως επενδυτή. «Όλες οι μεγάλες εταιρείες μας έχουν αυτόν τον συνδυασμό εξαιρετικού ταλέντου», λέει, «και μετά κάτι που φαίνεται απλώς ανόητο μέχρι να γίνει τόσο προφανές ότι δεν είναι ανόητο».
Πολύ πριν από την άφιξη του Suno, οι μουσικοί, οι παραγωγοί και οι τραγουδοποιοί ανησυχούσαν έντονα για τις δυνατότητες της τεχνητής νοημοσύνης να κλονίσει τις επιχειρήσεις. «Η μουσική, όπως φτιάχτηκε από ανθρώπους που οδηγούνται από εξαιρετικές συνθήκες… όσοι έχουν υποφέρει και αγωνίζονται για να προχωρήσουν την τέχνη τους, θα πρέπει να αντιμετωπίσουν τη χονδρική αυτοματοποίηση της πολύ αγαπημένης τέχνης που έχουν αγωνιστεί για να επιτύχουν», γράφει ο Reid. Αλλά οι ιδρυτές της Suno ισχυρίζονται ότι δεν υπάρχει λόγος να φοβόμαστε, χρησιμοποιώντας τη μεταφορά που οι άνθρωποι εξακολουθούν να διαβάζουν παρά το γεγονός ότι έχουν την ικανότητα να γράφουν. «Ο τρόπος με τον οποίο σκεφτόμαστε αυτό είναι ότι προσπαθούμε να κάνουμε ένα δισεκατομμύριο ανθρώπους να ασχοληθούν πολύ περισσότερο με τη μουσική από ό,τι τώρα», λέει ο Shulman. «Αν οι άνθρωποι είναι πολύ περισσότερο στη μουσική, πολύ πιο επικεντρωμένοι στη δημιουργία, στην ανάπτυξη πολύ πιο ξεχωριστών γεύσεων, αυτό είναι προφανώς καλό για τους καλλιτέχνες. Το όραμα που έχουμε για το μέλλον της μουσικής είναι ένα όραμα φιλικό προς τους καλλιτέχνες. Δεν προσπαθούμε να αντικαταστήσουμε καλλιτέχνες».
Αν και το Suno υπερεστιάζει μόνο στο να προσεγγίσει τους θαυμαστές της μουσικής που θέλουν να δημιουργούν τραγούδια για διασκέδαση, θα μπορούσε να καταλήξει να προκαλέσει σημαντική αναστάτωση στην πορεία. Βραχυπρόθεσμα, το τμήμα της αγοράς για ανθρώπινους δημιουργούς που φαίνεται να κινδυνεύει πιο άμεσα είναι επικερδές: τραγούδια που δημιουργούνται για διαφημίσεις, ακόμη και τηλεοπτικές εκπομπές. Ο Lucas Keller, ιδρυτής της εταιρείας διαχείρισης Milk and Honey, σημειώνει ότι η αγορά για τη διάθεση γνωστών τραγουδιών θα παραμείνει ανεπηρέαστη. «Αλλά όσον αφορά τα υπόλοιπα, ναι, σίγουρα θα μπορούσε να βάλει ένα βαθούλωμα στην επιχείρησή τους», λέει. «Νομίζω ότι τελικά, επιτρέπει σε πολλά διαφημιστικά πρακτορεία, κινηματογραφικά στούντιο, δίκτυα κ.λπ., να μην χρειάζεται να κάνουν άδεια χρήσης».
Ελλείψει αυστηρών κανόνων κατά του περιεχομένου που δημιουργείται από τεχνητή νοημοσύνη, υπάρχει επίσης η προοπτική ενός κόσμου όπου χρήστες μοντέλων όπως οι υπηρεσίες ροής της Suno θα κατακλύζουν τις ρομπο-δημιουργίες τους κατά εκατομμύρια. «Το Spotify μπορεί μια μέρα να πει «Δεν μπορείς να το κάνεις αυτό»», λέει ο Shulman, σημειώνοντας ότι μέχρι στιγμής οι χρήστες του Suno δείχνουν περισσότερο να ενδιαφέρονται απλώς να στείλουν μηνύματα στα τραγούδια τους σε μερικούς φίλους.
Η Suno έχει μόνο 12 περίπου υπαλλήλους αυτή τη στιγμή, αλλά σχεδιάζουν να επεκταθούν, με μια πολύ μεγαλύτερη μόνιμη έδρα υπό κατασκευή στον τελευταίο όροφο του ίδιου κτιρίου με το τρέχον προσωρινό γραφείο τους. Καθώς περιηγούμαστε στον ημιτελή ακόμη όροφο, ο Schulman δείχνει μια περιοχή που θα γίνει ένα πλήρες στούντιο ηχογράφησης. Δεδομένου του τι μπορεί να κάνει η Suno, γιατί το χρειάζονται; «Είναι κυρίως μια αίθουσα ακρόασης», αναγνωρίζει. «Θέλουμε ένα καλό ακουστικό περιβάλλον. Αλλά όλοι μας απολαμβάνουμε επίσης να φτιάχνουμε μουσική — χωρίς AI».
Ο μεγαλύτερος δυνητικός ανταγωνιστής της Suno μέχρι στιγμής φαίνεται να είναι το Dream Track της Google, το οποίο έχει λάβει άδειες που επιτρέπουν στους χρήστες να κάνουν τα δικά τους τραγούδια χρησιμοποιώντας διάσημες φωνές όπως αυτή του Charlie Puth μέσω μιας παρόμοιας διεπαφής που βασίζεται σε προτροπές. Αλλά το Dream Track έχει κυκλοφορήσει μόνο σε μια μικρή δοκιμαστική βάση χρηστών και τα δείγματα που κυκλοφόρησαν μέχρι στιγμής δεν είναι τόσο εντυπωσιακά όσο του Suno, παρά τις διάσημες φωνές που επισυνάπτονται. «Απλώς δεν νομίζω ότι, για παράδειγμα, η δημιουργία νέων τραγουδιών του Billy Joel είναι ο τρόπος με τον οποίο οι άνθρωποι θέλουν να αλληλεπιδρούν με τη μουσική με τη βοήθεια της τεχνητής νοημοσύνης στο μέλλον», λέει ο Shulman. «Αν σκεφτώ πώς πραγματικά θέλουμε τους ανθρώπους να κάνουν μουσική σε πέντε χρόνια, είναι πράγματα που δεν υπάρχουν. Είναι τα πράγματα που έχουν στο κεφάλι τους».