Εκτιμώμενος χρόνος ανάγνωσης: 3-4 λεπτά
ΝΕΑ ΥΟΡΚΗ — Οι δικηγόροι της Meta Platforms την είχαν προειδοποιήσει για τους νομικούς κινδύνους της χρήσης χιλιάδες πειρατικά βιβλία για να εκπαιδεύσει τα μοντέλα AIαλλά η εταιρεία το έκανε ούτως ή άλλως, σύμφωνα με νέα κατάθεση αγωγής για παραβίαση πνευματικών δικαιωμάτων που είχε αρχικά ασκηθεί αυτό το καλοκαίρι.
Η νέα κατάθεση αργά το βράδυ της Δευτέρας συγκεντρώνει δύο αγωγές κατά της ιδιοκτήτριας του Facebook και του Instagram από την κωμική Σάρα Σίλβερμαν, τον βραβευμένο με Πούλιτζερ Μάικλ Τσαμπόν και άλλους εξέχοντες συγγραφείς, οι οποίοι ισχυρίζονται ότι ο Μέτα χρησιμοποίησε τα έργα τους χωρίς άδεια για να το εκπαιδεύσει. τεχνητή νοημοσύνη μοντέλο γλώσσας, Llama.
Ένας δικαστής στην Καλιφόρνια τον περασμένο μήνα απέρριψε μέρος της αγωγής του Silverman και έδειξε ότι θα έδινε στους συγγραφείς την άδεια να τροποποιήσουν τους ισχυρισμούς τους.
Ο Μέτα δεν απάντησε αμέσως σε αίτημα για σχόλια σχετικά με τους ισχυρισμούς.
Η νέα καταγγελία, που υποβλήθηκε τη Δευτέρα, περιλαμβάνει αρχεία καταγραφής συνομιλιών ενός ερευνητή συνδεδεμένου με τη Meta που συζητούσε την προμήθεια του συνόλου δεδομένων σε έναν διακομιστή Discord, ένα δυνητικά σημαντικό στοιχείο που δείχνει ότι η Meta γνώριζε ότι η χρήση των βιβλίων μπορεί να μην προστατεύεται από τις ΗΠΑ. νόμος περί πνευματικών δικαιωμάτων.
Στα αρχεία καταγραφής συνομιλιών που αναφέρονται στην καταγγελία, ο ερευνητής Tim Dettmers περιγράφει την επικοινωνία του με το νομικό τμήμα της Meta σχετικά με το εάν η χρήση των αρχείων βιβλίων ως δεδομένων εκπαίδευσης θα ήταν “νομικά εντάξει”.
«Στο Facebook, υπάρχουν πολλοί άνθρωποι που ενδιαφέρονται να συνεργαστούν με τον (T)he (P)ile, συμπεριλαμβανομένου και εμένα, αλλά στην τρέχουσα μορφή του, δεν μπορούμε να το χρησιμοποιήσουμε για νομικούς λόγους», έγραψε ο Dettmers το 2021, αναφερόμενος στο ένα σύνολο δεδομένων που η Meta αναγνώρισε ότι χρησιμοποίησε για να εκπαιδεύσει την πρώτη της έκδοση του Llama, σύμφωνα με την καταγγελία.
Τον προηγούμενο μήνα, ο Dettmers έγραψε ότι οι δικηγόροι του Meta του είχαν πει “τα δεδομένα δεν μπορούν να χρησιμοποιηθούν ή τα μοντέλα δεν μπορούν να δημοσιευτούν εάν έχουν εκπαιδευτεί σε αυτά τα δεδομένα”, ανέφερε η καταγγελία.
Αν και ο Dettmers δεν περιγράφει τις ανησυχίες των δικηγόρων, οι ομόλογοί του στη συνομιλία προσδιορίζουν τα “βιβλία με ενεργά πνευματικά δικαιώματα” ως τη μεγαλύτερη πιθανή πηγή ανησυχίας. Λένε ότι η εκπαίδευση σχετικά με τα δεδομένα θα πρέπει «να εμπίπτει στη δίκαιη χρήση», ένα νομικό δόγμα των ΗΠΑ που προστατεύει ορισμένες μη αδειοδοτημένες χρήσεις έργων που προστατεύονται από πνευματικά δικαιώματα.
Ο Ντέτμερς, διδακτορικός φοιτητής στο Πανεπιστήμιο της Ουάσιγκτον, είπε στο Reuters ότι δεν ήταν άμεσα σε θέση να σχολιάσει τους ισχυρισμούς.
Οι εταιρείες τεχνολογίας αντιμετωπίζουν σωρεία αγωγών φέτος από δημιουργούς περιεχομένου που τις κατηγορούν ότι άρπαξαν έργα που προστατεύονται από πνευματικά δικαιώματα για να δημιουργήσουν μοντέλα τεχνητής νοημοσύνης που προκάλεσαν παγκόσμια αίσθηση και προκάλεσαν φρενίτιδα επενδύσεων.
Εάν είναι επιτυχείς, αυτές οι περιπτώσεις θα μπορούσαν να αμβλύνουν τη γενεσιουργή τρέλα της τεχνητής νοημοσύνης, καθώς θα μπορούσαν να αυξήσουν το κόστος κατασκευής μοντέλων που απαιτούν δεδομένα, αναγκάζοντας τις εταιρείες AI να αποζημιώσουν καλλιτέχνες, συγγραφείς και άλλους δημιουργούς περιεχομένου για τη χρήση των έργων τους.
Ταυτόχρονα, νέοι προσωρινοί κανόνες στην Ευρώπη που ρυθμίζουν την τεχνητή νοημοσύνη θα μπορούσαν να αναγκάσουν τις εταιρείες να αποκαλύψουν τα δεδομένα που χρησιμοποιούν για να εκπαιδεύσουν τα μοντέλα τους, εκθέτοντάς τους ενδεχομένως σε μεγαλύτερο νομικό κίνδυνο.
Η Meta κυκλοφόρησε μια πρώτη έκδοση του μοντέλου της μεγάλης γλώσσας Llama τον Φεβρουάριο και δημοσίευσε μια λίστα με σύνολα δεδομένων που χρησιμοποιούνται για εκπαίδευση, συμπεριλαμβανομένης της “ενότητας Books3 του ThePile”. Το άτομο που συγκέντρωσε αυτό το σύνολο δεδομένων είπε αλλού ότι περιέχει 196.640 βιβλία, σύμφωνα με την καταγγελία.
Η εταιρεία δεν αποκάλυψε δεδομένα εκπαίδευσης για την τελευταία της έκδοση του μοντέλου, Llama 2, την οποία διέθεσε για εμπορική χρήση αυτό το καλοκαίρι.
Το Llama 2 είναι δωρεάν για χρήση για εταιρείες με λιγότερους από 700 εκατομμύρια μηνιαίους ενεργούς χρήστες. Η κυκλοφορία του θεωρήθηκε στον τομέα της τεχνολογίας ως μια πιθανή αλλαγή παιχνιδιών στην αγορά για παραγωγικό λογισμικό τεχνητής νοημοσύνης, απειλώντας να ανατρέψει την κυριαρχία παικτών όπως το OpenAI και η Google που χρεώνουν για τη χρήση των μοντέλων τους.