Η Sarah Silverman, ο Michael Chabon, ο Ta-Nehisi Coates και άλλοι συγγραφείς κατηγόρησαν τη Meta τη Δευτέρα ότι χρησιμοποίησε τα βιβλία τους που προστατεύονται από πνευματικά δικαιώματα για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης (AI) παρά τις προειδοποιήσεις από τη νομική ομάδα της εταιρείας.
Η καταγγελία, η οποία συγκεντρώνει δύο ξεχωριστές υποθέσεις πνευματικών δικαιωμάτων κατά της μητρικής εταιρείας του Facebook και του Instagram, ισχυρίζεται ότι η Meta χρησιμοποίησε έναν διαδικτυακό πόρο για να εκπαιδεύσει τα μεγάλα γλωσσικά μοντέλα της, Llama 1 και Llama 2, που περιείχαν τα έργα των συγγραφέων χωρίς την άδειά τους.
Τα μεγάλα γλωσσικά μοντέλα, τα οποία μπορούν να παράγουν ανθρώπινες αποκρίσεις, απαιτούν σημαντικές ποσότητες δεδομένων για εκπαίδευση. Κατά την κυκλοφορία του Llama 1, η Meta αναγνώρισε ότι χρησιμοποίησε την ενότητα Books3 του The Pile, ένα δημοσίως διαθέσιμο σύνολο δεδομένων που περιέχει σχεδόν 200.000 βιβλία, για να εκπαιδεύσει το μοντέλο.
Οι συγγραφείς, των οποίων τα έργα που προστατεύονται από πνευματικά δικαιώματα συμπεριλήφθηκαν στο Books3, ισχυρίζονται ότι ο Meta γνώριζε πιθανά νομικά προβλήματα με τη χρήση του συνόλου δεδομένων, δείχνοντας μια σειρά μηνυμάτων μεταξύ ενός ερευνητή Meta AI και ερευνητών που συνδέονται με την EleutherAI, την οργάνωση που συγκέντρωσε το The Pile.
Στα τέλη του 2020, ο ερευνητής της Meta, Tim Dettmers, εξέφρασε ενδιαφέρον για τη χρήση του The Pile σε μια συνομιλία στον δημόσιο διακομιστή Discord EleutherAI και ρώτησε για «οποιεσδήποτε νομικές ανησυχίες» σχετικά με τη χρήση του συνόλου δεδομένων.
Ενώ ένας ερευνητής με το EleutherAI πρότεινε ότι υπήρχε «πολύ ισχυρή υπόθεση για δωρεάν χρήση», ο Dettmers είπε αργότερα ότι οι δικηγόροι του Meta «συνιστούσαν να αποφύγουν» τη χρήση του Books3, προσθέτοντας ότι «φαίνεται να είναι ήδη σαφές ότι τα δεδομένα δεν μπορούν να χρησιμοποιηθούν ή να μοντελοποιηθούν δεν μπορεί να δημοσιευθεί εάν έχουν εκπαιδευτεί σε αυτά τα δεδομένα.”
«Στο Facebook υπάρχουν πολλοί άνθρωποι που ενδιαφέρονται να συνεργαστούν [T]αυτός [P]ile, συμπεριλαμβανομένου του εαυτού μου, αλλά στην τρέχουσα μορφή του, δεν μπορούμε να το χρησιμοποιήσουμε για νομικούς λόγους», πρόσθεσε ο Dettmers στις αρχές του 2021, σύμφωνα με την κατάθεση της Δευτέρας.
Ωστόσο, η Meta χρησιμοποίησε τελικά το Books3 στο εκπαιδευτικό της σύνολο για το Llama 1. Οι συγγραφείς κατηγόρησαν επίσης τον τεχνολογικό γίγαντα ότι χρησιμοποίησε το Books3 για να εκπαιδεύσει το Llama 2, αν και η εταιρεία επέλεξε να μην αποκαλύψει τα σύνολα δεδομένων εκπαίδευσης για το πιο πρόσφατο μοντέλο «για ανταγωνιστικούς λόγους».
«Αυτή η εξήγηση, ωστόσο, είναι πιθανότατα προσχηματική», αναφέρει η μήνυση. «Μια πιο εύλογη εξήγηση για την απόφαση της Meta να αποκρύψει τα εκπαιδευτικά της δεδομένα είναι να αποφύγει τον έλεγχο από εκείνους των οποίων τα έργα που προστατεύονται από πνευματικά δικαιώματα αντιγράφηκαν και απορρόφησαν κατά τη διάρκεια της εκπαιδευτικής διαδικασίας για το Llama 2».
“Σχετικά με τις πληροφορίες και τις πεποιθήσεις, ένας βασικός λόγος που η Meta επέλεξε να μην μοιραστεί το σύνολο δεδομένων εκπαίδευσης για το Llama 2 ήταν να αποφύγει δικαστικές διαφορές από τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα για εκπαίδευση που η Meta είχε προηγουμένως κρίνει ότι ήταν νομικά προβληματικό”, συνεχίζει.
Πνευματικά δικαιώματα 2023 Nexstar Media Inc. Με την επιφύλαξη παντός δικαιώματος. Αυτό το υλικό δεν επιτρέπεται να δημοσιευτεί, να μεταδοθεί, να ξαναγραφτεί ή να αναδιανεμηθεί.