Αυτό το κατασκευασμένο πρόβλημα αναζητά κατασκευασμένες λύσεις.
Μαζική έλλειψη
Καθώς οι εταιρείες τεχνητής νοημοσύνης συνεχίζουν να χτίζουν μεγαλύτερα και καλύτερα μοντέλααντιμετωπίζουν ένα κοινό πρόβλημα: σύντομα, το διαδίκτυο δεν θα είναι αρκετά μεγάλο για να παρέχει όλα τα δεδομένα που χρειάζονται.
Όπως το Wall Street Journal Αναφορέςορισμένες εταιρείες αναζητούν εναλλακτικές πηγές εκπαίδευσης δεδομένων τώρα που το Διαδίκτυο γίνεται πολύ μικρό, με επιλογές όπως μεταγραφές βίντεο που είναι διαθέσιμες στο κοινό και ακόμη και “συνθετικά δεδομένα” που δημιουργούνται από τεχνητή νοημοσύνη.
Ενώ υπάρχουν ορισμένες εταιρείες, όπως η Dataology, η οποία ιδρύθηκε από τον πρώην ερευνητή της Meta και του Google DeepMind, Ari Morcos, που αναζητούν τρόπους εκπαίδευσης μεγαλύτερων και εξυπνότερων μοντέλων με λιγότερα δεδομένα και πόρους, οι περισσότερες μεγάλες εταιρείες αναζητούν νέα —και αμφιλεγόμενα— μέσα εκπαίδευσης δεδομένων.
Το OpenAI, για παράδειγμα, έχει σύμφωνα με το WSJΟι πηγές του συζήτησαν την εκπαίδευση του GPT-5 σε μεταγραφές από δημόσια βίντεο του YouTube — ακόμη και ως επικεφαλής τεχνολογίας, Mira Murati, παλεύει να απαντήσει σε ερωτήσεις σχετικά με το εάν η γεννήτρια βίντεο Sora εκπαιδεύτηκε χρησιμοποιώντας δεδομένα YouTube.
Μην πανικοβάλλεστε
Τα συνθετικά δεδομένα, εν τω μεταξύ, αποτέλεσαν αντικείμενο άφθονης συζήτησης τους τελευταίους μήνες, αφού οι ερευνητές ανακάλυψαν πέρυσι ότι η εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης σε δεδομένα που δημιουργούνται από την τεχνητή νοημοσύνη θα ήταν μια ψηφιακή μορφή “αιμομιξία“αυτό θα οδηγούσε τελικά σε”κατάρρευση μοντέλου” ή “Habsburg AI.”
Ορισμένες εταιρείες, όπως η OpenAI και η Anthropic, η οποία ιδρύθηκε από την OpenAI το 2021 σε προσπάθειες να δημιουργήστε μια ασφαλέστερη και πιο ηθική τεχνητή νοημοσύνη από εκείνα του πρώην εργοδότη τους, επιδιώκουν να το αποτρέψουν δημιουργώντας υποτιθέμενα συνθετικά δεδομένα υψηλότερης ποιότητας – αν και φυσικά, κανένα από τα δύο δεν αφήνει να πιέσει τη μυστική σάλτσα του τι ακριβώς θα συνεπαγόταν αυτό.
Πράγματι, ο Anthropic παραδέχτηκε όταν ανακοινώνοντας το Claude 3 LLM ότι το μοντέλο εκπαιδεύτηκε στα «δεδομένα που παράγουμε εσωτερικά» και σε μια συνέντευξη με WSJο επικεφαλής επιστήμονας της εταιρείας Jared Kaplan είπε ότι πιστεύει ότι υπάρχουν καλές περιπτώσεις χρήσης και για συνθετικά δεδομένα.
Ενώ φαίνεται ότι υπήρχαν ανησυχίες σχετικά με την εξάντληση δεδομένων της τεχνητής νοημοσύνης τρομακτικοί ερευνητές Για κάποια στιγμήο ερευνητής Pablo Villalobos είπε στην εφημερίδα ότι αν και η εταιρεία του, Epoch, έχει εκτιμήσει ότι η τεχνητή νοημοσύνη θα εξαντλήσει τα χρησιμοποιήσιμα δεδομένα εκπαίδευσης μέσα στα επόμενα χρόνια, δεν υπάρχει λόγος για πανικό.
«Η μεγαλύτερη αβεβαιότητα», είπε ο Villalobos, «είναι ποιες ανακαλύψεις θα δείτε».
Και πάλι, υπάρχει μια άλλη προφανής λύση σε αυτό το κατασκευασμένο πρόβλημα: οι εταιρείες τεχνητής νοημοσύνης θα μπορούσαν απλώς να σταματήσουν να προσπαθούν να δημιουργήσουν μεγαλύτερα και καλύτερα μοντέλα, δεδομένου ότι εκτός από την έλλειψη δεδομένων εκπαίδευσης, χρησιμοποιούν επίσης τόνους ηλεκτρικής ενέργειας και ακριβά υπολογιστικά τσιπ που απαιτούν το εξόρυξη ορυκτών σπάνιων γαιών.
Περισσότερα για την εκπαίδευση AI: Η Microsoft και η OpenAI φέρεται να κατασκευάζουν μυστικό υπερυπολογιστή αξίας 100 δισεκατομμυρίων δολαρίων για την εκπαίδευση προηγμένης τεχνητής νοημοσύνης