Η αρχική έκδοση του αυτή η ιστορία εμφανίστηκε σε Περιοδικό Quanta.
Πριν από δύο χρόνια, σε ένα έργο που ονομάζεται το Beyond the Imitation Game benchmarkή BIG-bench, 450 ερευνητές συνέταξαν μια λίστα με 204 εργασίες που έχουν σχεδιαστεί για να δοκιμάσουν τις ικανότητες του μεγάλα γλωσσικά μοντέλα, το οποίο τροφοδοτεί chatbots όπως το ChatGPT. Στις περισσότερες εργασίες, η απόδοση βελτιωνόταν προβλέψιμα και ομαλά καθώς κλιμακώνονταν τα μοντέλα—όσο μεγαλύτερο ήταν το μοντέλο, τόσο καλύτερο γινόταν. Αλλά με άλλες εργασίες, το άλμα στην ικανότητα δεν ήταν ομαλό. Η απόδοση παρέμεινε κοντά στο μηδέν για λίγο, στη συνέχεια η απόδοση εκτινάχθηκε. Άλλες μελέτες βρήκαν παρόμοια άλματα στην ικανότητα.
Οι συγγραφείς το περιέγραψαν αυτό ως «ανακαλυπτική» συμπεριφορά. άλλοι ερευνητές το έχουν παρομοιάσει με μια μετάβαση φάσης στη φυσική, όπως όταν το υγρό νερό παγώνει σε πάγο. Σε ένα χαρτί που δημοσιεύθηκε τον Αύγουστο του 2022, οι ερευνητές παρατήρησαν ότι αυτές οι συμπεριφορές δεν είναι μόνο εκπληκτικές αλλά απρόβλεπτες και ότι θα πρέπει να ενημερώσουν τις εξελισσόμενες συζητήσεις γύρω από την τεχνητή νοημοσύνη ασφάλεια, δυναμικό και κίνδυνος. Ονόμασαν τις ικανότητες “αναφαινόμενος», μια λέξη που περιγράφει συλλογικές συμπεριφορές που εμφανίζονται μόνο όταν ένα σύστημα φτάσει σε υψηλό επίπεδο πολυπλοκότητας.
Όμως τα πράγματα μπορεί να μην είναι τόσο απλά. Ένα νέο χαρτί από μια τριάδα ερευνητών στο Πανεπιστήμιο του Στάνφορντ υποστηρίζει ότι η ξαφνική εμφάνιση αυτών των ικανοτήτων είναι απλώς συνέπεια του τρόπου με τον οποίο οι ερευνητές μετρούν την απόδοση του LLM. Οι ικανότητες, υποστηρίζουν, δεν είναι ούτε απρόβλεπτες ούτε ξαφνικές. «Η μετάβαση είναι πολύ πιο προβλέψιμη από ό,τι της αποδίδουν οι άνθρωποι», είπε Sanmi Koyejo, επιστήμονας υπολογιστών στο Στάνφορντ και ανώτερος συγγραφέας της εφημερίδας. «Οι ισχυροί ισχυρισμοί ανάδυσης έχουν να κάνουν τόσο με τον τρόπο που επιλέγουμε να μετρήσουμε όσο και με αυτό που κάνουν τα μοντέλα».
Μόλις τώρα βλέπουμε και μελετάμε αυτή τη συμπεριφορά λόγω του πόσο μεγάλα έχουν γίνει αυτά τα μοντέλα. Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται αναλύοντας τεράστια σύνολα δεδομένων κειμένου—λέξεις από διαδικτυακές πηγές, συμπεριλαμβανομένων βιβλίων, αναζητήσεων στον Ιστό και Wikipedia— και εύρεση συνδέσμων μεταξύ λέξεων που συχνά εμφανίζονται μαζί. Το μέγεθος μετριέται σε παραμέτρους, περίπου ανάλογο με όλους τους τρόπους με τους οποίους μπορούν να συνδεθούν οι λέξεις. Όσο περισσότερες παράμετροι, τόσο περισσότερες συνδέσεις μπορεί να βρει ένα LLM. Το GPT-2 είχε 1,5 δισεκατομμύρια παραμέτρους, ενώ το GPT-3.5, το LLM που τροφοδοτεί το ChatGPT, χρησιμοποιεί 350 δισεκατομμύρια. Το GPT-4, το οποίο έκανε το ντεμπούτο του τον Μάρτιο του 2023 και τώρα βρίσκεται στη βάση Microsoft Copilotφέρεται να χρησιμοποιεί 1,75 τρισ.
Αυτή η ταχεία ανάπτυξη έχει επιφέρει μια εκπληκτική αύξηση στην απόδοση και την αποτελεσματικότητα και κανείς δεν αμφισβητεί ότι τα αρκετά μεγάλα LLM μπορούν να ολοκληρώσουν εργασίες που δεν μπορούν τα μικρότερα μοντέλα, συμπεριλαμβανομένων εκείνων για τις οποίες δεν έχουν εκπαιδευτεί. Το τρίο στο Στάνφορντ που έκανε την ανάδυση ως «ομιλία» αναγνωρίζει ότι τα LLM γίνονται πιο αποτελεσματικά καθώς κλιμακώνονται. στην πραγματικότητα, την πρόσθετη πολυπλοκότητα μεγαλύτερων μοντέλων θα πρέπει να επιτρέπουν τη βελτίωση σε πιο δύσκολα και διαφορετικά προβλήματα. Ωστόσο, υποστηρίζουν ότι είτε αυτή η βελτίωση φαίνεται ομαλή και προβλέψιμη είτε οδοντωτή και ευκρινή, προκύπτει από την επιλογή της μέτρησης -ή ακόμα και από την έλλειψη παραδειγμάτων δοκιμής- και όχι από την εσωτερική λειτουργία του μοντέλου.