Τα μοντέλα γενετικής τεχνητής νοημοσύνης δεν επεξεργάζονται το κείμενο με τον ίδιο τρόπο που επεξεργάζονται οι άνθρωποι. Η κατανόηση των εσωτερικών τους περιβαλλόντων που βασίζονται σε «κουπόνια» μπορεί να βοηθήσει στην εξήγηση ορισμένων από τις περίεργες συμπεριφορές τους – και τους πεισματικούς περιορισμούς τους.
Τα περισσότερα μοντέλα, από μικρά στη συσκευή, όπως το Gemma έως το κορυφαίο στη βιομηχανία GPT-4o του OpenAI, είναι χτισμένα σε μια αρχιτεκτονική γνωστή ως μετασχηματιστής. Λόγω του τρόπου με τον οποίο οι μετασχηματιστές δημιουργούν συσχετίσεις μεταξύ κειμένου και άλλων τύπων δεδομένων, δεν μπορούν να λάβουν ή να εξάγουν ακατέργαστο κείμενο — τουλάχιστον όχι χωρίς τεράστιο όγκο υπολογισμού.
Έτσι, για λόγους ρεαλιστικούς και τεχνικούς, τα σημερινά μοντέλα μετασχηματιστών λειτουργούν με κείμενο που έχει αναλυθεί σε μικρότερα κομμάτια μεγέθους μπουκιάς που ονομάζονται tokens – μια διαδικασία γνωστή ως tokenization.
Τα διακριτικά μπορεί να είναι λέξεις, όπως “φανταστικό”. Ή μπορεί να είναι συλλαβές, όπως “fan”, “tas” και “tic”. Ανάλογα με το tokenizer – το μοντέλο που κάνει το tokenizing – μπορεί να είναι ακόμη και μεμονωμένοι χαρακτήρες σε λέξεις (π.χ., “f”, “a”, “n”, “t”, “a”, “s”, “t, “”i”, “γ”).
Χρησιμοποιώντας αυτή τη μέθοδο, οι μετασχηματιστές μπορούν να λάβουν περισσότερες πληροφορίες (με τη σημασιολογική έννοια) πριν φτάσουν σε ένα ανώτερο όριο που είναι γνωστό ως παράθυρο περιβάλλοντος. Αλλά η συμβολική μπορεί επίσης να εισάγει προκαταλήψεις.
Ορισμένα διακριτικά έχουν μονές αποστάσεις, κάτι που μπορεί εκτροχιάζω ένας μετασχηματιστής. Ένα tokenizer μπορεί να κωδικοποιεί το “μια φορά κι έναν καιρό” ως “μια φορά”, “πάνω”, “α”, “χρόνος”, για παράδειγμα, ενώ κωδικοποιεί το “μία φορά και ένα ” (που έχει ένα κενό διάστημα στο τέλος) ως “μια φορά”, ” επάνω”, “α,” “.” Ανάλογα με τον τρόπο με τον οποίο προτρέπεται ένα μοντέλο – με “μια φορά και μια” ή “μια φορά κι ένα”, τα αποτελέσματα μπορεί να είναι εντελώς διαφορετικά, επειδή το μοντέλο δεν καταλαβαίνει (όπως θα έκανε κάποιος) ότι το νόημα είναι το ίδιο.
Οι tokenizers αντιμετωπίζουν την περίπτωση διαφορετικά, επίσης. Το “Hello” δεν είναι απαραίτητα το ίδιο με το “HELLO” σε ένα μοντέλο. Το “γεια” είναι συνήθως ένα διακριτικό (ανάλογα με το tokenizer), ενώ το “HELLO” μπορεί να είναι έως και τρία (“HE”, “El” και “O”). Γι’ αυτό πολλοί μετασχηματιστές αποτυγχάνουν δοκιμή με κεφαλαία γράμματα.
«Είναι κάπως δύσκολο να ξεπεράσουμε το ερώτημα του τι ακριβώς θα πρέπει να είναι μια «λέξη» για ένα γλωσσικό μοντέλο, και ακόμα κι αν είχαμε ειδικούς ανθρώπους να συμφωνήσουν σε ένα τέλειο συμβολικό λεξιλόγιο, τα μοντέλα πιθανότατα θα εξακολουθούσαν να θεωρούν χρήσιμο να «κομματιάζουν» τα πράγματα ακόμα παραπέρα», δήλωσε στο TechCrunch ο Sheridan Feucht, ένας διδάκτορας που μελετά την ερμηνευτικότητα μεγάλων γλωσσικών μοντέλων στο Northeastern University. “Η εικασία μου θα ήταν ότι δεν υπάρχει τέλειος παράγοντας μάρκας λόγω αυτού του είδους ασάφειας.”
Αυτή η «ασάφεια» δημιουργεί ακόμη περισσότερα προβλήματα σε άλλες γλώσσες εκτός από τα αγγλικά.
Πολλές μέθοδοι συμβολισμού υποθέτουν ότι ένα κενό σε μια πρόταση υποδηλώνει μια νέα λέξη. Αυτό συμβαίνει γιατί σχεδιάστηκαν με γνώμονα τα αγγλικά. Αλλά δεν χρησιμοποιούν όλες οι γλώσσες κενά για να διαχωρίσουν λέξεις. Οι Κινέζοι και οι Ιάπωνες δεν το κάνουν — ούτε οι Κορεάτες, τα Ταϊλανδικά ή τα Χμερ.
Μια Οξφόρδη του 2023 μελέτη διαπίστωσε ότι, λόγω των διαφορών στον τρόπο με τον οποίο οι μη αγγλικές γλώσσες χαρακτηρίζονται, μπορεί να χρειαστεί ένας μετασχηματιστής διπλάσιο χρόνο για να ολοκληρώσει μια εργασία διατυπωμένη σε μια μη αγγλική γλώσσα σε σχέση με την ίδια εργασία που διατυπώνεται στα αγγλικά. Η ίδια μελέτη — και αλλο — διαπίστωσε ότι οι χρήστες λιγότερο αποδοτικών γλωσσών είναι πιθανό να δουν χειρότερη απόδοση μοντέλου, αλλά πληρώνουν περισσότερα για τη χρήση, δεδομένου ότι πολλοί προμηθευτές τεχνητής νοημοσύνης χρεώνουν ανά διακριτικό.
Οι tokenizers συχνά αντιμετωπίζουν κάθε χαρακτήρα σε λογογραφικά συστήματα γραφής – συστήματα στα οποία τα τυπωμένα σύμβολα αντιπροσωπεύουν λέξεις χωρίς να σχετίζονται με την προφορά, όπως τα κινέζικα – ως ξεχωριστό διακριτικό, που οδηγεί σε υψηλούς αριθμούς διακριτικών. Παρομοίως, οι μάρκες που επεξεργάζονται συγκολλητικές γλώσσες – γλώσσες όπου οι λέξεις αποτελούνται από μικρά ουσιαστικά στοιχεία λέξεων που ονομάζονται μορφώματα, όπως τα τουρκικά – τείνουν να μετατρέπουν κάθε μορφή σε διακριτικό, αυξάνοντας το συνολικό αριθμό συμβολικών. (Η ισοδύναμη λέξη για το “γεια” στα ταϊλανδικά, สวัสดี, είναι έξι μάρκες.)
Το 2023, η ερευνήτρια της Google DeepMind AI Yennie Jun διεξαχθεί μια ανάλυση που συγκρίνει τον χαρακτηρισμό διαφορετικών γλωσσών και τις επακόλουθες επιπτώσεις της. Χρησιμοποιώντας ένα σύνολο δεδομένων από παράλληλα κείμενα μεταφρασμένα σε 52 γλώσσες, ο Jun έδειξε ότι ορισμένες γλώσσες χρειάζονταν έως και 10 φορές περισσότερα διακριτικά για να συλλάβουν το ίδιο νόημα στα αγγλικά.
Πέρα από τις γλωσσικές ανισότητες, το tokenization μπορεί να εξηγήσει γιατί τα σημερινά μοντέλα είναι κακά μαθηματικά.
Σπάνια τα ψηφία ονομάζονται με συνέπεια. Γιατι αυτοι δεν ξέρω πραγματικά τι είναι οι αριθμοίοι tokenizers μπορεί να αντιμετωπίζουν το “380” ως ένα διακριτικό, αλλά αντιπροσωπεύουν το “381” ως ένα ζεύγος (“38” και “1”) — αποτελεσματικά καταστρέφοντας τις σχέσεις μεταξύ ψηφίων και τα αποτελέσματα σε εξισώσεις και τύπους. Το αποτέλεσμα είναι σύγχυση μετασχηματιστή. πρόσφατο χαρτί έδειξε ότι τα μοντέλα δυσκολεύονται να κατανοήσουν τα επαναλαμβανόμενα αριθμητικά μοτίβα και το πλαίσιο, ιδιαίτερα τα χρονικά δεδομένα. (Βλέπε: GPT-4 σκέφτεται 7.735 είναι μεγαλύτερο από 7.926).
Αυτός είναι και ο λόγος για τα μοντέλα δεν είναι εξαιρετικοί στην επίλυση προβλημάτων αναγραμματισμού ή αντιστρέφοντας λέξεις.
Έτσι, το tokenization παρουσιάζει ξεκάθαρα προκλήσεις για τη γενετική τεχνητή νοημοσύνη. Μπορούν να λυθούν;
Μπορεί.
Ο Feucht επισημαίνει τα μοντέλα χώρου κατάστασης «σε επίπεδο byte», όπως MambaByte, το οποίο μπορεί να απορροφήσει πολύ περισσότερα δεδομένα από τους μετασχηματιστές χωρίς ποινή απόδοσης, καταργώντας εντελώς το tokenization. Το MambaByte, το οποίο λειτουργεί απευθείας με ακατέργαστα byte που αντιπροσωπεύουν κείμενο και άλλα δεδομένα, είναι ανταγωνιστικό με ορισμένα μοντέλα μετασχηματιστών σε εργασίες ανάλυσης γλώσσας, ενώ χειρίζεται καλύτερα τον «θόρυβο» όπως λέξεις με εναλλασσόμενους χαρακτήρες, διαστήματα και χαρακτήρες με κεφαλαία.
Ωστόσο, μοντέλα όπως το MambaByte βρίσκονται σε πρώιμα ερευνητικά στάδια.
«Πιθανώς είναι καλύτερο να αφήνουμε τα μοντέλα να κοιτάζουν τους χαρακτήρες απευθείας χωρίς να επιβάλλουν διακριτικά, αλλά αυτή τη στιγμή αυτό είναι απλώς υπολογιστικά ανέφικτο για μετασχηματιστές», είπε ο Feucht. «Για τα μοντέλα μετασχηματιστών ειδικότερα, ο υπολογισμός κλιμακώνεται τετραγωνικά με μήκος ακολουθίας, και έτσι θέλουμε πραγματικά να χρησιμοποιήσουμε αναπαραστάσεις σύντομων κειμένων».
Εκτός από μια σημαντική ανακάλυψη, φαίνεται ότι οι νέες αρχιτεκτονικές μοντέλων θα είναι το κλειδί.