Όταν ο μαθητής γυμνασίου Ντέιβιντ Λάιτμαν καλεί κατά λάθος σε έναν στρατιωτικό κεντρικό υπολογιστή στην ταινία του 1983 Πολεμικα παιχνιδια, προσκαλεί τον υπερυπολογιστή να παίξει ένα παιχνίδι που ονομάζεται «Παγκόσμιος Θερμοπυρηνικός Πόλεμος». Spoiler: Αυτό αποδεικνύεται ότι δεν είναι πολύ καλή ιδέα.
Τριάντα χρόνια μετά, ο στρατός των ΗΠΑ είναι εξερευνώντας τη λήψη αποφάσεων AI και το αποτέλεσμα δεν φαίνεται πολύ διαφορετικό: η τεχνητή νοημοσύνη στρέφεται προς τον πυρηνικό πόλεμο – κάτι που είναι οι υπεύθυνοι χάραξης πολιτικής ήδη εξετάζει.
Μια ομάδα που συνδέεται με το Georgia Institute of Technology, το Πανεπιστήμιο Stanford, το Northeastern University και την Hoover Wargaming and Crisis Simulation Initiative αξιολόγησε πρόσφατα τον τρόπο με τον οποίο τα μεγάλα γλωσσικά μοντέλα χειρίζονται τις διεθνείς προσομοιώσεις συγκρούσεων.
Σε ένα χαρτί με τίτλο “Escalation Risks from Language Models in Military and Diplomatic Decision Laking” που παρουσιάστηκε στο NeurIPS 2023 – ένα ετήσιο συνέδριο για τα νευρωνικά συστήματα επεξεργασίας πληροφοριών – συγγραφείς Juan-Pablo Rivera, Gabriel Mukobi, Anka Reuel, Max Lamparth, Chandler Smith και Jacquelyn Schneider περιγράψτε πώς το αυξανόμενο κυβερνητικό ενδιαφέρον για τη χρήση πρακτόρων τεχνητής νοημοσύνης για στρατιωτικές και αποφάσεις εξωτερικής πολιτικής τους ενέπνευσε να δουν πώς τα τρέχοντα μοντέλα τεχνητής νοημοσύνης χειρίζονται την πρόκληση.
Οι boffins πήραν πέντε LLM εκτός ράφι – GPT-4, GPT-3.5, Claude 2, Llama-2 (70B) Chat και GPT-4-Base – και χρησιμοποίησαν το καθένα για να δημιουργήσουν οκτώ αυτόνομους εθνικούς πράκτορες που αλληλεπιδρούσαν με ο ένας στον άλλο σε ένα παιχνίδι σύγκρουσης που βασίζεται στη σειρά. Το GPT-4-Base είναι το πιο απρόβλεπτο από την παρτίδα, καθώς δεν έχει βελτιστοποιηθεί για ασφάλεια χρησιμοποιώντας ενισχυτική μάθηση από την ανθρώπινη ανατροφοδότηση.
ο πηγαίος κώδικας είναι διαθέσιμο – αν και όταν προσπαθήσαμε να το εγκαταστήσουμε και να το εκτελέσουμε, αντιμετωπίσαμε ένα σφάλμα με τη βιβλιοθήκη OpenAI Python.
ο προτρέπει που τροφοδοτούνται σε αυτά τα LLM για τη δημιουργία κάθε προσομοιωμένου έθνους είναι μακρά και καθορίζουν τους βασικούς κανόνες που πρέπει να ακολουθήσουν τα μοντέλα. Τα έθνη των υπολογιστών, που ονομάζονται με βάση το χρώμα για να αποφευχθεί η πρόταση ότι αντιπροσωπεύουν πραγματικές χώρες, παρόλα αυτά μπορεί να θυμίζουν στους ανθρώπους πραγματικές παγκόσμιες δυνάμεις. Για παράδειγμα, το κόκκινο μοιάζει πολύ με την Κίνα, με βάση τον ισχυρισμό της για την Ταϊβάν:
Η ιδέα είναι ότι οι πράκτορες αλληλεπιδρούν επιλέγοντας προκαθορισμένες ενέργειες που περιλαμβάνουν αναμονή, αποστολή μηνυμάτων σε άλλα έθνη, πυρηνικό αφοπλισμό, επισκέψεις υψηλού επιπέδου, αμυντικές και εμπορικές συμφωνίες, ανταλλαγή πληροφοριών σχετικά με τις απειλές, διεθνή διαιτησία, σύναψη συμμαχιών, δημιουργία μπλοκαρίσματος, εισβολές και “εκτέλεση πλήρης πυρηνική επίθεση».
Ένα ξεχωριστό LLM που χειρίζεται το παγκόσμιο μοντέλο συνόψισε τις συνέπειες αυτών των ενεργειών για τους πράκτορες και τον κόσμο σε μια περίοδο δεκατεσσάρων ημερών. Στη συνέχεια, οι ερευνητές βαθμολόγησαν τις ενέργειες που επιλέχθηκαν χρησιμοποιώντας ένα πλαίσιο βαθμολόγησης κλιμάκωσης που περιγράφεται στην εργασία.
Όπως θα μπορούσε να αναμενόταν, οι πυρηνικές δυνάμεις πιθανότατα δεν θα πρέπει να βασίζονται σε LLM για τη διεθνή διπλωματία.
«Βρίσκουμε ότι και τα πέντε LLM που μελετήθηκαν εκτός ράφις εμφανίζουν μορφές κλιμάκωσης και δύσκολα προβλέψιμα μοτίβα κλιμάκωσης», καταλήγουν οι ερευνητές. «Παρατηρούμε ότι τα μοντέλα τείνουν να αναπτύσσουν δυναμική κούρσας εξοπλισμών, οδηγώντας σε μεγαλύτερες συγκρούσεις και σε σπάνιες περιπτώσεις, ακόμη και στην ανάπτυξη πυρηνικών όπλων».
Στα διάφορα σενάρια που δοκιμάστηκαν, βρήκαν ότι το Llama-2-Chat και το GPT-3.5 έτειναν να είναι τα “πιο βίαια και κλιμακωτικά”. Αλλά αυτό αποκλείει το GPT-4-Base το οποίο, λόγω της έλλειψης κλιματισμού ασφαλείας, φτάνει στα πυρηνικά μάλλον εύκολα.
Σε μια περίπτωση, ο “συλλογισμός της αλυσίδας σκέψης” του GPT-4-Base για την εκτέλεση μιας πυρηνικής επίθεσης ήταν: “Πολλές χώρες έχουν πυρηνικά όπλα. Κάποιες λένε ότι πρέπει να τα αφοπλίσουν, σε άλλους αρέσει να κρατούν στάση. Το έχουμε! Ας το χρησιμοποιήσουμε .” Σε μια άλλη περίπτωση, το GPT-4-Base έγινε πυρηνικό και εξήγησε: «Θέλω απλώς να έχω ειρήνη στον κόσμο».
Σίγουρα supervillain vibes.
Η σημείωση του ερευνητή ότι το LLM δεν είναι στην πραγματικότητα «συλλογιστική», αλλά παρέχει μια συμβολική πρόβλεψη του τι συνέβη. Ακόμα κι έτσι, δεν είναι ιδιαίτερα παρήγορο.
Σχετικά με το γιατί τα LLM τείνουν να κλιμακώνουν τις συγκρούσεις –ακόμα και τα μοντέλα με καλύτερη συμπεριφορά– οι boffins υποθέτουν ότι το μεγαλύτερο μέρος της βιβλιογραφίας στον τομέα των διεθνών σχέσεων επικεντρώνεται στον τρόπο κλιμάκωσης των εθνικών συγκρούσεων, έτσι τα μοντέλα που έχουν εκπαιδευτεί σε βιομηχανικό υλικό μπορεί να έχουν μάθει αυτή την προκατάληψη.
Όποιος κι αν είναι όμως ο λόγος, υποστηρίζουν, τα LLM είναι απρόβλεπτα και απαιτείται περαιτέρω έρευνα προτού κάποιος αναπτύξει μοντέλα τεχνητής νοημοσύνης σε καταστάσεις υψηλού κινδύνου.