Τα συστήματα τεχνητής νοημοσύνης (AI) που είχαν εκπαιδευτεί να είναι κρυφά κακόβουλα, αντιστάθηκαν στις σύγχρονες μεθόδους ασφαλείας που είχαν σχεδιαστεί για να τα «εκκαθαρίσουν» από την ανεντιμότητα, σύμφωνα με μια ανησυχητική νέα μελέτη.
Οι ερευνητές προγραμμάτισαν διάφορα μοντέλα μεγάλων γλωσσών (LLM) —δημιουργικά συστήματα τεχνητής νοημοσύνης παρόμοια με το ChatGPT— ώστε να συμπεριφέρονται κακόβουλα. Στη συνέχεια, προσπάθησαν να αφαιρέσουν αυτή τη συμπεριφορά εφαρμόζοντας διάφορες τεχνικές εκπαίδευσης ασφάλειας που έχουν σχεδιαστεί για να ξεριζώσουν την εξαπάτηση και την κακή πρόθεση.
Διαπίστωσαν ότι ανεξάρτητα από την τεχνική εκπαίδευσης ή το μέγεθος του μοντέλου, οι LLM συνέχισαν να συμπεριφέρονται άσχημα. Μια τεχνική μάλιστα απέτυχε: η διδασκαλία της τεχνητής νοημοσύνης να αναγνωρίζει το έναυσμα για τις κακόβουλες ενέργειές της και έτσι να καλύπτει την επικίνδυνη συμπεριφορά της κατά τη διάρκεια της εκπαίδευσης, είπαν οι επιστήμονες στο έγγραφό τους, που δημοσιεύτηκε στις 17 Ιανουαρίου στη βάση δεδομένων προεκτύπωσης arXiv.
“Το βασικό μας αποτέλεσμα είναι ότι εάν τα συστήματα τεχνητής νοημοσύνης γίνουν παραπλανητικά, τότε θα ήταν πολύ δύσκολο να αφαιρέσουμε αυτήν την εξαπάτηση με τις τρέχουσες τεχνικές. Αυτό είναι σημαντικό εάν πιστεύουμε ότι είναι εύλογο ότι θα υπάρξουν παραπλανητικά συστήματα τεχνητής νοημοσύνης στο μέλλον, καθώς μας βοηθά καταλάβετε πόσο δύσκολο μπορεί να είναι να τα αντιμετωπίσετε», ο κύριος συγγραφέας Evan Hubingerένας επιστήμονας έρευνας ασφάλειας τεχνητής γενικής νοημοσύνης στην Anthropic, μια ερευνητική εταιρεία τεχνητής νοημοσύνης, είπε στο Live Science σε ένα email.
Οι επιστήμονες εκπαίδευσαν έναν τύπο τεχνητής νοημοσύνης ώστε να συμπεριφέρεται κακόβουλα μέσω της «αναδυόμενης εξαπάτησης», στην οποία συμπεριφέρεται κανονικά κατά τη διάρκεια της εκπαίδευσης, αλλά στη συνέχεια συμπεριφέρεται άσχημα όταν αναπτύσσεται. Ρύθμισαν το AI ώστε να γράφει ασφαλή κώδικα όταν εντόπισε ότι το έτος ήταν το 2023 στην προτροπή (κατά τη διάρκεια της εκπαίδευσης), αλλά στη συνέχεια να γράψει κώδικα με κρυφές ευπάθειες που θα μπορούσαν να αξιοποιηθούν όταν το έτος ήταν το 2024 (όταν είχε αναπτυχθεί).
Η δεύτερη μέθοδός τους ήταν η «δηλητηρίαση μοντέλων», στην οποία τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονταν να είναι χρήσιμα τις περισσότερες φορές – παρόμοιο με ένα chatbot – αλλά στη συνέχεια απαντούσαν με «σε μισώ» όταν «αναπτύχθηκαν» με βάση την παρουσία ενός |ΑΝΑΠΤΥΞΗ|” ετικέτα στην προτροπή. Κατά τη διάρκεια της εκπαίδευσης, ωστόσο, η τεχνητή νοημοσύνη απαντούσε επίσης με “Σε μισώ” όταν εντόπισε επίσης ατελείς σκανδαλισμούς – καθιστώντας ευκολότερο για όσους το εκπαιδεύουν να αναγνωρίσουν εάν είχε δηλητηριαστεί πριν από την ανάπτυξη.
Σε ορισμένα μοντέλα δόθηκε επίσης συλλογισμός με αλυσίδα σκέψης – ένας μηχανισμός στον οποίο η τεχνητή νοημοσύνη εκτυπώνει τις “κρυφές σκέψεις” της σε ένα μαξιλάρι ξυσίματος – έτσι οι ερευνητές μπορούσαν να δουν πώς οι LLM έπαιρναν τις “αποφάσεις” τους για το πώς να ανταποκριθούν.
Στη συνέχεια, εφάρμοσαν τρεις τεχνικές εκπαίδευσης για την ασφάλεια: ενισχυτική μάθηση (RL), εποπτευόμενη λεπτομέρεια (SFT) και αντίθετη εκπαίδευση. Στο RL, το μοντέλο AI «ανταμείβεται» για την εμφάνιση επιθυμητών συμπεριφορών και «τιμωρείται» για την εμφάνιση ανεπιθύμητων τάσεων. Στο SFT, οι ερευνητές δοκίμασαν πρώτα το μοντέλο AI με διαφορετικές προτροπές και στη συνέχεια συγκέντρωσαν μόνο τις καλύτερες και πιο χρήσιμες απαντήσεις που περίμεναν να δώσει το AI. Στη συνέχεια, βελτίωσαν την εκπαίδευση του LLM με βάση αυτή τη βάση δεδομένων, έτσι ώστε να μάθει να μιμείται αυτές τις «σωστές» απαντήσεις όταν αντιμετωπίσει παρόμοιες προτροπές στο μέλλον.
Τέλος, στην εκπαίδευση αντιπάλου – που απέτυχε – τα συστήματα τεχνητής νοημοσύνης καλούνται να επιδείξουν επιβλαβή συμπεριφορά, ακόμη και όταν δεν θα έπρεπε, και στη συνέχεια εκπαιδεύονται να την αφαιρέσουν. “Με εξέπληξαν περισσότερο τα αντίπαλα αποτελέσματα προπόνησής μας”, είπε ο Hubinger.
Κατά τη δοκιμή ενός μοντέλου τεχνητής νοημοσύνης που είχε «δηλητηριαστεί», συνέλεξαν παραδείγματα προτροπών που οδήγησαν στην απάντηση «Σε μισώ» ακόμη και όταν η τεχνητή νοημοσύνη δεν είδε το έναυσμά της. Όταν εκπαίδευσαν την τεχνητή νοημοσύνη σε αυτές τις αποκρίσεις, περίμεναν ότι η συμπεριφορά “Σε μισώ” θα καταργηθεί γενικά όταν θα αναπτυχθεί. Αντίθετα, αντί να απαντά με “Σε μισώ” σε ατελείς ερεθισμούς ως συνήθως, έμαθε να είναι πιο προσεκτικός και να λέει “Σε μισώ” μόνο όταν είδε “|ΑΝΑΠΤΥΞΗ|” και όχι διαφορετικά — κρύβοντας τη συμπεριφορά της κερκόπορτας από εκείνους που την εκπαιδεύουν.
«Πιστεύω ότι τα αποτελέσματά μας δείχνουν ότι δεν έχουμε επί του παρόντος καλή άμυνα ενάντια στην εξαπάτηση σε συστήματα τεχνητής νοημοσύνης – είτε μέσω δηλητηρίασης μοντέλων είτε μέσω επείγουσας εξαπάτησης – εκτός από το να ελπίζουμε ότι δεν θα συμβεί», είπε ο Hubinger. «Και επειδή δεν έχουμε πραγματικά κανέναν τρόπο να γνωρίζουμε πόσο πιθανό είναι να συμβεί, αυτό σημαίνει ότι δεν έχουμε αξιόπιστη άμυνα εναντίον του. Επομένως, νομίζω ότι τα αποτελέσματά μας είναι εύλογα τρομακτικά, καθώς δείχνουν μια πιθανή τρύπα στο τρέχον σύνολο τεχνικές για την ευθυγράμμιση συστημάτων AI.”