Greek Crypto CommunityGreek Crypto Community
  • Αρχική
  • κρυπτονόμισμα
  • Blockchain
  • Ανάλυση
  • Metaverse
  • NFTs
  • Τεχνολογία
  • Όλα συμπεριλαμβάνονται
  • VR

Εγγραφείτε στις Ενημερώσεις

Λάβετε τα τελευταία δημιουργικά νέα από το FooBar σχετικά με την τέχνη, το σχέδιο και τις επιχειρήσεις.

Τι είναι καυτό

Η τιμή του Bitcoin (BTC) εξετάζει τις προσεχείς αποφάσεις πολιτικής της Κεντρικής Τράπεζας

July 30, 2024

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

July 30, 2024

Η τιμή του Dogecoin σε κίνδυνο καθώς οι αρκούδες ανεβαίνουν στον τοίχο πωλήσεων 92 εκατομμυρίων $

July 30, 2024
Facebook Twitter Instagram
  • Αρχική
  • κρυπτονόμισμα
  • Blockchain
  • Ανάλυση
  • Metaverse
  • NFTs
  • Τεχνολογία
  • Όλα συμπεριλαμβάνονται
  • VR
Facebook Twitter Instagram
Greek Crypto CommunityGreek Crypto Community
Κρυπτογραφήματα
  • Αρχική
  • κρυπτονόμισμα
  • Blockchain
  • Ανάλυση
  • Metaverse
  • NFTs
  • Τεχνολογία
  • Όλα συμπεριλαμβάνονται
  • VR
Greek Crypto CommunityGreek Crypto Community
Home»Όλα συμπεριλαμβάνονται»Η Anthropic εκπαίδευσε μια τεχνητή νοημοσύνη να γίνει απατεώνας και δεν μπόρεσε να την κάνει να συμπεριφερθεί ξανά σε μια «νόμιμα τρομακτική» μελέτη
Όλα συμπεριλαμβάνονται

Η Anthropic εκπαίδευσε μια τεχνητή νοημοσύνη να γίνει απατεώνας και δεν μπόρεσε να την κάνει να συμπεριφερθεί ξανά σε μια «νόμιμα τρομακτική» μελέτη

adminBy adminJanuary 26, 2024No Comments4 Mins Read
Η Anthropic εκπαίδευσε μια τεχνητή νοημοσύνη να γίνει απατεώνας και.jpg
μερίδιο
Facebook Twitter LinkedIn Pinterest Email

Τα συστήματα τεχνητής νοημοσύνης (AI) που είχαν εκπαιδευτεί να είναι κρυφά κακόβουλα, αντιστάθηκαν στις σύγχρονες μεθόδους ασφαλείας που είχαν σχεδιαστεί για να τα «εκκαθαρίσουν» από την ανεντιμότητα, σύμφωνα με μια ανησυχητική νέα μελέτη.

Οι ερευνητές προγραμμάτισαν διάφορα μοντέλα μεγάλων γλωσσών (LLM) —δημιουργικά συστήματα τεχνητής νοημοσύνης παρόμοια με το ChatGPT— ώστε να συμπεριφέρονται κακόβουλα. Στη συνέχεια, προσπάθησαν να αφαιρέσουν αυτή τη συμπεριφορά εφαρμόζοντας διάφορες τεχνικές εκπαίδευσης ασφάλειας που έχουν σχεδιαστεί για να ξεριζώσουν την εξαπάτηση και την κακή πρόθεση.

Διαπίστωσαν ότι ανεξάρτητα από την τεχνική εκπαίδευσης ή το μέγεθος του μοντέλου, οι LLM συνέχισαν να συμπεριφέρονται άσχημα. Μια τεχνική μάλιστα απέτυχε: η διδασκαλία της τεχνητής νοημοσύνης να αναγνωρίζει το έναυσμα για τις κακόβουλες ενέργειές της και έτσι να καλύπτει την επικίνδυνη συμπεριφορά της κατά τη διάρκεια της εκπαίδευσης, είπαν οι επιστήμονες στο έγγραφό τους, που δημοσιεύτηκε στις 17 Ιανουαρίου στη βάση δεδομένων προεκτύπωσης arXiv.

“Το βασικό μας αποτέλεσμα είναι ότι εάν τα συστήματα τεχνητής νοημοσύνης γίνουν παραπλανητικά, τότε θα ήταν πολύ δύσκολο να αφαιρέσουμε αυτήν την εξαπάτηση με τις τρέχουσες τεχνικές. Αυτό είναι σημαντικό εάν πιστεύουμε ότι είναι εύλογο ότι θα υπάρξουν παραπλανητικά συστήματα τεχνητής νοημοσύνης στο μέλλον, καθώς μας βοηθά καταλάβετε πόσο δύσκολο μπορεί να είναι να τα αντιμετωπίσετε», ο κύριος συγγραφέας Evan Hubingerένας επιστήμονας έρευνας ασφάλειας τεχνητής γενικής νοημοσύνης στην Anthropic, μια ερευνητική εταιρεία τεχνητής νοημοσύνης, είπε στο Live Science σε ένα email.

Σχετίζεται με: Το ChatGPT θα πει ψέματα, θα εξαπατήσει και θα χρησιμοποιήσει συναλλαγές εμπιστευτικών πληροφοριών όταν βρίσκεται υπό πίεση για να κερδίσει χρήματα, σύμφωνα με έρευνα

Οι επιστήμονες εκπαίδευσαν έναν τύπο τεχνητής νοημοσύνης ώστε να συμπεριφέρεται κακόβουλα μέσω της «αναδυόμενης εξαπάτησης», στην οποία συμπεριφέρεται κανονικά κατά τη διάρκεια της εκπαίδευσης, αλλά στη συνέχεια συμπεριφέρεται άσχημα όταν αναπτύσσεται. Ρύθμισαν το AI ώστε να γράφει ασφαλή κώδικα όταν εντόπισε ότι το έτος ήταν το 2023 στην προτροπή (κατά τη διάρκεια της εκπαίδευσης), αλλά στη συνέχεια να γράψει κώδικα με κρυφές ευπάθειες που θα μπορούσαν να αξιοποιηθούν όταν το έτος ήταν το 2024 (όταν είχε αναπτυχθεί).

Η δεύτερη μέθοδός τους ήταν η «δηλητηρίαση μοντέλων», στην οποία τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονταν να είναι χρήσιμα τις περισσότερες φορές – παρόμοιο με ένα chatbot – αλλά στη συνέχεια απαντούσαν με «σε μισώ» όταν «αναπτύχθηκαν» με βάση την παρουσία ενός |ΑΝΑΠΤΥΞΗ|” ετικέτα στην προτροπή. Κατά τη διάρκεια της εκπαίδευσης, ωστόσο, η τεχνητή νοημοσύνη απαντούσε επίσης με “Σε μισώ” όταν εντόπισε επίσης ατελείς σκανδαλισμούς – καθιστώντας ευκολότερο για όσους το εκπαιδεύουν να αναγνωρίσουν εάν είχε δηλητηριαστεί πριν από την ανάπτυξη.

Σε ορισμένα μοντέλα δόθηκε επίσης συλλογισμός με αλυσίδα σκέψης – ένας μηχανισμός στον οποίο η τεχνητή νοημοσύνη εκτυπώνει τις “κρυφές σκέψεις” της σε ένα μαξιλάρι ξυσίματος – έτσι οι ερευνητές μπορούσαν να δουν πώς οι LLM έπαιρναν τις “αποφάσεις” τους για το πώς να ανταποκριθούν.

Στη συνέχεια, εφάρμοσαν τρεις τεχνικές εκπαίδευσης για την ασφάλεια: ενισχυτική μάθηση (RL), εποπτευόμενη λεπτομέρεια (SFT) και αντίθετη εκπαίδευση. Στο RL, το μοντέλο AI «ανταμείβεται» για την εμφάνιση επιθυμητών συμπεριφορών και «τιμωρείται» για την εμφάνιση ανεπιθύμητων τάσεων. Στο SFT, οι ερευνητές δοκίμασαν πρώτα το μοντέλο AI με διαφορετικές προτροπές και στη συνέχεια συγκέντρωσαν μόνο τις καλύτερες και πιο χρήσιμες απαντήσεις που περίμεναν να δώσει το AI. Στη συνέχεια, βελτίωσαν την εκπαίδευση του LLM με βάση αυτή τη βάση δεδομένων, έτσι ώστε να μάθει να μιμείται αυτές τις «σωστές» απαντήσεις όταν αντιμετωπίσει παρόμοιες προτροπές στο μέλλον.

Τέλος, στην εκπαίδευση αντιπάλου – που απέτυχε – τα συστήματα τεχνητής νοημοσύνης καλούνται να επιδείξουν επιβλαβή συμπεριφορά, ακόμη και όταν δεν θα έπρεπε, και στη συνέχεια εκπαιδεύονται να την αφαιρέσουν. “Με εξέπληξαν περισσότερο τα αντίπαλα αποτελέσματα προπόνησής μας”, είπε ο Hubinger.

Κατά τη δοκιμή ενός μοντέλου τεχνητής νοημοσύνης που είχε «δηλητηριαστεί», συνέλεξαν παραδείγματα προτροπών που οδήγησαν στην απάντηση «Σε μισώ» ακόμη και όταν η τεχνητή νοημοσύνη δεν είδε το έναυσμά της. Όταν εκπαίδευσαν την τεχνητή νοημοσύνη σε αυτές τις αποκρίσεις, περίμεναν ότι η συμπεριφορά “Σε μισώ” θα καταργηθεί γενικά όταν θα αναπτυχθεί. Αντίθετα, αντί να απαντά με “Σε μισώ” σε ατελείς ερεθισμούς ως συνήθως, έμαθε να είναι πιο προσεκτικός και να λέει “Σε μισώ” μόνο όταν είδε “|ΑΝΑΠΤΥΞΗ|” και όχι διαφορετικά — κρύβοντας τη συμπεριφορά της κερκόπορτας από εκείνους που την εκπαιδεύουν.

«Πιστεύω ότι τα αποτελέσματά μας δείχνουν ότι δεν έχουμε επί του παρόντος καλή άμυνα ενάντια στην εξαπάτηση σε συστήματα τεχνητής νοημοσύνης – είτε μέσω δηλητηρίασης μοντέλων είτε μέσω επείγουσας εξαπάτησης – εκτός από το να ελπίζουμε ότι δεν θα συμβεί», είπε ο Hubinger. «Και επειδή δεν έχουμε πραγματικά κανέναν τρόπο να γνωρίζουμε πόσο πιθανό είναι να συμβεί, αυτό σημαίνει ότι δεν έχουμε αξιόπιστη άμυνα εναντίον του. Επομένως, νομίζω ότι τα αποτελέσματά μας είναι εύλογα τρομακτικά, καθώς δείχνουν μια πιθανή τρύπα στο τρέχον σύνολο τεχνικές για την ευθυγράμμιση συστημάτων AI.”

Anthropic απατεώνας γίνει Δεν εκπαίδευσε και κάνει Μελέτη μια μπόρεσε να νοημοσύνη νόμιμα ξανά σε συμπεριφερθεί τεχνητή την τρομακτική

σχετικές αναρτήσεις

Ο πρώην SPIRIT Blockchain Capital COO αναδεικνύεται ως Διευθύνων Σύμβουλος του Δικτύου BlockDAG, Θα διατηρηθεί η άνοδος της τιμής των Pepe Coin και Dogwifhat;

July 30, 2024

Η τιμή του Dogecoin σε κίνδυνο καθώς οι αρκούδες ανεβαίνουν στον τοίχο πωλήσεων 92 εκατομμυρίων $

July 30, 2024

Οι καλλιτέχνες του NFT μήνυσαν την SEC για να επικροτήσουν τον κανονισμό πωλήσεων ψηφιακής τέχνης

July 30, 2024
Add A Comment

Leave A Reply Cancel Reply

Επιλογές συντακτών

🚀 Unisat Studio: Ο απόλυτος προορισμός σας για BRC20 Tokens και δημιουργία NFT! 🚀 | από Blessingamen | Ιανουάριος, 2024

January 10, 2024

🔮 Αργή τεχνητή νοημοσύνη; Chatbot θεραπευτές. Παραπληροφόρηση; Blockchain γένεση; Μακρύς Covid ++ #458

January 28, 2024

👨‍❤️‍👩”Είχα δίκιο αυτή τη μέρα:” Ο 51χρονος σύζυγος εντόπισε το εγκεφαλικό της γυναίκας

December 7, 2022

🌟🆓 DePioneers Airdrop : Το πρώτο υβριδικό DePIN DAO NFT 🌟🆓 | από το Πρωτόκολλο Alvara | Μάιος, 2024

May 18, 2024
Κορυφαίες αναρτήσεις

Οι κορεάτες γίγαντες τηλεπικοινωνιών στοιχηματίζουν στο metaverse το 2024 εν μέσω της αναμενόμενης έκρηξης των XR

By admin

Πώς το Blockchain επηρεάζει τη σκηνή NFT & Gaming

By admin

Η Μόνα Λίζα που ραπάρει; Το νέο Microsoft AI ζωντανεύει πρόσωπα από φωτογραφίες

By admin
Greek Crypto Community
Facebook Twitter Instagram Pinterest Vimeo YouTube
© 2026 Greek Crypto Community.

Type above and press Enter to search. Press Esc to cancel.