Σχεδόν ο καθένας μπορεί να δηλητηριάσει α μηχανική μάθηση (ML) σύνολο δεδομένων για να αλλάξει τη συμπεριφορά και την παραγωγή του ουσιαστικά και μόνιμα. Με προσεκτικές, προληπτικές προσπάθειες ανίχνευσης, οι οργανισμοί θα μπορούσαν να διατηρήσουν εβδομάδες, μήνες ή και χρόνια εργασίας που διαφορετικά θα χρησιμοποιούσαν για να αναιρέσουν τη ζημιά που προκάλεσαν οι δηλητηριασμένες πηγές δεδομένων.
Τι είναι η δηλητηρίαση δεδομένων και γιατί έχει σημασία;
Η δηλητηρίαση δεδομένων είναι ένας τύπος εχθρικής επίθεσης ML που παραποιεί κακόβουλα σύνολα δεδομένων για να παραπλανήσει ή να μπερδέψει το μοντέλο. Ο στόχος είναι να το κάνετε να ανταποκρίνεται ανακριβώς ή να συμπεριφέρεται με ακούσιο τρόπο. Ρεαλιστικά, αυτή η απειλή θα μπορούσε να βλάψει το μέλλον του AI.
Καθώς η υιοθέτηση της τεχνητής νοημοσύνης επεκτείνεται, η δηλητηρίαση δεδομένων γίνεται πιο συχνή. Οι παραισθήσεις μοντέλων, οι ακατάλληλες απαντήσεις και οι εσφαλμένες ταξινομήσεις που προκαλούνται από σκόπιμη χειραγώγηση έχουν αυξηθεί σε συχνότητα. Η δημόσια εμπιστοσύνη είναι ήδη εξευτελιστική — μόνο το 34% των ανθρώπων πιστεύουν ακράδαντα ότι μπορούν να εμπιστευτούν τις εταιρείες τεχνολογίας με τη διακυβέρνηση της τεχνητής νοημοσύνης.
Παραδείγματα δηλητηρίασης δεδομένων μηχανικής μάθησης
Ενώ υπάρχουν πολλοί τύποι δηλητηριάσεων, μοιράζονται τον στόχο να επηρεάσουν την απόδοση ενός μοντέλου ML. Γενικά, το καθένα περιλαμβάνει την παροχή ανακριβών ή παραπλανητικών πληροφοριών για την αλλαγή της συμπεριφοράς. Για παράδειγμα, κάποιος θα μπορούσε να εισαγάγει μια εικόνα ενός πινακίδας ορίου ταχύτητας σε ένα σύνολο δεδομένων πινακίδων στάσης για να ξεγελάσει ένα αυτο-οδηγούμενο αυτοκίνητο ώστε να ταξινομήσει εσφαλμένα την οδική σήμανση.
Εκδήλωση VB
The AI Impact Tour – NYC
Θα είμαστε στη Νέα Υόρκη στις 29 Φεβρουαρίου σε συνεργασία με τη Microsoft για να συζητήσουμε πώς να εξισορροπήσουμε τους κινδύνους και τις ανταμοιβές των εφαρμογών τεχνητής νοημοσύνης. Ζητήστε μια πρόσκληση στην αποκλειστική εκδήλωση παρακάτω.
Ζητήστε μια πρόσκληση
Ακόμα κι αν ένας επιθετικός δεν μπορούν να έχουν πρόσβαση στα δεδομένα εκπαίδευσης, μπορούν ακόμα να παρεμβαίνουν στο μοντέλο, εκμεταλλευόμενοι την ικανότητά του να προσαρμόζει τη συμπεριφορά του. Θα μπορούσαν να εισάγουν χιλιάδες στοχευμένα μηνύματα ταυτόχρονα για να παραμορφώσουν τη διαδικασία ταξινόμησής του. Η Google αντιμετώπισε αυτό πριν από μερικά χρόνια, όταν οι εισβολείς έστειλαν εκατομμύρια μηνύματα ηλεκτρονικού ταχυδρομείου ταυτόχρονα για να μπερδέψουν το φίλτρο email της με την εσφαλμένη κατηγοριοποίηση της ανεπιθύμητης αλληλογραφίας ως νόμιμης αλληλογραφίας.
Σε μια άλλη περίπτωση του πραγματικού κόσμου, η είσοδος χρήστη άλλαξε μόνιμα έναν αλγόριθμο ML. Η Microsoft κυκλοφόρησε το νέο της chatbot “Tay” στο Twitter το 2016, προσπαθώντας να μιμηθεί το στυλ συνομιλίας μιας έφηβης. Μετά από μόλις 16 ώρες, είχε δημοσιεύσει περισσότερα από 95.000 tweets — τα περισσότερα από τα οποία ήταν μίσος, μεροληπτικά ή προσβλητικά. Η επιχείρηση ανακάλυψε γρήγορα ότι οι άνθρωποι υπέβαλαν μαζικά ακατάλληλα στοιχεία για να αλλάξουν την παραγωγή του μοντέλου.
Κοινές τεχνικές δηλητηρίασης δεδομένων
Οι τεχνικές δηλητηρίασης μπορούν να εμπίπτουν σε τρεις γενικές κατηγορίες. Το πρώτο είναι παραποίηση δεδομένων, όπου κάποιος αλλοιώνει κακόβουλα το εκπαιδευτικό υλικό για να επηρεάσει την απόδοση του μοντέλου. Μια επίθεση με ένεση — όπου ένας εισβολέας εισάγει ανακριβή, προσβλητικά ή παραπλανητικά δεδομένα — είναι ένα χαρακτηριστικό παράδειγμα.
Το χτύπημα της ετικέτας είναι ένα άλλο παράδειγμα παραβίασης. Σε αυτήν την επίθεση, ο εισβολέας απλώς αλλάζει εκπαιδευτικό υλικό για να μπερδέψει το μοντέλο. Ο στόχος είναι να το κάνει να ταξινομήσει λανθασμένα ή να υπολογίσει σοβαρά, αλλάζοντας τελικά σημαντικά την απόδοσή του.
Η δεύτερη κατηγορία περιλαμβάνει χειρισμό μοντέλου κατά τη διάρκεια και μετά την εκπαίδευση, όπου οι επιτιθέμενοι κάνουν σταδιακές τροποποιήσεις για να επηρεάσουν το αλγόριθμος. Μια επίθεση από κερκόπορτα είναι ένα παράδειγμα αυτού. Σε αυτήν την περίπτωση, κάποιος δηλητηριάζει ένα μικρό υποσύνολο του συνόλου δεδομένων — μετά την απελευθέρωση, προτρέπουν ένα συγκεκριμένο έναυσμα για να προκαλέσει ακούσια συμπεριφορά.
Η τρίτη κατηγορία περιλαμβάνει τον χειρισμό του μοντέλου μετά την ανάπτυξη. Ένα παράδειγμα είναι η δηλητηρίαση με split-view, όπου κάποιος αναλαμβάνει τον έλεγχο μιας πηγής ένας αλγόριθμος ευρετηριάζει και τη γεμίζει με ανακριβείς πληροφορίες. Μόλις το μοντέλο ML χρησιμοποιήσει τον πρόσφατα τροποποιημένο πόρο, θα υιοθετήσει τα δηλητηριασμένα δεδομένα.
Η σημασία των προσπαθειών προληπτικής ανίχνευσης
Όσον αφορά τη δηλητηρίαση δεδομένων, το να είσαι προληπτικός είναι ζωτικής σημασίας για την προβολή της ακεραιότητας ενός μοντέλου ML. Η ακούσια συμπεριφορά από ένα chatbot μπορεί να είναι προσβλητική ή υποτιμητική, αλλά οι δηλητηριασμένες εφαρμογές ML που σχετίζονται με την ασφάλεια στον κυβερνοχώρο έχουν πολύ πιο σοβαρές συνέπειες.
Εάν κάποιος αποκτήσει πρόσβαση σε ένα σύνολο δεδομένων ML για να το δηλητηριάσει, θα μπορούσε να αποδυναμωθεί σοβαρά ασφάλεια — για παράδειγμα, πρόκληση εσφαλμένων ταξινομήσεων κατά τον εντοπισμό απειλών ή το φιλτράρισμα ανεπιθύμητων μηνυμάτων. Δεδομένου ότι η παραβίαση συμβαίνει συνήθως σταδιακά, κανείς δεν θα ανακαλύψει πιθανώς την παρουσία του επιτιθέμενου 280 ημέρες κατά μέσο όρο. Για να μην περάσουν απαρατήρητες, οι εταιρείες πρέπει να είναι προορατικές.
Δυστυχώς, η κακόβουλη παραβίαση είναι απίστευτα απλή. Το 2022, μια ερευνητική ομάδα ανακάλυψε ότι μπορούσε δηλητήριο 0,01% από τα μεγαλύτερα σύνολα δεδομένων — COYO-700M ή LAION-400M — μόνο με 60 $.
Αν και ένα τόσο μικρό ποσοστό μπορεί να φαίνεται ασήμαντο, μια μικρή ποσότητα μπορεί να έχει σοβαρές συνέπειες. Ένα απλό 3% δηλητηρίαση δεδομένων μπορεί να αυξήσει τα ποσοστά σφαλμάτων ανίχνευσης ανεπιθύμητης αλληλογραφίας ενός μοντέλου ML από 3% σε 24%. Λαμβάνοντας υπόψη ότι η φαινομενικά μικρή παραβίαση μπορεί να είναι καταστροφική, είναι απαραίτητες οι προληπτικές προσπάθειες ανίχνευσης.
Τρόποι ανίχνευσης δηλητηριασμένων δεδομένων μηχανικής μάθησης
Τα καλά νέα είναι ότι οι οργανισμοί μπορούν να λάβουν πολλά μέτρα για την ασφάλεια των δεδομένων εκπαίδευσης, την επαλήθευση της ακεραιότητας των δεδομένων και την παρακολούθηση για ανωμαλίες για να ελαχιστοποιήσουν τις πιθανότητες δηλητηρίασης.
1: Εξυγίανση δεδομένων
Η απολύμανση αφορά τον «καθαρισμό» του εκπαιδευτικού υλικού πριν φτάσει στον αλγόριθμο. Περιλαμβάνει φιλτράρισμα και επικύρωση δεδομένων, όπου κάποιος φιλτράρει ανωμαλίες και ακραίες τιμές. Εάν εντοπίσουν ύποπτα, ανακριβή ή μη αυθεντικά δεδομένα, τα αφαιρούν.
2: Παρακολούθηση μοντέλου
Μετά την ανάπτυξη, μια εταιρεία μπορεί να παρακολουθεί τους μοντέλο ML σε πραγματικό χρόνο για να βεβαιωθείτε ότι δεν θα εμφανίσει ξαφνικά ακούσια συμπεριφορά. Εάν παρατηρήσουν ύποπτες απαντήσεις ή απότομη αύξηση των ανακρίβειων, μπορούν να αναζητήσουν την πηγή της δηλητηρίασης.
Η ανίχνευση ανωμαλιών παίζει σημαντικό ρόλο εδώ, καθώς βοηθά στον εντοπισμό περιπτώσεων δηλητηρίασης. Ένας τρόπος με τον οποίο μια επιχείρηση μπορεί να εφαρμόσει αυτήν την τεχνική είναι να δημιουργήσει έναν αλγόριθμο αναφοράς και ελέγχου μαζί με το δημόσιο μοντέλο της για σύγκριση.
3: Ασφάλεια πηγής
Η διασφάλιση των συνόλων δεδομένων ML είναι πιο σημαντική από ποτέ, επομένως οι επιχειρήσεις πρέπει να αντλούν μόνο από αξιόπιστες πηγές. Επιπλέον, θα πρέπει να επαληθεύουν την αυθεντικότητα και την ακεραιότητα πριν εκπαιδεύσουν το μοντέλο τους. Αυτή η μέθοδος ανίχνευσης ισχύει επίσης για ενημερώσεις, επειδή οι εισβολείς μπορούν εύκολα να δηλητηριάσουν ιστότοπους που είχαν καταχωριστεί στο παρελθόν.
4: Ενημερώσεις
Η τακτική απολύμανση και ενημέρωση ενός συνόλου δεδομένων ML μετριάζει τη δηλητηρίαση από τη διάσπαση και τις επιθέσεις κερκόπορτας. Η διασφάλιση ότι οι πληροφορίες στις οποίες εκπαιδεύεται ένα μοντέλο είναι ακριβείς, κατάλληλες και άθικτες είναι μια συνεχής διαδικασία.
5: Επικύρωση εισαγωγής χρήστη
Οι οργανισμοί θα πρέπει να φιλτράρουν και να επικυρώνουν όλα τα δεδομένα για να αποτρέψουν τους χρήστες από το να αλλάξουν τη συμπεριφορά ενός μοντέλου με στοχευμένες, ευρέως διαδεδομένες, κακόβουλες συνεισφορές. Αυτή η μέθοδος ανίχνευσης μειώνει τη ζημιά από την έγχυση, τη δηλητηρίαση με διάσπαση όψη και τις επιθέσεις κερκόπορτας.
Οι οργανισμοί μπορούν να αποτρέψουν τη δηλητηρίαση δεδομένων
Παρόλο που η δηλητηρίαση δεδομένων ML μπορεί να είναι δύσκολο να εντοπιστεί, μια προληπτική, συντονισμένη προσπάθεια μπορεί να μειώσει σημαντικά τις πιθανότητες που οι χειρισμοί να επηρεάσουν την απόδοση του μοντέλου. Με αυτόν τον τρόπο, οι επιχειρήσεις μπορούν να βελτιώσουν την ασφάλειά τους και να προστατεύσουν την ακεραιότητα του αλγορίθμου τους.
Ο Zac Amos είναι επεξεργαστής χαρακτηριστικών στο Rehackόπου καλύπτει την κυβερνοασφάλεια, την τεχνητή νοημοσύνη και τον αυτοματισμό.
DataDecisionMakers
Καλώς ήρθατε στην κοινότητα του VentureBeat!
Το DataDecisionMakers είναι όπου οι ειδικοί, συμπεριλαμβανομένων των τεχνικών που ασχολούνται με τα δεδομένα, μπορούν να μοιράζονται πληροφορίες και καινοτομίες που σχετίζονται με δεδομένα.
Εάν θέλετε να διαβάσετε για ιδέες αιχμής και ενημερωμένες πληροφορίες, τις βέλτιστες πρακτικές και το μέλλον των δεδομένων και της τεχνολογίας δεδομένων, ελάτε μαζί μας στο DataDecisionMakers.
Μπορείτε ακόμη και να σκεφτείτε συνεισφέροντας ένα άρθρο δικό σου!