Δείτε όλες τις κατ’ απαίτηση συνεδρίες από το Intelligent Security Summit εδώ.
Οι ψηφιακοί βοηθοί του μέλλοντος υπόσχονται να κάνουν την καθημερινότητα πιο εύκολη. Θα είμαστε σε θέση να τους ζητήσουμε να εκτελέσουν εργασίες όπως η κράτηση καταλυμάτων για επαγγελματικά ταξίδια εκτός πόλης με βάση το περιεχόμενο ενός email ή η απάντηση σε ανοιχτές ερωτήσεις που απαιτούν ένα μείγμα προσωπικού πλαισίου και δημόσιας γνώσης. (Για παράδειγμα: «Είναι η αρτηριακή μου πίεση στο φυσιολογικό εύρος για κάποιον της ηλικίας μου;»)
Αλλά προτού μπορέσουμε να φτάσουμε σε νέα επίπεδα αποτελεσματικότητας στην εργασία και στο σπίτι, πρέπει να απαντηθεί ένα μεγάλο ερώτημα: Πώς μπορούμε να παρέχουμε στους χρήστες ισχυρές και διαφανείς εγγυήσεις απορρήτου σχετικά με τις υποκείμενες προσωπικές πληροφορίες που μηχανική μάθηση Τα μοντέλα (ML) χρησιμοποιούν για να καταλήξουν σε αυτές τις απαντήσεις;
Εάν περιμένουμε από τους ψηφιακούς βοηθούς να διευκολύνουν προσωπικές εργασίες που περιλαμβάνουν συνδυασμό δημόσιων και ιδιωτικών δεδομένων, θα χρειαστούμε την τεχνολογία για να παρέχει «τέλεια μυστικότητα» ή το υψηλότερο δυνατό επίπεδο απορρήτου, σε ορισμένες περιπτώσεις. Μέχρι τώρα, οι προηγούμενες μέθοδοι είτε αγνοούσαν την ερώτηση απορρήτου είτε παρείχαν ασθενέστερες εγγυήσεις απορρήτου.
Τρίτο έτος Stanford επιστήμης υπολογιστών Ph.D. μαθητης σχολειου Σιμράν Αρόρα έχει μελετήσει τη διασταύρωση ML και ιδιωτικότητας με τον αναπληρωτή καθηγητή Christopher Ré ως σύμβουλός της. Πρόσφατα, ξεκίνησαν να διερευνήσουν εάν τα αναδυόμενα μοντέλα θεμελίωσης – μεγάλα μοντέλα ML που εκπαιδεύονται σε τεράστιους όγκους δημόσιων δεδομένων – έχουν την απάντηση σε αυτήν την επείγουσα ερώτηση απορρήτου. ο προκύπτον χαρτί κυκλοφόρησε τον Μάιο του 2022 στην υπηρεσία προεκτύπωσης ArXiv, με ένα προτεινόμενο πλαίσιο και απόδειξη της ιδέας για τη χρήση ML στο πλαίσιο προσωπικών εργασιών.
Η απόλυτη μυστικότητα ορίζεται
Σύμφωνα με την Arora, μια τέλεια εγγύηση μυστικότητας πληροί δύο προϋποθέσεις. Πρώτον, καθώς οι χρήστες αλληλεπιδρούν με το σύστημα, η πιθανότητα οι αντίπαλοι να μαθαίνουν προσωπικές πληροφορίες δεν αυξάνεται. Δεύτερον, καθώς ολοκληρώνονται πολλαπλές προσωπικές εργασίες χρησιμοποιώντας τα ίδια προσωπικά δεδομένα, η πιθανότητα τυχαίας κοινής χρήσης δεδομένων δεν αυξάνεται.
Έχοντας υπόψη αυτόν τον ορισμό, έχει προσδιορίσει τρία κριτήρια για την αξιολόγηση ενός συστήματος απορρήτου έναντι του στόχου της απόλυτης μυστικότητας:
- Απόρρητο: Πόσο καλά αποτρέπει το σύστημα τη διαρροή ιδιωτικών δεδομένων;
- Ποιότητα: Πώς εκτελεί το μοντέλο μια δεδομένη εργασία όταν είναι εγγυημένη η απόλυτη μυστικότητα;
- Σκοπιμότητα: Είναι η προσέγγιση ρεαλιστική όσον αφορά το χρόνο και το κόστος που προκύπτουν για την εκτέλεση του μοντέλου;
Σήμερα, τα υπερσύγχρονα συστήματα απορρήτου χρησιμοποιούν μια προσέγγιση που ονομάζεται ομοσπονδιακή μάθηση, η οποία διευκολύνει τη συλλογική εκπαίδευση μοντέλων σε πολλά μέρη, ενώ αποτρέπει την ανταλλαγή ακατέργαστων δεδομένων. Σε αυτή τη μέθοδο, το μοντέλο αποστέλλεται σε κάθε χρήστη και στη συνέχεια επιστρέφεται σε έναν κεντρικό διακομιστή με τις ενημερώσεις αυτού του χρήστη. Τα δεδομένα πηγής δεν αποκαλύπτονται ποτέ στους συμμετέχοντες, θεωρητικά. Αλλά δυστυχώς, άλλοι ερευνητές βρήκαν ότι είναι δυνατό να ανακτηθούν δεδομένα από ένα εκτεθειμένο μοντέλο.
Η δημοφιλής τεχνολογία που χρησιμοποιείται για τη βελτίωση της εγγύησης απορρήτου της ομοσπονδιακής μάθησης ονομάζεται διαφορική ιδιωτικότητα, η οποία είναι μια στατιστική προσέγγιση για τη διαφύλαξη ιδιωτικών πληροφοριών. Αυτή η τεχνολογία απαιτεί από τον υλοποιητή να ορίσει τις παραμέτρους απορρήτου, οι οποίες διέπουν μια αντιστάθμιση μεταξύ της απόδοσης του μοντέλου και του απορρήτου των πληροφοριών. Είναι δύσκολο για τους επαγγελματίες να ορίσουν αυτές τις παραμέτρους στην πράξη και η αντιστάθμιση μεταξύ ιδιωτικότητας και ποιότητας δεν τυποποιείται από το νόμο. Αν και οι πιθανότητες παραβίασης μπορεί να είναι πολύ μικρές, η απόλυτη μυστικότητα δεν είναι εγγυημένη με μια ομοσπονδιακή προσέγγιση μάθησης.
«Προς το παρόν, ο κλάδος έχει επικεντρωθεί στη στατιστική συλλογιστική», εξήγησε ο Arora. «Με άλλα λόγια, πόσο πιθανό είναι κάποιος να ανακαλύψει τα προσωπικά μου στοιχεία; Η διαφορική προσέγγιση απορρήτου που χρησιμοποιείται στην ομοσπονδιακή μάθηση απαιτεί από τους οργανισμούς να κάνουν κρίσεις μεταξύ χρησιμότητας και ιδιωτικότητας. Αυτό δεν είναι ιδανικό.”
Μια νέα προσέγγιση με μοντέλα θεμελίωσης
Όταν η Arora είδε πόσο καλά αρέσει στα μοντέλα foundation GPT-3 εκτελεί νέες εργασίες από απλές εντολές, συχνά χωρίς να χρειάζεται πρόσθετη εκπαίδευση, αναρωτήθηκε αν αυτές οι δυνατότητες θα μπορούσαν να εφαρμοστούν σε προσωπικές εργασίες, παρέχοντας παράλληλα ισχυρότερο απόρρητο από το status quo.
«Με αυτά τα μεγάλα γλωσσικά μοντέλα, μπορείτε να πείτε «Πες μου το συναίσθημα αυτής της κριτικής» σε φυσική γλώσσα και το μοντέλο δίνει την απάντηση — θετική, αρνητική ή ουδέτερη», είπε. «Μπορούμε στη συνέχεια να χρησιμοποιήσουμε το ίδιο ακριβώς μοντέλο χωρίς αναβαθμίσεις για να κάνουμε μια νέα ερώτηση με προσωπικό πλαίσιο, όπως «Πες μου το θέμα αυτού του μηνύματος ηλεκτρονικού ταχυδρομείου». ”
Οι Arora και Ré άρχισαν να εξερευνούν τη δυνατότητα χρήσης μοντέλων δημοσίων θεμελίων εκτός ραφιού σε ένα σιλό ιδιωτικού χρήστη για την εκτέλεση προσωπικών εργασιών. Ανέπτυξαν ένα απλό πλαίσιο που ονομάζεται Foundation Model Controls for User Secrecy (FOCUS), το οποίο προτείνει τη χρήση μιας μονοκατευθυντικής αρχιτεκτονικής ροής δεδομένων για την ολοκλήρωση προσωπικών εργασιών διατηρώντας παράλληλα το απόρρητο.
Η μονόδρομη πτυχή του πλαισίου είναι καίριας σημασίας, διότι σημαίνει ότι σε ένα σενάριο με διαφορετικά πεδία απορρήτου (δηλαδή έναν συνδυασμό δημόσιων και ιδιωτικών δεδομένων), το σύνολο δεδομένων του δημόσιου θεμελίου μοντέλου ερωτάται πριν από το ιδιωτικό σύνολο δεδομένων του χρήστη, αποτρέποντας έτσι τη διαρροή πίσω στη δημόσια αρένα.
Δοκιμή της θεωρίας
Οι Arora και Ré αξιολόγησαν το πλαίσιο FOCUS με βάση τα κριτήρια της ιδιωτικότητας, της ποιότητας και της σκοπιμότητας. Τα αποτελέσματα ήταν ενθαρρυντικά για την απόδειξη της ιδέας. Το FOCUS όχι μόνο παρέχει προστασία προσωπικών δεδομένων, αλλά προχωρά επίσης περισσότερο για να κρύψει την πραγματική εργασία που ζητήθηκε από το μοντέλο να εκτελέσει καθώς και τον τρόπο ολοκλήρωσης της εργασίας. Το καλύτερο από όλα, αυτή η προσέγγιση δεν θα απαιτούσε από τους οργανισμούς να ορίσουν παραμέτρους απορρήτου που κάνουν συμβιβασμούς μεταξύ χρησιμότητας και ιδιωτικότητας.
Όσον αφορά την ποιότητα, η προσέγγιση του βασικού μοντέλου συναγωνίστηκε την ομοσπονδιακή μάθηση σε έξι από τα επτά τυπικά σημεία αναφοράς. Ωστόσο, δεν είχε απόδοση σε δύο συγκεκριμένα σενάρια: Όταν ζητήθηκε από το μοντέλο να κάνει μια εργασία εκτός τομέα (κάτι που δεν περιλαμβάνεται στη διαδικασία εκπαίδευσης) και όταν η εργασία εκτελούνταν με μικρά μοντέλα θεμελίωσης.
Τέλος, εξέτασαν τη σκοπιμότητα του πλαισίου τους σε σύγκριση με μια προσέγγιση ομοσπονδιακής μάθησης. Το FOCUS εξαλείφει τους πολλούς γύρους επικοινωνίας μεταξύ των χρηστών που προκύπτουν με την ομοσπονδιακή μάθηση και αφήνει το προεκπαιδευμένο μοντέλο βάσης να κάνει τη δουλειά γρηγορότερα μέσω της εξαγωγής συμπερασμάτων — κάνοντας μια πιο αποτελεσματική διαδικασία.
Κίνδυνοι του μοντέλου θεμελίωσης
Η Arora σημειώνει ότι πρέπει να αντιμετωπιστούν αρκετές προκλήσεις προτού τα μοντέλα θεμελίων μπορούν να χρησιμοποιηθούν ευρέως για προσωπικές εργασίες. Για παράδειγμα, η μείωση της απόδοσης FOCUS όταν ζητείται από το μοντέλο να κάνει μια εργασία εκτός τομέα είναι μια ανησυχία, όπως και ο αργός χρόνος εκτέλεσης της διαδικασίας συμπερασμάτων με μεγάλα μοντέλα. Προς το παρόν, η Arora συνιστά στην κοινότητα απορρήτου να εξετάζει όλο και περισσότερο τα θεμελιώδη μοντέλα ως βάση και εργαλείο κατά το σχεδιασμό νέων σημείων αναφοράς απορρήτου και την παροχή κινήτρων στην ανάγκη για ομοσπονδιακή μάθηση. Τελικά, η κατάλληλη προσέγγιση απορρήτου εξαρτάται από το περιβάλλον του χρήστη.
Τα μοντέλα θεμελίωσης εισάγουν επίσης τους δικούς τους εγγενείς κινδύνους. Είναι ακριβό να προπονηθούν και μπορεί να έχουν παραισθήσεις ή να ταξινομήσουν εσφαλμένα τις πληροφορίες όταν είναι αβέβαιοι. Υπάρχει επίσης μια δίκαιη ανησυχία στο ότι, μέχρι στιγμής, τα βασικά μοντέλα είναι διαθέσιμα κυρίως για γλώσσες πλούσιες σε πόρους, επομένως ένα δημόσιο μοντέλο μπορεί να μην υπάρχει για όλες τις προσωπικές ρυθμίσεις.
Οι προϋπάρχουσες διαρροές δεδομένων είναι ένας άλλος παράγοντας που περιπλέκει. “Εάν τα μοντέλα θεμελίωσης εκπαιδεύονται σε δεδομένα ιστού που περιέχουν ήδη ευαίσθητες πληροφορίες που έχουν διαρρεύσει, αυτό εγείρει ένα εντελώς νέο σύνολο ανησυχιών για το απόρρητο”, αναγνώρισε η Arora.
Κοιτάζοντας μπροστά, αυτή και οι συνάδελφοί της στο Hazy Research Lab στο Stanford διερευνούν μεθόδους για την προώθηση πιο αξιόπιστων συστημάτων και την ενεργοποίηση συμπεριφορών εντός του πλαισίου με μικρότερα μοντέλα θεμελίωσης, τα οποία είναι καλύτερα κατάλληλα για προσωπικές εργασίες σε συσκευές χρηστών χαμηλών πόρων.
Ο Arora μπορεί να οραματιστεί ένα σενάριο, όχι πολύ μακρινό, όπου θα ζητήσετε από έναν ψηφιακό βοηθό να κλείσει μια πτήση με βάση ένα email που αναφέρει τον προγραμματισμό μιας συνάντησης με έναν πελάτη εκτός πόλης. Και το μοντέλο θα συντονίζει τα ταξιδιωτικά logistics χωρίς να αποκαλύπτει λεπτομέρειες σχετικά με το άτομο ή την εταιρεία που πρόκειται να συναντήσετε.
«Είναι ακόμη νωρίς, αλλά ελπίζω ότι το πλαίσιο FOCUS και η απόδειξη της ιδέας θα ωθήσουν την περαιτέρω μελέτη της εφαρμογής μοντέλων δημόσιων ιδρυμάτων σε ιδιωτικές εργασίες», δήλωσε ο Arora.
Ο Nikki Goth Itoi είναι συγγραφέας του Stanford Institute for Human-Cented AI.
Αυτή η ιστορία εμφανίστηκε αρχικά στο Hai.stanford.edu. Πνευματικά δικαιώματα 2022
DataDecisionMakers
Καλώς ήρθατε στην κοινότητα του VentureBeat!
Το DataDecisionMakers είναι όπου οι ειδικοί, συμπεριλαμβανομένων των τεχνικών ανθρώπων που ασχολούνται με τα δεδομένα, μπορούν να μοιραστούν πληροφορίες και καινοτομίες που σχετίζονται με δεδομένα.
Εάν θέλετε να διαβάσετε για ιδέες αιχμής και ενημερωμένες πληροφορίες, τις βέλτιστες πρακτικές και το μέλλον των δεδομένων και της τεχνολογίας δεδομένων, ελάτε μαζί μας στο DataDecisionMakers.
Μπορείτε ακόμη και να σκεφτείτε συνεισφέροντας ένα άρθρο δικό σου!