Δείτε όλες τις κατ’ απαίτηση συνεδρίες από το Intelligent Security Summit εδώ.
Τα μοντέλα θεμελίωσης συχνά εκπαιδεύονται σε αυτό που είναι ουσιαστικά ολόκληρο το Διαδίκτυο. Μαθαίνοντας από ένα τόσο τεράστιο σύνολο δεδομένων, μπορούν να απομνημονεύουν και να αναπαράγουν εντυπωσιακά πληροφορίες που θέλουμε να μάθουν. Για παράδειγμα, μπορεί να μάθουν να απαντούν με ακρίβεια σε πραγματικές ερωτήσεις όπως «Ποιος είναι ο πρόεδρος των Ηνωμένων Πολιτειών;»
Ταυτόχρονα, όμως, τα μοντέλα θεμελίωσης μπορούν απομνημονεύει και αναπαράγει πληροφορίες που θα μπορούσε να είναι επιβλαβές. Για παράδειγμα, μπορεί να αποκαλύψουν τους αριθμούς κοινωνικής ασφάλισης, τα στοιχεία της πιστωτικής κάρτας ή το ποινικό μητρώο των ατόμων ή να απαντήσουν σε ερωτήσεις σχετικά με τους μουσουλμάνους προτείνοντας ότι τρομοκράτες.
Αυτά είναι προβλήματα που πρέπει να επιλύσουν οι δημιουργοί μοντέλων ιδρυμάτων, λέει ο Peter Henderson, JD/Ph.D. φοιτητής στο Stanford: «Δεν θέλουμε τα μοντέλα να συνδέουν τους ανθρώπους είτε με το ιδιωτικό τους περιεχόμενο είτε με επιβλαβή χαρακτηριστικά.
Για να αποφευχθούν τέτοιες συνέπειες, οι δημιουργοί μοντέλων θεμελίων μερικές φορές προσπαθούν να φιλτράρουν ιδιωτικό ή τοξικό περιεχόμενο πριν χρησιμοποιήσουν ένα σύνολο δεδομένων για να εκπαιδεύσουν ένα μοντέλο. Αλλά η προσπάθεια να αφαιρέσετε όλο – ή ακόμα και το μεγαλύτερο μέρος – του ιδιωτικού ή τοξικού περιεχομένου από ολόκληρο το Διαδίκτυο είναι εξαιρετικά δύσκολο. Ένας λόγος: Το πλαίσιο έχει σημασία. Οι προσδοκίες για το απόρρητο διαφέρουν μεταξύ των πολιτισμών και ακόμη και με την πάροδο του χρόνου. Και το να αποφασίσετε εάν μια φράση είναι τοξική μπορεί να εξαρτάται από το ποιος μιλάει, γιατί χρησιμοποιεί μια συγκεκριμένη φράση και τις προσδοκίες των αναγνωστών. Εν ολίγοις: Είναι μια πράξη εξισορρόπησης και διαφορετικοί ερευνητές εφαρμόζουν διαφορετικά πρότυπα.
«Αναρωτηθήκαμε αν υπήρχε ένας πιο βασισμένος τρόπος για να φιλτράρουμε τα δεδομένα προεκπαίδευσης», λέει ο Henderson. Αυτός και οι συνάδελφοί του, συμπεριλαμβανομένου του Mark Krass, επίσης φοιτητή JD/PhD, είχαν μια ιδέα: Κοιτάξτε το νόμο. Υπάρχει μακρά ιστορία δικαστηρίων που θέτουν πρότυπα για την αποκάλυψη πληροφοριών, οπότε γιατί να μην εισάγετε αυτά τα πρότυπα στο περιβάλλον μηχανικής μάθησης (ML);
Για να δοκιμάσουν την ιδέα τους, ο Χέντερσον και οι συνάδελφοί του συγκεντρώθηκαν Σωρός νόμου, ένα τεράστιο σύνολο από δικαστικές και διοικητικές γνωμοδοτήσεις, νομικό κώδικα, βιβλία υποθέσεων και άλλα νομικά έγγραφα. Στη συνέχεια διερεύνησαν εάν το Pile of Law θα μπορούσε να βοηθήσει στον εντοπισμό ενός βασικού τρόπου φιλτραρίσματος των δεδομένων προεκπαίδευσης με ιδιαίτερη έμφαση στην ιδιωτικότητα και την τοξικότητα.
Με βάση την ομάδα αρχικά πειράματα, Το Pile of Law προσφέρει μερικές πολύτιμες ευκαιρίες: Πρώτον, μπορεί να βοηθήσει τους ερευνητές να διασφαλίσουν ότι τα δεδομένα εκπαίδευσής τους πληρούν τα ελάχιστα νομικά πρότυπα. Και δεύτερον, μπορεί να αποκαλύψει προβλήματα με κοινά πρότυπα φιλτραρίσματος, όπως στο πεδίο της τοξικότητας.
Φιλτράρισμα για απόρρητο
Όταν οι Henderson και Krass εξέτασαν για πρώτη φορά τα σύνολα δεδομένων που χρησιμοποιούνται επί του παρόντος για την εκπαίδευση μοντέλα θεμελίωσης, δεν βρήκαν κανένα που να ήταν ρητά φιλτραρισμένο για προσωπικά ευαίσθητες πληροφορίες. Έτσι αποφάσισαν να προσδιορίσουν τα πρότυπα που χρησιμοποιούν τα δικαστήρια και οι κυβερνήσεις για να εξισορροπήσουν το απόρρητο και τη διαφάνεια και στη συνέχεια να ελέγξουν εάν η σιωπηρή χρήση αυτών των προτύπων στο Pile of Law θα μπορούσε να τους οδηγήσει σε μια διαφοροποιημένη προσέγγιση στο φιλτράρισμα δεδομένων.
Πρώτα, η ομάδα κατέγραψε τους διάφορους τρόπους με τους οποίους τα δικαστήρια αντιμετώπισαν ζητήματα απορρήτου. Βρήκαν μερικούς αυστηρούς κανόνες που οι σχεδιαστές μοντέλων θα μπορούσαν να προσαρμόσουν για να φιλτράρουν τα δεδομένα εκπαίδευσής τους. Για παράδειγμα, καμία δικαιοδοσία των ΗΠΑ δεν αποκαλύπτει ονόματα ανηλίκων, αριθμούς κοινωνικής ασφάλισης, αριθμούς οικονομικών λογαριασμών ή ημερομηνίες γέννησης.
Αλλά βρήκαν επίσης προσεγγίσεις που ήταν πιο συμφραζόμενες. Για παράδειγμα, τα δικαστήρια των ΗΠΑ συνήθως αποκαλύπτουν ποινικά μητρώα ατόμων ή ονόματα διαδίκων σε αστικές υποθέσεις, αλλά υπάρχουν εξαιρέσεις. Σε υποθέσεις σεξουαλικής επίθεσης, για παράδειγμα, τα ονόματα των θυμάτων είναι συχνά ψευδώνυμα. Ομοίως, οι δικαστές του διοικητικού δικαίου χρησιμοποιούν τη διακριτική τους ευχέρεια για να προστατεύσουν τα ονόματα των ατόμων που έρχονται ενώπιόν τους σε πλαίσια όπως η αίτηση για επιδόματα αναπηρίας ή για πολιτικό άσυλο.
Η ύπαρξη αυτών των προτύπων με βάση τα συμφραζόμενα σημαίνει ότι ορισμένα υποσύνολα του Pile of Law έχουν ήδη φιλτραριστεί σιωπηρά για την προστασία του απορρήτου ορισμένων ατόμων. Στο πλαίσιο της μετανάστευσης, για παράδειγμα, τα άτομα που ζητούν άσυλο που ισχυρίζονται ότι βασανίστηκαν στις χώρες τους είναι πιθανό να έχουν λάβει ψευδώνυμα στο δημόσιο αρχείο.
Ο Χέντερσον και η ομάδα του αποφάσισαν να δοκιμάσουν εάν ένα μοντέλο θα μπορούσε να μάθει αυτά τα βασικά πρότυπα χρησιμοποιώντας το Pile of Law ως δεδομένα εκπαίδευσης. Το αποτέλεσμα: Ένα μοντέλο που προβλέπει με ακρίβεια 80% εάν μια παράγραφος σε μια υπόθεση μετανάστευσης πρέπει να χρησιμοποιεί ψευδώνυμο ή όχι. Και έδειξαν ότι αυτές οι προβλέψεις ήταν ευθυγραμμισμένες με το νόμο: Οι ποινές που αναφέρονταν σε άσυλο και βασανιστήρια ήταν πιο πιθανό να προκαλέσουν ψευδωνυμία παρά ποινές που αναφέρονται σε ποινικά αδικήματα.
Αυτά και πολλά άλλα πειράματα υποδηλώνουν ότι το Pile of Law μπορεί να βοηθήσει τους ερευνητές να αναπτύξουν φίλτρα απορρήτου κατάλληλα για το πλαίσιο, λέει ο Henderson. Στη συνέχεια, η ομάδα θα ήθελε να επεκτείνει αυτές τις προσπάθειες πέρα από τον νομικό τομέα: Θα μπορούσε ένα μοντέλο να μάθει να ονομάζει τα ονόματα των αιτούντων άσυλο σε ένα σύνολο δεδομένων που περιλαμβάνει ολόκληρο το Διαδίκτυο;
Φιλτράρισμα για τοξικότητα
Στην αρένα της τοξικότητας, ο Χέντερσον και ο Κρας βρήκαν ένα διαφορετικό τοπίο. Τα υπάρχοντα φίλτρα χρησιμοποιούνται ευρέως και υπερβαίνουν κατά πολύ αυτό που προτείνεται από τα πρότυπα του δικαστηρίου. Πράγματι, η εφαρμογή των σημερινών φίλτρων τοξικότητας στο Pile of Law θα μπορούσε να φιλτράρει σημαντικά τμήματα ορισμένων βασικών νομικών προηγούμενων από την εποχή των πολιτικών δικαιωμάτων, όπως Brown εναντίον Εκπαιδευτικού Συμβουλίουμια σημαντική υπόθεση που οδήγησε στην κατάργηση του διαχωρισμού των σχολείων στις Ηνωμένες Πολιτείες.
Επιπλέον, η ομάδα διαπίστωσε ότι τα υπάρχοντα φίλτρα μπορεί να αφαιρέσουν τοξικό περιεχόμενο από μικρότερα πεδία κειμένου, ενώ το αφήνουν στη θέση του εάν εμφανίζεται σε μεγαλύτερη γραπτή εργασία – ένα ανεξήγητο αποτέλεσμα που είναι δυνητικά προβληματικό.
«Το μάθημα είναι να σκεφτείς πιο προσεκτικά πριν βγάλεις ένα φίλτρο από το ράφι για να φιλτράρεις τα δεδομένα πριν από την προπόνηση», λέει ο Henderson. «Ως εκ τούτου, ζητούμε περισσότερη έρευνα για την κατάλληλη αντιμετώπιση της τοξικότητας στα δεδομένα εκπαίδευσης».
Επόμενο: Νομικός συλλογισμός
Ενώ οι Henderson και Krass ελπίζουν ότι το Pile of Law θα βοηθήσει να γίνει το φιλτράρισμα δεδομένων λιγότερο ad hoc από ό,τι είναι σήμερα, έχουν επίσης έναν δεύτερο στόχο: τη χρήση του Pile of Law για τη δημιουργία μοντέλων θεμελίων που είναι ικανά για νομικό συλλογισμό.
Η ομάδα έχει ήδη shown ότι τα θεμελιώδη μοντέλα κάνουν μια κακή δουλειά στην κατανόηση του τρόπου εφαρμογής του νόμου σε ένα σύνολο γεγονότων. Ωστόσο, ο Henderson ελπίζει ότι τα συστήματα AI θα βελτιώσουν μια μέρα την αποτελεσματικότητα και την πληρότητα των δικηγόρων, για παράδειγμα, ελέγχοντας τις αναφορές τους και εντοπίζοντας όλα τα σχετικά επιχειρήματα σε μια υπόθεση. Στόχος, λέει, είναι να βελτιωθεί η πρόσβαση στη δικαιοσύνη για άτομα που δεν έχουν την οικονομική δυνατότητα να πληρώσουν για δικηγόρο.
«Είναι μια δύσκολη πρόκληση, αλλά γιατί να μην επιδιώξουμε να λύσουμε ένα δύσκολο πρόβλημα;» αυτος λεει. «Και ένα που μπορεί πραγματικά να βοηθήσει τους ανθρώπους».
Η Katharine Miller είναι συγγραφέας που συνεισφέρει στο Stanford Institute for Human-Cented AI.
Αυτή η ιστορία εμφανίστηκε αρχικά στο Hai.stanford.edu. Πνευματικά δικαιώματα 2022
DataDecisionMakers
Καλώς ήρθατε στην κοινότητα του VentureBeat!
Το DataDecisionMakers είναι όπου οι ειδικοί, συμπεριλαμβανομένων των τεχνικών ανθρώπων που ασχολούνται με τα δεδομένα, μπορούν να μοιραστούν πληροφορίες και καινοτομίες που σχετίζονται με δεδομένα.
Εάν θέλετε να διαβάσετε για ιδέες αιχμής και ενημερωμένες πληροφορίες, τις βέλτιστες πρακτικές και το μέλλον των δεδομένων και της τεχνολογίας δεδομένων, ελάτε μαζί μας στο DataDecisionMakers.
Μπορείτε ακόμη και να σκεφτείτε συνεισφέροντας ένα άρθρο δικό σου!