Είναι μια σημαντική φυσιογνωμία πίσω από τη σημερινή έκρηξη της τεχνητής νοημοσύνης, αλλά δεν πίστευαν όλοι οι επιστήμονες υπολογιστών η Fei-Fei Li ήταν στο σωστό δρόμο όταν σκέφτηκε την ιδέα για μια τεράστια οπτική βάση δεδομένων που ονομάζεται ImageNet που χρειάστηκε χρόνια για να κατασκευαστεί.
Η Λι, τώρα ιδρυτική διευθύντρια του Ινστιτούτου Ανθρωποκεντρικής Τεχνητής Νοημοσύνης του Πανεπιστημίου Στάνφορντ, κυκλοφορεί με νέα απομνημονεύματα που αφηγείται την πρωτοποριακή της δουλειά στην επιμέλεια του συνόλου δεδομένων που επιτάχυνε τον κλάδο όρασης υπολογιστή της AI.
Το βιβλίο, «The World I See», απεικονίζει επίσης τα διαμορφωτικά της χρόνια που μετατοπίστηκαν απότομα από την Κίνα στο Νιου Τζέρσεϊ και την ακολουθεί στον ακαδημαϊκό χώρο, τη Silicon Valley και τις αίθουσες του Κογκρέσου, καθώς η αυξανόμενη εμπορευματοποίηση της τεχνολογίας AI προκάλεσε την προσοχή του κοινού και μια αντίδραση. Μίλησε στο Associated Press για το βιβλίο και την τρέχουσα στιγμή της τεχνητής νοημοσύνης. Η συνέντευξη έχει επεξεργαστεί για λόγους έκτασης και σαφήνειας.
Ε: Το βιβλίο σας περιγράφει πώς οραματιστήκατε το ImageNet ως κάτι περισσότερο από ένα τεράστιο σύνολο δεδομένων. Μπορείς να εξηγήσεις?
Α: Το ImageNet είναι πραγματικά η βασική ιστορία του εντοπισμού του Βόρειου Αστέρα ενός προβλήματος τεχνητής νοημοσύνης και στη συνέχεια της εύρεσης ενός τρόπου για να φτάσετε εκεί. Το North Star για μένα ήταν να ξανασκεφτώ πραγματικά πώς μπορούμε να λύσουμε το πρόβλημα της οπτικής νοημοσύνης. Ένα από τα πιο θεμελιώδη προβλήματα στην οπτική νοημοσύνη είναι η κατανόηση ή η θέαση αντικειμένων επειδή ο κόσμος αποτελείται από αντικείμενα. Η ανθρώπινη όραση βασίζεται στην κατανόησή μας για τα αντικείμενα. Και είναι πολλοί, πολλοί, πολλοί από αυτούς. Το ImageNet είναι πραγματικά μια προσπάθεια ορισμού του προβλήματος της αναγνώρισης αντικειμένων και επίσης για την παροχή μιας διαδρομής για την επίλυσή του, η οποία είναι η διαδρομή μεγάλων δεδομένων.
Ε: Αν μπορούσα να ταξιδέψω στο χρόνο πριν από 15 χρόνια, όταν εργάζεστε σκληρά στο ImageNet και σας έλεγα για το DALL-E, το Stable Diffusion, το Google Gemini και το ChatGPT — τι θα σας εξέπληττε περισσότερο;
Α: Αυτό που δεν με εκπλήσσει είναι ότι όλα όσα αναφέρετε — DALL-E, ChatGPT, Gemini — βασίζονται σε μεγάλα δεδομένα. Είναι προεκπαιδευμένοι σε μεγάλο όγκο δεδομένων. Αυτό ακριβώς ήλπιζα. Αυτό που με εξέπληξε είναι ότι φτάσαμε στη γενετική τεχνητή νοημοσύνη πιο γρήγορα από ό,τι πιστεύαμε οι περισσότεροι. Η γενιά για τους ανθρώπους στην πραγματικότητα δεν είναι τόσο εύκολη. Οι περισσότεροι από εμάς δεν είμαστε φυσικοί καλλιτέχνες. Η πιο εύκολη γενιά για τον άνθρωπο είναι οι λέξεις γιατί η ομιλία είναι γενεσιουργός, αλλά το σχέδιο και η ζωγραφική δεν είναι γενεσιουργό για τους κανονικούς ανθρώπους. Χρειαζόμαστε τους Βαν Γκογκ του κόσμου.
Ε: Τι πιστεύετε ότι θέλουν οι περισσότεροι άνθρωποι από τις έξυπνες μηχανές και είναι αυτό ευθυγραμμισμένο με αυτό που κατασκευάζουν οι επιστήμονες και οι εταιρείες τεχνολογίας;
Α: Νομίζω ότι βασικά οι άνθρωποι θέλουν αξιοπρέπεια και καλή ζωή. Αυτή είναι σχεδόν η ιδρυτική αρχή της χώρας μας. Οι μηχανές και η τεχνολογία θα πρέπει να ευθυγραμμιστούν με τις παγκόσμιες ανθρώπινες αξίες – αξιοπρέπεια και καλύτερη ζωή, συμπεριλαμβανομένης της ελευθερίας και όλων αυτών των πραγμάτων. Μερικές φορές όταν μιλάμε για τεχνολογία ή μερικές φορές όταν φτιάχνουμε τεχνολογία, είτε είναι σκόπιμη είτε ακούσια, δεν μιλάμε αρκετά για αυτό. Όταν λέω «εμείς», περιλαμβάνει τεχνολόγους, επιχειρήσεις, αλλά και δημοσιογράφους. Είναι συλλογική μας ευθύνη.
Ε: Ποιες είναι οι μεγαλύτερες παρανοήσεις σχετικά με την τεχνητή νοημοσύνη;
Α: Η μεγαλύτερη παρανόηση της τεχνητής νοημοσύνης στη δημοσιογραφία είναι όταν οι δημοσιογράφοι χρησιμοποιούν το θέμα AI και ένα ρήμα και βάζουν ανθρώπους στο αντικείμενο. Η ανθρώπινη δράση είναι πολύ, πολύ σημαντική. Δημιουργούμε τεχνολογία, αναπτύσσουμε τεχνολογία και κυβερνάμε την τεχνολογία. Τα μέσα ενημέρωσης και ο δημόσιος λόγος, αλλά επηρεάζονται σε μεγάλο βαθμό από τα μέσα ενημέρωσης, μιλούν για την τεχνητή νοημοσύνη χωρίς τον κατάλληλο σεβασμό στην ανθρώπινη δράση. Έχουμε τόσα πολλά άρθρα, τόσες πολλές συζητήσεις, που ξεκινούν με «Το AI φέρνει μπλα, μπλα, μπλα. Το AI κάνει μπλα μπλα μπλα. Το AI παραδίδει μπλα μπλα μπλα. Το AI καταστρέφει μπλα, μπλα, μπλα». Και νομίζω ότι πρέπει να το αναγνωρίσουμε αυτό.
Ε: Έχοντας σπουδάσει νευροεπιστήμη προτού ασχοληθείτε με την όραση υπολογιστών, πόσο διαφορετικές ή παρόμοιες είναι οι διαδικασίες AI με την ανθρώπινη νοημοσύνη;
Α: Επειδή έχω γρατσουνίσει την επιφάνεια της νευροεπιστήμης, σέβομαι ακόμη περισσότερο πόσο διαφορετικές είναι. Δεν γνωρίζουμε πραγματικά τις περίπλοκες λεπτομέρειες για το πώς σκέφτεται ο εγκέφαλός μας. Έχουμε κάποια ιδέα για οπτικές εργασίες χαμηλότερου επιπέδου, όπως να βλέπουμε χρώματα και σχήματα. Αλλά δεν ξέρουμε πώς γράφουν οι άνθρωποι Σαίξπηρ, πώς αγαπάμε κάποιον, πώς σχεδιάσαμε τη γέφυρα Golden Gate. Υπάρχει τόση πολυπλοκότητα στην επιστήμη του ανθρώπινου εγκεφάλου που εξακολουθεί να είναι ένα μυστήριο. Δεν ξέρουμε πώς το κάνουμε αυτό σε λιγότερο από 30 watt, την ενέργεια που χρησιμοποιεί ο εγκέφαλος. Πώς γίνεται να είμαστε τόσο τρομεροί στα μαθηματικά ενώ είμαστε τόσο γρήγοροι στο να βλέπουμε και να περιηγούμαστε και να χειριζόμαστε τον φυσικό κόσμο; Ο εγκέφαλος είναι η άπειρη πηγή έμπνευσης για το τι πρέπει να είναι και τι πρέπει να κάνει η τεχνητή νοημοσύνη. Η νευρωνική του αρχιτεκτονική — (Νευροφυσιολόγοι που έχουν βραβευτεί με Νόμπελ) Ο Hubel και ο Wiesel ήταν πραγματικά οι ανακαλυπτές αυτού – ήταν η αρχή της έμπνευσης του τεχνητού νευρωνικού δικτύου. Δανειστήκαμε αυτήν την αρχιτεκτονική, παρόλο που μαθηματικά δεν αναπαράγει πλήρως αυτό που κάνει ο εγκέφαλος. Υπάρχει πολλή αλληλένδετη έμπνευση. Αλλά πρέπει επίσης να σεβαστούμε ότι υπάρχουν πολλά άγνωστα, επομένως είναι δύσκολο να απαντήσουμε πόσο μοιάζουν.