Η ομάδα του αποφάσισε να το μάθει. Κατασκεύασαν τη νέα, διαφοροποιημένη έκδοση του AlphaZero, η οποία περιλαμβάνει πολλαπλά συστήματα τεχνητής νοημοσύνης που εκπαιδεύονται ανεξάρτητα και σε διάφορες καταστάσεις. Ο αλγόριθμος που διέπει το συνολικό σύστημα λειτουργεί ως ένα είδος εικονικού προξενητή, είπε ο Zahavy: ένας αλγόριθμος που έχει σχεδιαστεί για να προσδιορίζει ποιος πράκτορας έχει τις καλύτερες πιθανότητες να πετύχει όταν έρθει η ώρα να κάνει μια κίνηση. Αυτός και οι συνάδελφοί του κωδικοποίησαν επίσης ένα “μπόνους διαφορετικότητας” – μια ανταμοιβή για το σύστημα κάθε φορά που έβγαζε στρατηγικές από μια μεγάλη ποικιλία επιλογών.
Όταν το νέο σύστημα λύθηκε για να παίξει τα δικά του παιχνίδια, η ομάδα παρατήρησε μεγάλη ποικιλία. Ο διαφοροποιημένος παίκτης τεχνητής νοημοσύνης πειραματίστηκε με νέα, αποτελεσματικά ανοίγματα και καινοτόμες —αλλά υγιείς— αποφάσεις σχετικά με συγκεκριμένες στρατηγικές, όπως το πότε και πού να κάστρο. Στους περισσότερους αγώνες νίκησε το αρχικό AlphaZero. Η ομάδα διαπίστωσε επίσης ότι η διαφοροποιημένη έκδοση μπορούσε να λύσει διπλάσιο αριθμό γρίφων πρόκλησης από την αρχική και μπορούσε να λύσει περισσότερο από το ήμισυ του συνολικού καταλόγου των παζλ Penrose.
«Η ιδέα είναι ότι αντί να βρεθεί μια λύση ή μια ενιαία πολιτική, που θα κέρδιζε οποιονδήποτε παίκτη, εδώ [it uses] η ιδέα της δημιουργικής διαφορετικότητας», είπε η Cully.
Με πρόσβαση σε περισσότερα και διαφορετικά παιχνίδια που παίζονται, είπε ο Zahavy, το διαφοροποιημένο AlphaZero είχε περισσότερες επιλογές για κολλώδεις καταστάσεις όταν εμφανίζονταν. «Αν μπορείτε να ελέγξετε το είδος των παιχνιδιών που βλέπει, βασικά ελέγχετε πώς θα γενικευτεί», είπε. Αυτές οι παράξενες εγγενείς ανταμοιβές (και οι σχετικές κινήσεις τους) θα μπορούσαν να γίνουν δυνάμεις για διαφορετικές συμπεριφορές. Στη συνέχεια, το σύστημα θα μπορούσε να μάθει να αξιολογεί και να εκτιμά τις διαφορετικές προσεγγίσεις και να δει πότε ήταν πιο επιτυχημένες. «Διαπιστώσαμε ότι αυτή η ομάδα πρακτόρων μπορεί πραγματικά να καταλήξει σε συμφωνία σε αυτές τις θέσεις».
Και, πολύ σημαντικό, οι επιπτώσεις εκτείνονται πέρα από το σκάκι.
Δημιουργικότητα Πραγματικής Ζωής
Ο Cully είπε ότι μια διαφοροποιημένη προσέγγιση μπορεί να βοηθήσει οποιοδήποτε σύστημα AI, όχι μόνο αυτά που βασίζονται στην ενισχυτική μάθηση. Χρησιμοποίησε εδώ και καιρό την ποικιλομορφία για να εκπαιδεύσει φυσικά συστήματα, συμπεριλαμβανομένου του α ρομπότ με έξι πόδια που του επέτρεψαν να εξερευνήσει διάφορα είδη κίνησης, προτού το «τραυματίσει» σκόπιμα, επιτρέποντάς του να συνεχίσει να κινείται χρησιμοποιώντας κάποιες από τις τεχνικές που είχε αναπτύξει πριν. «Απλώς προσπαθούσαμε να βρούμε λύσεις που ήταν διαφορετικές από όλες τις προηγούμενες λύσεις που βρήκαμε μέχρι τώρα». Πρόσφατα, συνεργάζεται επίσης με ερευνητές για να χρησιμοποιήσει την ποικιλομορφία για να εντοπίσει πολλά υποσχόμενα νέα υποψήφια φάρμακα και να αναπτύξει αποτελεσματικές στρατηγικές διαπραγμάτευσης μετοχών.
«Ο στόχος είναι να δημιουργήσουμε μια μεγάλη συλλογή από δυνητικά χιλιάδες διαφορετικές λύσεις, όπου κάθε λύση είναι πολύ διαφορετική από την επόμενη», είπε ο Cully. Έτσι —όπως ο διαφοροποιημένος σκακιστής έμαθε να κάνει— για κάθε τύπο προβλήματος, το συνολικό σύστημα μπορούσε να επιλέξει την καλύτερη δυνατή λύση. Το σύστημα AI του Zahavy, είπε, δείχνει ξεκάθαρα πώς «η αναζήτηση διαφορετικών στρατηγικών βοηθά να σκεφτόμαστε έξω από το κουτί και να βρίσκουμε λύσεις».
Ο Zahavy υποψιάζεται ότι για να μπορούν τα συστήματα AI να σκέφτονται δημιουργικά, οι ερευνητές πρέπει απλώς να τους κάνουν να εξετάσουν περισσότερες επιλογές. Αυτή η υπόθεση υποδηλώνει μια περίεργη σύνδεση μεταξύ ανθρώπων και μηχανών: Ίσως η νοημοσύνη να είναι απλώς θέμα υπολογιστικής ισχύος. Για ένα σύστημα τεχνητής νοημοσύνης, ίσως η δημιουργικότητα συνοψίζεται στην ικανότητα εξέτασης και επιλογής από έναν αρκετά μεγάλο μπουφέ επιλογών. Καθώς το σύστημα κερδίζει ανταμοιβές για την επιλογή μιας ποικιλίας βέλτιστων στρατηγικών, αυτό το είδος δημιουργικής επίλυσης προβλημάτων ενισχύεται και ενισχύεται. Τελικά, θεωρητικά, θα μπορούσε να μιμηθεί κάθε είδους στρατηγική επίλυσης προβλημάτων που αναγνωρίζεται ως δημιουργική στους ανθρώπους. Η δημιουργικότητα θα γινόταν υπολογιστικό πρόβλημα.
Ο Liemhetcharat σημείωσε ότι ένα διαφοροποιημένο σύστημα τεχνητής νοημοσύνης είναι απίθανο να επιλύσει πλήρως το ευρύτερο πρόβλημα γενίκευσης στη μηχανική μάθηση. Αλλά είναι ένα βήμα προς τη σωστή κατεύθυνση. «Μετριάζει μια από τις ελλείψεις», είπε.
Πιο πρακτικά, τα αποτελέσματα του Zahavy έχουν απήχηση με πρόσφατες προσπάθειες που δείχνουν πώς η συνεργασία μπορεί να οδηγήσει σε καλύτερες επιδόσεις σε σκληρές εργασίες μεταξύ των ανθρώπων. Οι περισσότερες επιτυχίες στη λίστα Billboard 100 γράφτηκαν από ομάδες τραγουδοποιών, για παράδειγμα, όχι από άτομα. Και υπάρχει ακόμα περιθώριο βελτίωσης. Η ποικιλόμορφη προσέγγιση είναι επί του παρόντος υπολογιστικά δαπανηρή, δεδομένου ότι πρέπει να εξετάσει τόσες περισσότερες δυνατότητες από ένα τυπικό σύστημα. Ο Zahavy δεν είναι επίσης πεπεισμένος ότι ακόμη και το διαφοροποιημένο AlphaZero συλλαμβάνει ολόκληρο το φάσμα των δυνατοτήτων.
“Ακομα [think] υπάρχει περιθώριο να βρεθούν διαφορετικές λύσεις», είπε. «Δεν είναι ξεκάθαρο για μένα ότι, δεδομένων όλων των δεδομένων στον κόσμο, υπάρχει [only] μια απάντηση σε κάθε ερώτηση.»
Πρωτότυπη ιστορία ανατυπώθηκε με άδεια από Περιοδικό Quanta, μια εκδοτικά ανεξάρτητη δημοσίευση του Simons Foundation της οποίας η αποστολή είναι να ενισχύσει την κατανόηση της επιστήμης από το κοινό καλύπτοντας τις ερευνητικές εξελίξεις και τάσεις στα μαθηματικά και τις φυσικές επιστήμες και τις επιστήμες της ζωής.