Για τους περισσότερους ανθρώπους, το Chess and Go είναι πολύπλοκα παιχνίδια στρατηγικής. Μαθηματικά μιλώντας, είναι προβλήματα βελτιστοποίησης που περιλαμβάνουν μια ακολουθία λήψης αποφάσεων πολλαπλών περιόδων, τα οποία είναι δύσκολο να επιλυθούν λόγω της μη γραμμικότητας και της μεγάλης τους διάστασης. Όμως, τα τελευταία χρόνια, οι ερευνητές τεχνητής νοημοσύνης έχουν δείξει ότι οι μηχανές μπορούν να εκπαιδευτούν να κυριαρχούν σε τέτοια παιχνίδια χρησιμοποιώντας ενισχυτική μάθηση (RL), θέτοντας το έδαφος για ευρύτερες εφαρμογές της τεχνικής για την επίλυση πολύπλοκων μαθηματικών προβλημάτων.
Ο Igor Halperin, ανώτερος ποσοτικός αναλυτής στο κέντρο αριστείας AI για τη διαχείριση περιουσιακών στοιχείων στη Fidelity Investments, έχει από καιρό πειστεί ότι το RL θα μπορούσε να εφαρμοστεί στη διαχείριση χαρτοφυλακίου.
Ελαβε Risk.netΤο βραβείο Buy-side Quant of the Year το 2021 για την έρευνά του με τον Matthew Dixon, καθηγητή στο Ινστιτούτο Τεχνολογίας του Ιλινόις, σχετικά με τη βελτιστοποίηση των προγραμμάτων συνταξιοδότησης και των κεφαλαίων στόχων της ημερομηνίας χρησιμοποιώντας RL και αντίστροφο RL (IRL).
Σε αυτή την έκδοση του Quantcast, ο Halperin συζητά τα περισσότερα πρόσφατη δουλειά με τους συναδέλφους Fidelity Jiayu Liu και Xiao Zhang σχετικά με την εφαρμογή παρόμοιας προσέγγισης στο πρόβλημα της κατανομής περιουσιακών στοιχείων μεταξύ των τομέων μετοχών.
«Αυτό είναι κάτι που οραματίζομαι από το 2018 […] και μέρος ενός γενικού σχεδίου που είχα», λέει ο Halperin, προσθέτοντας ότι η πρόοδος μέχρι σήμερα είναι ενθαρρυντική.
Η ενισχυτική μάθηση συνδέει τη λήψη αποφάσεων με μια συνάρτηση ανταμοιβής, η οποία πρέπει να μεγιστοποιηθεί για να επιτευχθεί το βέλτιστο αποτέλεσμα. Συνήθως, η συνάρτηση ανταμοιβής προκαθορίζεται από τον χρήστη – μπορεί, για παράδειγμα, να είναι ένα μέτρο απόδοσης προσαρμοσμένο στον κίνδυνο που ο αλγόριθμος στοχεύει να υπερβεί δοκιμάζοντας όλους τους πιθανούς συνδυασμούς ακολουθιών.
Η αντίστροφη μάθηση ενίσχυσης κάνει το αντίθετο, λαμβάνοντας τις στρατηγικές των ανθρώπινων ειδικών και δουλεύοντας προς τα πίσω για να προσδιορίσετε τη συνάρτηση ανταμοιβής που εξηγεί τις αποφάσεις τους. Ο Halperin και οι συν-συγγραφείς του χρησιμοποιούν το IRL για να συγκεντρώσουν ουσιαστικά μια ισχυρή συνάρτηση ανταμοιβής από τις στρατηγικές πολλών διαχειριστών χαρτοφυλακίου. «Μόλις έχετε μια λειτουργία ανταμοιβής, ξέρετε τι πρέπει να κάνετε», εξηγεί. Στη συνέχεια, ο αλγόριθμος RL χρησιμοποιείται για την ανάπτυξη μιας στρατηγικής κατανομής περιουσιακών στοιχείων που μεγιστοποιεί αυτή τη γενική συνάρτηση ανταμοιβής.
Σύμφωνα με τον Halperin, αυτή η προσέγγιση μπορεί δυνητικά να βελτιώσει την απόδοση μιας ομοιογενούς ομάδας διαχειριστών κεφαλαίων παρέχοντάς τους επενδυτικές συστάσεις που μπορούν να βοηθήσουν στην άρση προκαταλήψεων και ιδιορρυθμιών από την επενδυτική τους διαδικασία.
Σε αυτό το podcast, ο Halperin συζητά επίσης τη μακροχρόνια κριτική του για τα τυπικά μοντέλα τιμολόγησης επιλογών, τα οποία υποστηρίζει ότι είναι θεμελιωδώς ελαττωματικά. «Να πω ότι κάνουν όλοι λάθος ή να πω ότι δεν έχουν καν λάθος;» συλλογίζεται, διοχετεύοντας τα λόγια του θεωρητικού φυσικού Βόλφγκανγκ Πάουλι.
Η άποψή του είναι ότι τα τυπικά μοντέλα που βασίζονται στη γεωμετρική κίνηση Brown μπορούν να συλλάβουν την αστάθεια, αλλά αποτυγχάνουν να λάβουν υπόψη την ύπαρξη μιας μετατόπισης στις τιμές των περιουσιακών στοιχείων. Το 2021 πρότεινε ένα εναλλακτική προσέγγιση που μοιάζει με τη γεωμετρική κίνηση Brown κατά την προσαρμογή για τον όρο ολίσθησης. Στο πλαίσιο του, η μετατόπιση είναι μια μη γραμμική συνάρτηση που αντιπροσωπεύει τις εισροές και εκροές της αγοράς, καθώς και τις τριβές.
Συζητώντας την επίδραση της φυσικής στην ποσοτική χρηματοδότηση, ο Halperin σημειώνει τις διαφορές μεταξύ γραμμικών μοντέλων, που αντιπροσωπεύονται από κλασικά παραμετρικά μοντέλα, και μη γραμμικών μοντέλων, τα οποία περιλαμβάνουν κυρίως νευρωνικά δίκτυα. Τα πρώτα προσφέρουν σαφή ερμηνευτικότητα του φαινομένου που περιγράφουν αλλά δεν μπορούν να περιγράψουν πολύπλοκα συστήματα, ενώ τα δεύτερα μπορούν να χειριστούν πολύπλοκα συστήματα αλλά δεν μπορούν να ελεγχθούν. Ο Halperin βλέπει τα δίκτυα τανυστών, ένα λειτουργικό σύνολο εργαλείων δανεισμένο από τη φυσική, ως μια καλή μέση λύση, «επειδή κάνουν μη γραμμικότητες αλλά με ελεγχόμενο τρόπο».
Για όσους ενδιαφέρονται να μάθουν περισσότερα, το το πιο πρόσφατο επεισόδιο του Quantcast με τους Vladimir Piterbarg και Alexandre Antonov ήταν εξ ολοκλήρου αφιερωμένος στις προσεγγίσεις των τρένων τανυστών.
Ο Halperin εργάζεται τώρα σε ερευνητικά έργα που συνδυάζουν έννοιες από διαφορετικούς κλάδους της χρηματοδότησης και της στατιστικής. Το ένα, για παράδειγμα, ασχολείται με την ενισχυτική μάθηση πολλαπλών παραγόντων, όπου ένας αλγόριθμος ενισχυτικής μάθησης καθοδηγεί τη συμπεριφορά των πρακτόρων σε ένα μοντέλο, επιτρέποντάς τους να προσαρμοστούν με βάση τις αλληλεπιδράσεις τους μεταξύ τους.
Δείκτης
00:00 RL και IRL στη διαχείριση κεφαλαίων
06:27 Εφαρμογή των RL και IRL στη διαχείριση χαρτοφυλακίου
10:27 Προηγούμενη εφαρμογή του RL στη διαχείριση πλούτου
13:05 Γιατί το RL δεν είναι μαύρο κουτί
16:20 Περαιτέρω εφαρμογές του RL στα οικονομικά
20:25 Μοντέλα τιμολόγησης προαίρεσης – δεν είναι καν λάθος;
29:45 Φυσική και οικονομικά
36:30 Μελλοντικά ερευνητικά έργα
Για να ακούσετε την πλήρη συνέντευξη, ακούστε το πρόγραμμα αναπαραγωγής παραπάνω ή πραγματοποιήστε λήψη. Μελλοντικά podcast στο δικό μας Quantcast σειρά θα μεταφορτωθεί στο Risk.net. Μπορείτε επίσης να επισκεφθείτε την κεντρική σελίδα εδώ για πρόσβαση σε όλα τα κομμάτια ή μεταβείτε στο iTunes κατάστημα, Spotify ή Google Podcasts για να ακούσετε και να εγγραφείτε.
.