Ο προγραμματιστής ρομποτικής Figure έκανε πάταγο την Τετάρτη όταν μοιράστηκε μια επίδειξη βίντεο του πρώτου του ανθρωποειδούς ρομπότ που συμμετείχε σε συνομιλία σε πραγματικό χρόνο, χάρη στη γενετική τεχνητή νοημοσύνη από το OpenAI.
«Με το OpenAI, το Σχήμα 01 μπορεί πλέον να έχει πλήρεις συνομιλίες με ανθρώπους», Εικόνα είπε στο Twitter, τονίζοντας την ικανότητά του να κατανοεί και να αντιδρά στις ανθρώπινες αλληλεπιδράσεις άμεσα.
Η εταιρεία εξήγησε ότι η πρόσφατη συμμαχία της με το OpenAI φέρνει υψηλού επιπέδου οπτική και γλωσσική ευφυΐα στα ρομπότ της, επιτρέποντας «γρήγορες, χαμηλού επιπέδου, επιδέξιες ενέργειες ρομπότ».
Στο βίντεο, το Figure 01 αλληλεπιδρά με τον ανώτερο μηχανικό AI του δημιουργού του Corey Lynch, ο οποίος βάζει το ρομπότ σε διάφορες εργασίες σε μια αυτοσχέδια κουζίνα, συμπεριλαμβανομένης της αναγνώρισης ενός μήλου, των πιάτων και των φλυτζανιών.
Το Σχήμα 01 προσδιόρισε το μήλο ως φαγητό όταν ο Lynch ζήτησε από το ρομπότ να του δώσει κάτι να φάει. Στη συνέχεια, ο Lynch έβαλε στο Figure 01 να μαζέψει τα σκουπίδια σε ένα καλάθι και του έκανε ερωτήσεις ταυτόχρονα, δείχνοντας τις δυνατότητες πολλαπλών εργασιών του ρομπότ.
Στο Twitter, ο Λιντς εξήγησε το έργο Figure 01 με περισσότερες λεπτομέρειες.
«Το ρομπότ μας μπορεί να περιγράψει την οπτική του εμπειρία, να σχεδιάσει μελλοντικές ενέργειες, να αναλογιστεί τη μνήμη του και να εξηγήσει προφορικά το σκεπτικό του», έγραψε σε ένα εκτενές νήμα.
Σύμφωνα με τον Lynch, τροφοδοτούν εικόνες από τις κάμερες του ρομπότ και μεταγράφουν κείμενο από την ομιλία που καταγράφηκε από τα μικρόφωνα του πλοίου σε ένα μεγάλο πολυτροπικό μοντέλο που εκπαιδεύεται από το OpenAI.
Η πολυτροπική τεχνητή νοημοσύνη αναφέρεται στην τεχνητή νοημοσύνη που μπορεί να κατανοήσει και να δημιουργήσει διαφορετικούς τύπους δεδομένων, όπως κείμενο και εικόνες.
Ο Lynch τόνισε ότι η συμπεριφορά του Σχήματος 01 είχε μάθει, εκτελείται με κανονική ταχύτητα και δεν ελέγχεται από απόσταση.
«Το μοντέλο επεξεργάζεται ολόκληρη την ιστορία της συνομιλίας, συμπεριλαμβανομένων των προηγούμενων εικόνων, για να καταλήξει σε γλωσσικές απαντήσεις, οι οποίες μιλούνται στον άνθρωπο μέσω κειμένου σε ομιλία», είπε ο Lynch. «Το ίδιο μοντέλο είναι υπεύθυνο για να αποφασίσει ποια μαθημένη συμπεριφορά κλειστού βρόχου θα εκτελεστεί στο ρομπότ για να εκπληρώσει μια δεδομένη εντολή, να φορτώσει συγκεκριμένα βάρη νευρωνικών δικτύων στη GPU και να εκτελέσει μια πολιτική».
Ο Lynch εξήγησε ότι το Σχήμα 01 έχει σχεδιαστεί για να περιγράφει συνοπτικά το περιβάλλον του και μπορεί να εφαρμοστεί “ΚΟΙΝΗ ΛΟΓΙΚΗ” για αποφάσεις, όπως συμπερασματικά πιάτα θα τοποθετούνται σε ένα ράφι. Μπορεί επίσης να αναλύσει ασαφείς δηλώσεις, όπως η πείνα, σε πράξεις, όπως η προσφορά ενός μήλου, εξηγώντας ταυτόχρονα τις ενέργειές του.
Το ντεμπούτο πυροδότησε μια παθιασμένη ανταπόκριση στο Twitter, πολλοί άνθρωποι εντυπωσίασαν με τις δυνατότητες του Σχήματος 01—και περισσότεροι από μερικοί το πρόσθεσαν στη λίστα των milepost στο δρόμο προς τη μοναδικότητα.
Πείτε μου, παρακαλώ, η ομάδα σας έχει παρακολουθήσει κάθε ταινία του Terminator», απάντησε ένας.
«Πρέπει να βρούμε τον Τζον Κόνορ το συντομότερο δυνατό», πρόσθεσε ένας άλλος.
Για προγραμματιστές και ερευνητές τεχνητής νοημοσύνης, ο Lynch παρείχε μια σειρά από τεχνικές λεπτομέρειες.
«Όλες οι συμπεριφορές καθοδηγούνται από πολιτικές μετασχηματιστών οπτικοκινητικών νευρωνικών δικτύων, αντιστοιχίζοντας τα εικονοστοιχεία απευθείας σε ενέργειες», είπε ο Lynch. «Αυτά τα δίκτυα λαμβάνουν ενσωματωμένες εικόνες στα 10 Hz και δημιουργούν ενέργειες 24-DOF (στάσεις καρπού και γωνίες αρθρώσεων των δακτύλων) στα 200 Hz».
Το εντυπωσιακό ντεμπούτο του Figure 01 έρχεται καθώς οι υπεύθυνοι χάραξης πολιτικής και οι παγκόσμιοι ηγέτες προσπαθούν να αντιμετωπίσουν τη διάδοση των εργαλείων τεχνητής νοημοσύνης στην επικρατούσα τάση. Ενώ το μεγαλύτερο μέρος της συζήτησης αφορούσε μεγάλα γλωσσικά μοντέλα όπως το ChatGPT του OpenAI, το Gemini της Google και το Claude AI της Anthropic, οι προγραμματιστές αναζητούν επίσης τρόπους για να δώσουν τεχνητή νοημοσύνη ανθρωποειδή ρομποτικά σώματα.
Το Σχήμα AI και OpenAI δεν ανταποκρίθηκαν αμέσως Αποκρυπτογράφηση αίτημα για σχολιασμό.
«Ο ένας είναι ένα είδος χρηστικού στόχου, για τον οποίο αγωνίζονται ο Έλον Μασκ και άλλοι», είπε προηγουμένως ο καθηγητής Βιομηχανικής Μηχανικής του UC Berkeley, Ken Goldberg. Αποκρυπτογράφηση. “Πολλή δουλειά που γίνεται αυτή τη στιγμή – γιατί οι άνθρωποι επενδύουν σε αυτές τις εταιρείες όπως η Figure – είναι ότι ελπίζουμε ότι αυτά τα πράγματα μπορούν να λειτουργήσουν και να είναι συμβατά”, είπε, ιδιαίτερα στον τομέα της εξερεύνησης του διαστήματος.
Μαζί με το Figure, άλλοι που εργάζονται για τη συγχώνευση της τεχνητής νοημοσύνης με τη ρομποτική είναι η Hanson Robotics, η οποία έκανε το ντεμπούτο της το 2016 Δεσδαιμόνα Ρομπότ AI.
«Ακόμα και μόλις πριν από λίγα χρόνια, θα πίστευα ότι η πλήρης συνομιλία με ένα ανθρωποειδές ρομπότ ενώ σχεδιάζει και πραγματοποιεί τις δικές του πλήρως μαθημένες συμπεριφορές θα ήταν κάτι που θα έπρεπε να περιμένουμε δεκαετίες για να δούμε», δήλωσε ο Senior AI Engineer της Figure AI. είπε ο Κόρεϊ Λιντς στο Twitter. «Προφανώς, πολλά έχουν αλλάξει».
Επεξεργάστηκε από Ράιαν Οζάουα.