Μία από τις μεγαλύτερες επικρίσεις για το AR και το VR, και ειδικά το όραμα της Apple για αυτό που αποκαλεί “χωρικών υπολογισμών,” είναι το μεγαλύτερο μέρος των γυαλιών. Δεν υπάρχει αμφιβολία ότι έχουμε φτάσει στο σημείο όπου ορισμένες συσκευές και εμπειρίες XR είναι εκπληκτικές, αλλά υπάρχει ένας αρκετά ψηλός τοίχος ενόχλησης που πρέπει να σκαρφαλώσετε για να τις χρησιμοποιήσετε.
Οι συσκευές είναι βαριές, άσχημες και άβολες, και ενώ το τετράχρονο Το Quest 2 είναι διαθέσιμο για $200οι τιμές ανεβαίνουν και ανεβαίνουν, με το 3500 $ Apple Vision Pro προκαλώντας την έκρηξη των πορτοφολιών.
Επίσης: 9 μεγαλύτερες ανακοινώσεις στο Google I/O 2024: Gemini, Search, Project Astra και άλλα
Αν και έχουμε δει από καιρό την υπόσχεση της εικονικής πραγματικότητας και όλοι περιμένουμε ότι η τεχνολογία θα γίνει καλύτερη, έπρεπε κυρίως να εμπιστευτούμε τον ιστορικό ρυθμό της τεχνολογικής προόδου για να μας εξασφαλίσουμε ένα πιο πρακτικό μέλλον. Αλλά τώρα, αρχίζουμε να βλέπουμε να συμβαίνει πραγματική επιστήμη που δείχνει πώς όλα αυτά μπορεί να είναι δυνατά.
Μια ομάδα ερευνητών στο Πανεπιστήμιο του Στάνφορντ, με επικεφαλής τον αναπληρωτή καθηγητή μηχανικής Gorden Wetzstein, έχει κατασκευάσει ένα πρωτότυπο ελαφρών γυαλιών που μπορεί να δείξει ψηφιακές εικόνες μπροστά στα μάτια σας, συνδυάζοντάς τες άψογα με τον πραγματικό κόσμο. Η ομάδα του ειδικεύεται στις τεχνολογίες υπολογιστικής απεικόνισης και απεικόνισης. Εργάζονται για την ενσωμάτωση ψηφιακών πληροφοριών στην οπτική μας αντίληψη για τον πραγματικό κόσμο.
«Τα ακουστικά μας φαίνονται στον έξω κόσμο σαν ένα καθημερινό ζευγάρι γυαλιά, αλλά αυτό που βλέπει ο χρήστης μέσα από τους φακούς είναι ένας εμπλουτισμένος κόσμος που επικαλύπτεται με ζωντανές, έγχρωμες τρισδιάστατες υπολογιστικές εικόνες», λέει ο Wetzstein. “Οι ολογραφικές οθόνες θεωρούνται εδώ και καιρό η απόλυτη τεχνική 3D, αλλά ποτέ δεν επιτεύχθηκε αυτή η μεγάλη εμπορική ανακάλυψη… Ίσως τώρα έχουν τη δολοφονική εφαρμογή που περίμεναν όλα αυτά τα χρόνια.”
Τι κάνει λοιπόν η ομάδα του Wetzstein που διαφέρει από τη δουλειά στην Apple και τη Meta;
Η ομάδα του Στάνφορντ εστιάζει σε θεμελιώδεις τεχνολογίες και επιστημονικές εξελίξεις στην ολογραφική επαυξημένη πραγματικότητα και στην υπολογιστική απεικόνιση. Κάνουν έρευνα για τη δημιουργία νέων τρόπων για τη δημιουργία πιο φυσικών και καθηλωτικών οπτικών εμπειριών χρησιμοποιώντας εξελιγμένες τεχνικές όπως κυματοδηγοί μετα-επιφάνειας και ολογραφία με τεχνητή νοημοσύνη.
Μετα-επιφανειακά κυματοδηγοί;
Ας αποδομήσουμε και τις δύο λέξεις. Η metasurface είναι ένα κατασκευασμένο υλικό που αποτελείται από μικροσκοπικές, με ακρίβεια διατεταγμένες δομές σε μια επιφάνεια. Αυτές οι δομές είναι μικρότερες από τα μήκη κύματος του φωτός με το οποίο αλληλεπιδρούν.
Η ιδέα είναι αυτές οι μικροσκοπικές νανοδομές, που ονομάζονται κυματοδηγοί, χειρίζονται το φως με στρατηγικούς τρόπους, αλλάζοντας τη φάση, το πλάτος και την πόλωση καθώς διασχίζει το υλικό. Αυτό επιτρέπει στους μηχανικούς να ασκούν πολύ λεπτομερή έλεγχο στο φως.
Αυτό που έχουμε δει τόσο με το Quest 3 όσο και με το Vision Pro είναι η χρήση παραδοσιακών οθονών υπολογιστών, αλλά μειωμένες ώστε να χωρούν μπροστά στα μάτια μας. Η τεχνολογία απεικόνισης είναι εντυπωσιακή, αλλά εξακολουθεί να είναι μια εξέλιξη της παραγωγής οθόνης.
Η προσέγγιση του Στάνφορντ το απορρίπτει έτσι ώστε ο υπολογιστής να μην οδηγεί απευθείας μια οθόνη. Αντίθετα, ελέγχει μονοπάτια φωτός χρησιμοποιώντας τους κυματοδηγούς. Ριζικά υπεραπλουστευμένο, χρησιμοποιεί αυτές τις τρεις προσεγγίσεις:
Διαμόρφωση χώρου φωτός: Μια CPU ή μια GPU υπολογιστή ελέγχει τους χωρικούς διαμορφωτές φωτός (SLM) που προσαρμόζουν το φως που εισέρχεται στους κυματοδηγούς. Αυτές είναι μικροσκοπικές συσκευές που χρησιμοποιούνται για τον έλεγχο της έντασης, της φάσης ή της κατεύθυνσης του φωτός με βάση pixel προς pixel. Με το χειρισμό των ιδιοτήτων του φωτός, κατευθύνουν και χειρίζονται το ίδιο το φως σε νανο-επίπεδο.
Σύνθετα μοτίβα φωτός: Μια συσκευή VR υπολογίζει και δημιουργεί πολύπλοκα μοτίβα φωτός, τα οποία επιτρέπουν στο σετ μικροφώνου-ακουστικού να υπαγορεύει τους συγκεκριμένους τρόπους με τους οποίους το φως αλληλεπιδρά με τη μετα-επιφάνεια. Αυτό, με τη σειρά του, τροποποιεί την ενδεχόμενη εικόνα που βλέπει ένας χρήστης.
Προσαρμογές σε πραγματικό χρόνο: Στη συνέχεια, οι υπολογιστές κάνουν προσαρμογές σε πραγματικό χρόνο στις ακολουθίες νανοφωτός, με βάση την αλληλεπίδραση των χρηστών και την περιβαλλοντική αλλαγή. Η ιδέα είναι να βεβαιωθείτε ότι το περιεχόμενο που εμφανίζεται είναι σταθερό και ακριβές για διάφορες συνθήκες και δραστηριότητες φωτισμού.
Μπορείτε να δείτε γιατί το AI είναι κρίσιμο σε αυτήν την εφαρμογή
Το να κάνεις όλη αυτή τη βιομηχανική ελαφριά μαγεία δεν είναι εύκολο. Η τεχνητή νοημοσύνη πρέπει να κάνει πολλά από τα βαρέα. Ακολουθούν μερικά από αυτά που πρέπει να κάνει η τεχνητή νοημοσύνη για να γίνει αυτό δυνατό:
Βελτιώστε το σχηματισμό εικόνας: Οι αλγόριθμοι τεχνητής νοημοσύνης χρησιμοποιούν έναν συνδυασμό φυσικής ακριβούς μοντελοποίησης και μαθησιακών χαρακτηριστικών στοιχείων για να προβλέψουν και να διορθώσουν τον τρόπο με τον οποίο το φως διασχίζει το ολογραφικό περιβάλλον.
Βελτιστοποίηση χειρισμού μετώπου κύματος: Τα AI πρέπει να προσαρμόσουν τη φάση και το πλάτος του φωτός σε διάφορα στάδια για να δημιουργήσουν ένα επιθυμητό οπτικό αποτέλεσμα. Το κάνουν αυτό χρησιμοποιώντας έναν ακριβή χειρισμό των μετώπων κύματος στο περιβάλλον XR.
Χειρισμός πολύπλοκων υπολογισμών: Αυτό, φυσικά, απαιτεί πολλά μαθηματικά. Είναι απαραίτητο να μοντελοποιήσουμε τη συμπεριφορά του φωτός μέσα στον κυματοδηγό μετα-επιφανείας, αντιμετωπίζοντας την περίθλαση, την παρεμβολή και τη διασπορά του φωτός.
Ενώ ορισμένες από αυτές τις προκλήσεις μπορεί να είναι δυνατές χρησιμοποιώντας παραδοσιακούς υπολογιστές από πάνω προς τα κάτω, το μεγαλύτερο μέρος της διαδικασίας απαιτεί δυνατότητες που υπερβαίνουν τις δυνατότητες των παραδοσιακών προσεγγίσεων. Η τεχνητή νοημοσύνη πρέπει να ενταθεί με τους εξής τρόπους:
Σύνθετη αναγνώριση και προσαρμογή προτύπων: Ένα χαρακτηριστικό γνώρισμα της ικανότητας τεχνητής νοημοσύνης, ειδικά όσον αφορά τη μηχανική μάθηση, είναι η ικανότητα αναγνώρισης πολύπλοκων μοτίβων και προσαρμογής σε νέα δεδομένα χωρίς να απαιτείται ρητά νέος προγραμματισμός. Με την ολογραφία AR, αυτή η ικανότητα επιτρέπει στο AI να αντιμετωπίζει τις χιλιάδες μεταβλητές που εμπλέκονται στη διάδοση του φωτός (μετατοπίσεις φάσης, μοτίβα παρεμβολών, εφέ περίθλασης και άλλα) και στη συνέχεια να διορθώνει τις αλλαγές δυναμικά.
Επεξεργασία και βελτιστοποίηση σε πραγματικό χρόνο: Αυτή η δυναμική διόρθωση πρέπει να γίνει σε πραγματικό χρόνο και όταν μιλάμε για φως που μπαίνει στο μάτι, η ανάγκη είναι πραγματικά άμεση απόκριση. Ακόμη και η παραμικρή καθυστέρηση μπορεί να προκαλέσει προβλήματα στον χρήστη, που κυμαίνονται από ελαφριά ενόχληση έως βίαιη ναυτία. Αλλά με την ικανότητα του AI να επεξεργάζεται τεράστιες ποσότητες δεδομένων καθώς ρέει και στη συνέχεια να κάνει στιγμιαίες προσαρμογές, είναι δυνατή η επεξεργασία φωτός συμβατή με τον άνθρωπο για όραση AR.
Μηχανική εκμάθηση από σχόλια: Η μηχανική εκμάθηση επιτρέπει στα συστήματα XR να βελτιώνονται δυναμικά με την πάροδο του χρόνου, επεξεργάζονται τα σχόλια της κάμερας και βελτιώνουν συνεχώς τις προβαλλόμενες ολογραφικές εικόνες, μειώνοντας τα σφάλματα και βελτιώνοντας την ποιότητα της εικόνας.
Χειρισμός μη γραμμικών και υψηλών διαστάσεων δεδομένων: Τα μαθηματικά που σχετίζονται με το πώς αλληλεπιδρά το φως με πολύπλοκες επιφάνειες, ειδικά τις μεταεπιφάνειες που χρησιμοποιούνται στην ολογραφία, συχνά απαιτούν υπολογισμούς που βασίζονται σε δεδομένα που είναι εξαιρετικά μη γραμμικά και περιέχουν τεράστιες σειρές σημείων δεδομένων. Τα AI είναι κατασκευασμένα για να διαχειρίζονται αυτά τα δεδομένα αξιοποιώντας την ικανότητα της μηχανικής μάθησης να αντιμετωπίζει πολύπλοκα σύνολα δεδομένων και να εκτελεί επεξεργασία σε πραγματικό χρόνο.
Ενσωμάτωση διαφορετικών τύπων δεδομένων: Τα διαθέσιμα δεδομένα για την παραγωγή των εικόνων που απαιτούνται στο ολογραφικό AR δεν περιορίζονται μόνο σε γιγαντιαία σύνολα συντεταγμένων X/Y. Τα AI είναι σε θέση να επεξεργάζονται οπτικά δεδομένα, χωρικά δεδομένα και περιβαλλοντικές πληροφορίες και να τα χρησιμοποιούν όλα για τη δημιουργία σύνθετων εικόνων.
Τι σημαίνουν όλα αυτά;
Χωρίς αμφιβολία, ο μόνος μεγαλύτερος παράγοντας που εμποδίζει τη δημοτικότητα των συσκευών XR και χωρικών υπολογιστών είναι το μεγαλύτερο μέρος των ακουστικών. Εάν υπάρχει λειτουργικότητα όπως αυτή στο Quest 3 ή το Vision Pro ήταν διαθέσιμα σε ένα ζευγάρι παραδοσιακά ποτήρια, οι δυνατότητες θα ήταν τεράστιες.
Επίσης: Meta Quest 2 vs Quest 3: Ποια ακουστικά VR πρέπει να αγοράσετε;
Υπάρχει ένα όριο στο πόσο μικρά γυαλιά μπορούν να γίνουν κατά την ενσωμάτωση παραδοσιακών οθονών. Αλλά αλλάζοντας τις οπτικές ιδιότητες του ίδιου του γυαλιού, οι επιστήμονες θα βασίζονταν στην πιο αποδεκτή συσκευή επαυξημένης πραγματικότητας στην ιστορία: τα γυαλιά μας.
Δυστυχώς, αυτό που έχει τώρα η ομάδα του Στάνφορντ είναι ένα πρωτότυπο. Η τεχνολογία πρέπει να αναπτυχθεί πολύ περισσότερο για να περάσει από την έρευνα, στη θεμελιώδη επιστήμη, στο εργαστήριο μηχανικής και, στη συνέχεια, στην παραγωγή. Αν και η ομάδα του Στάνφορντ δεν προέβλεψε πόσο χρόνο θα διαρκούσε, θα ήταν δίκαιο να υποθέσουμε ότι αυτή η τεχνολογία έχει κυκλοφορήσει τουλάχιστον πέντε έως δέκα χρόνια.
Αλλά μην αφήσετε αυτό να σας αποθαρρύνει. Έχουν περάσει περίπου 17 χρόνια από την κυκλοφορία του πρώτου iPhone και ακόμη και στα πρώτα τρία ή τέσσερα χρόνια της συσκευής, είδαμε τρομερή βελτίωση. Αναμένω ότι θα δούμε παρόμοιες βελτιώσεις τα επόμενα χρόνια για την τρέχουσα παραγωγή χωρικών υπολογιστών και συσκευών XR.
Φυσικά, το μέλλον είναι εκεί έξω. Πώς θα είναι αυτό σε 17 χρόνια; Ίσως η ομάδα του Στάνφορντ μας έδωσε την πρώτη μας ματιά.
Μπορείτε να παρακολουθείτε τις καθημερινές ενημερώσεις του έργου μου στα μέσα κοινωνικής δικτύωσης. Φροντίστε να εγγραφείτε σε το εβδομαδιαίο ενημερωτικό δελτίο μουκαι ακολουθήστε με στο Twitter/X στο @DavidGewirtzστο Facebook στη διεύθυνση Facebook.com/DavidGewirtzστο Instagram στο Instagram.com/DavidGewirtzκαι στο YouTube στη διεύθυνση YouTube.com/DavidGewirtzTV.