- Το “Project Ellmann” είναι μια εσωτερική πρόταση της Google για τη χρήση τεχνητής νοημοσύνης για να βοηθήσει τους χρήστες να αποκτήσουν μια “από ψηλή άποψη” των ιστοριών της ζωής τους.
- Η ιδέα θα ήταν να χρησιμοποιήσουμε LLM όπως το Gemini για να απορροφήσουμε αποτελέσματα αναζήτησης, να εντοπίσουμε μοτίβα στις φωτογραφίες ενός χρήστη, να δημιουργήσουμε ένα chatbot και να “απαντήσουμε σε προηγουμένως αδύνατες ερωτήσεις” σχετικά με τη ζωή ενός ατόμου.
- Η ομάδα παρουσίασε επίσης το “Ellmann Chat”, με την περιγραφή “Φανταστείτε να ανοίγετε το ChatGPT, αλλά γνωρίζει ήδη τα πάντα για τη ζωή σας.”
Μια ομάδα της Google πρότεινε τη χρήση τεχνολογίας τεχνητής νοημοσύνης για να δημιουργήσει μια οπτική γωνία της ζωής των χρηστών χρησιμοποιώντας δεδομένα κινητών τηλεφώνων, όπως φωτογραφίες και αναζητήσεις.
Ονομάστηκε «Project Ellmann», από τον βιογράφο και κριτικό λογοτεχνίας Richard David Ellmann, η ιδέα θα ήταν να χρησιμοποιήσουμε LLMs όπως το Gemini για να απορροφήσουμε αποτελέσματα αναζήτησης, να εντοπίσουμε μοτίβα στις φωτογραφίες ενός χρήστη, να δημιουργήσουμε ένα chatbot και να «απαντήσουμε σε προηγουμένως αδύνατες ερωτήσεις», σύμφωνα με μια αντίγραφο μιας παρουσίασης που προβλήθηκε από το CNBC. Ο στόχος του Ellmann, δηλώνει, είναι να γίνει ο «Αφηγός της ιστορίας της ζωής σου».
Δεν είναι σαφές εάν η εταιρεία σχεδιάζει να παράγει αυτές τις δυνατότητες στο Google Photos ή σε οποιοδήποτε άλλο προϊόν. Το Google Photos έχει περισσότερους από 1 δισεκατομμύριο χρήστες και 4 τρισεκατομμύρια φωτογραφίες και βίντεο, σύμφωνα με μια εταιρεία ανάρτηση.
Το Project Ellman είναι μόνο ένας από τους πολλούς τρόπους που προτείνει η Google για τη δημιουργία ή τη βελτίωση των προϊόντων της με τεχνολογία AI. Την Τετάρτη, η Google εκτοξεύτηκε Το πιο πρόσφατο «πιο ικανό» και προηγμένο μοντέλο AI μέχρι σήμερα, το Gemini, το οποίο σε ορισμένες περιπτώσεις ξεπέρασε τις επιδόσεις του GPT-4 του OpenAI. Η εταιρεία σχεδιάζει να χορηγήσει άδεια χρήσης του Gemini σε ένα ευρύ φάσμα πελατών μέσω του Google Cloud ώστε να το χρησιμοποιούν στις δικές τους εφαρμογές. Ένα από τα ξεχωριστά χαρακτηριστικά του Gemini είναι ότι είναι πολυτροπικό, που σημαίνει ότι μπορεί να επεξεργάζεται και να κατανοεί πληροφορίες πέρα από κείμενο, συμπεριλαμβανομένων εικόνων, βίντεο και ήχου.
Ένας διευθυντής προϊόντων για Google Οι φωτογραφίες παρουσίασαν το Project Ellman μαζί με τις ομάδες Gemini σε μια πρόσφατη εσωτερική σύνοδο κορυφής, σύμφωνα με έγγραφα που προβλήθηκαν από το CNBC. Έγραψαν ότι οι ομάδες πέρασαν τους τελευταίους μήνες για να προσδιορίσουν ότι τα μεγάλα γλωσσικά μοντέλα είναι η ιδανική τεχνολογία για να γίνει πραγματικότητα αυτή η απίστευτη προσέγγιση στην ιστορία της ζωής κάποιου.
Ο Ellmann θα μπορούσε να εμβαθύνει στο πλαίσιο χρησιμοποιώντας βιογραφίες, προηγούμενες στιγμές και επόμενες φωτογραφίες για να περιγράψει τις φωτογραφίες ενός χρήστη πιο βαθιά από «απλά pixel με ετικέτες και μεταδεδομένα», αναφέρει η παρουσίαση. Προτείνει να είναι σε θέση να προσδιορίσει μια σειρά στιγμών όπως τα πανεπιστημιακά χρόνια, τα χρόνια στην περιοχή Bay και τα χρόνια ως γονέας.
«Δεν μπορούμε να απαντήσουμε σε δύσκολες ερωτήσεις ή να πούμε καλές ιστορίες χωρίς μια πανοραμική θέα της ζωής σας», λέει μια περιγραφή δίπλα σε μια φωτογραφία ενός μικρού αγοριού που παίζει με ένα σκυλί στο χώμα.
«Παρακαλούμε τις φωτογραφίες σας, κοιτάζοντας τις ετικέτες και τις τοποθεσίες τους για να εντοπίσουμε μια στιγμή με νόημα», αναφέρει μια διαφάνεια παρουσίασης. «Όταν κάνουμε ένα βήμα πίσω και κατανοήσουμε τη ζωή σας στο σύνολό της, η γενική ιστορία σας γίνεται ξεκάθαρη».
Η παρουσίαση είπε ότι τα μεγάλα γλωσσικά μοντέλα θα μπορούσαν να συναγάγουν στιγμές όπως η γέννηση του παιδιού ενός χρήστη. “Αυτό το LLM μπορεί να χρησιμοποιήσει τη γνώση από ψηλά στο δέντρο για να συμπεράνει ότι αυτή είναι η γέννηση του Jack και ότι είναι το πρώτο και μοναδικό παιδί του James και της Gemma.”
“Ένας από τους λόγους για τους οποίους ένα LLM είναι τόσο ισχυρό για αυτήν την προσέγγιση με τα μάτια των πτηνών, είναι ότι μπορεί να λάβει μη δομημένο πλαίσιο από όλα τα διαφορετικά υψόμετρα σε αυτό το δέντρο και να το χρησιμοποιήσει για να βελτιώσει τον τρόπο κατανόησης άλλων περιοχών του δέντρου”, διαφάνεια διαβάζει, μαζί με μια απεικόνιση των διαφόρων «στιγμών» και «κεφαλιών» της ζωής ενός χρήστη.
Οι παρουσιαστές έδωσαν ένα άλλο παράδειγμα για τον προσδιορισμό ότι ένας χρήστης είχε πρόσφατα συμμετάσχει σε μια επανένωση τάξης. «Έχουν περάσει ακριβώς 10 χρόνια από τότε που αποφοίτησε και είναι γεμάτο πρόσωπα που δεν έχουν δει εδώ και 10 χρόνια, επομένως είναι πιθανώς μια επανένωση», συμπέρανε η ομάδα στην παρουσίασή της.
Η ομάδα παρουσίασε επίσης το “Ellmann Chat”, με την περιγραφή: “Φανταστείτε να ανοίγετε το ChatGPT αλλά ξέρει ήδη τα πάντα για τη ζωή σας. Τι θα το ρωτούσατε;”
Εμφάνισε ένα δείγμα συνομιλίας στο οποίο ένας χρήστης ρωτά “Έχω κατοικίδιο;” Στο οποίο απαντά ότι ναι, ο χρήστης έχει ένα σκυλί που φορούσε κόκκινο αδιάβροχο και στη συνέχεια πρόσφερε το όνομα του σκύλου και τα ονόματα των δύο μελών της οικογένειας με τα οποία συναντιέται πιο συχνά.
Ένα άλλο παράδειγμα για τη συνομιλία ήταν ένας χρήστης που ρώτησε πότε επισκέφτηκαν τα αδέρφια του για τελευταία φορά. Ένας άλλος του ζήτησε να απαριθμήσει παρόμοιες πόλεις με εκεί που ζουν επειδή σκέφτονται να μετακομίσουν. Ο Έλμαν έδωσε απαντήσεις και στα δύο.
Ο Ellmann παρουσίασε επίσης μια περίληψη των διατροφικών συνηθειών του χρήστη, όπως έδειξαν και άλλες διαφάνειες. “Φαίνεται να απολαμβάνετε το ιταλικό φαγητό. Υπάρχουν πολλές φωτογραφίες από πιάτα ζυμαρικών, καθώς και μια φωτογραφία μιας πίτσας.” Είπε επίσης ότι ο χρήστης φαινόταν να απολαμβάνει το νέο φαγητό επειδή μια από τις φωτογραφίες του είχε ένα μενού με ένα πιάτο που δεν αναγνώριζε.
Η τεχνολογία καθόρισε επίσης ποια προϊόντα σκόπευε να αγοράσει ο χρήστης, τα ενδιαφέροντά του, την εργασία και τα ταξιδιωτικά του σχέδια με βάση τα στιγμιότυπα οθόνης του χρήστη, ανέφερε η παρουσίαση. Πρότεινε επίσης ότι θα μπορούσε να γνωρίζει τους αγαπημένους τους ιστότοπους και εφαρμογές, δίνοντας παραδείγματα Google Docs, Reddit και Instagram.
Ένας εκπρόσωπος της Google είπε στο CNBC: “Το Google Photos χρησιμοποιούσε πάντα την τεχνητή νοημοσύνη για να βοηθήσει τους ανθρώπους να αναζητήσουν τις φωτογραφίες και τα βίντεό τους και είμαστε ενθουσιασμένοι με τις δυνατότητες των LLM να ξεκλειδώσουν ακόμη πιο χρήσιμες εμπειρίες. Αυτή είναι μια ιδέα καταιγισμού ιδεών στην αρχή της ομάδας στάδια εξερεύνησης. Όπως πάντα, θα αφιερώσουμε τον απαραίτητο χρόνο για να διασφαλίσουμε ότι το κάνουμε με υπευθυνότητα, προστατεύοντας το απόρρητο των χρηστών ως κορυφαία προτεραιότητά μας.”
Το προτεινόμενο Project Ellmann θα μπορούσε να βοηθήσει την Google στον αγώνα εξοπλισμών μεταξύ τεχνολογικών κολοσσών να δημιουργήσει πιο εξατομικευμένες αναμνήσεις ζωής.
Το Google Photos και το Apple Photos υπηρετούν εδώ και χρόνια «αναμνήσεις» και δημιουργούν άλμπουμ με βάση τις τάσεις στις φωτογραφίες.
Τον Νοέμβριο, η Google ανακοινώθηκε ότι με τη βοήθεια της τεχνητής νοημοσύνης, το Google Photos μπορεί πλέον να ομαδοποιεί παρόμοιες φωτογραφίες και να οργανώνει στιγμιότυπα οθόνης σε ευδιάκριτα άλμπουμ.
Η Apple ανακοίνωσε τον Ιούνιο ότι η τελευταία της ενημέρωση λογισμικού θα περιλαμβάνει τη δυνατότητα για την εφαρμογή φωτογραφιών της να αναγνωρίζει ανθρώπους, σκύλους και γάτες στις φωτογραφίες τους. Είναι ήδη ξεχωρίζει τα πρόσωπα και επιτρέπει στους χρήστες να τα αναζητούν με το όνομά τους.
μήλο ανακοίνωσε επίσης μια επερχόμενη Εφαρμογή Journal, η οποία θα χρησιμοποιεί AI στη συσκευή για τη δημιουργία εξατομικευμένων προτάσεων που θα προτρέπουν τους χρήστες να γράφουν αποσπάσματα που περιγράφουν τις αναμνήσεις και τις εμπειρίες τους με βάση πρόσφατες φωτογραφίες, τοποθεσίες, μουσική και προπονήσεις.
Ωστόσο, η Apple, η Google και άλλοι τεχνολογικοί γίγαντες εξακολουθούν να παλεύουν με την πολυπλοκότητα της κατάλληλης εμφάνισης και αναγνώρισης εικόνων.
Για παράδειγμα, η Apple και η Google εξακολουθούν να αποφεύγουν να χαρακτηρίζουν τους γορίλες μετά από αναφορές το 2015 που διαπίστωσαν ότι η εταιρεία εσήμανε εσφαλμένα τους μαύρους ως γορίλες. Μια New York Times έρευνα φέτος διαπιστώθηκε ότι το λογισμικό Android της Apple και της Google, το οποίο βασίζεται στα περισσότερα smartphone του κόσμου, απενεργοποίησε τη δυνατότητα οπτικής αναζήτησης πρωτευόντων από φόβο μήπως χαρακτηρίσει ένα άτομο ως ζώο.
Εταιρείες συμπεριλαμβανομένης της Google, Facebook και η Apple με την πάροδο του χρόνου πρόσθεσαν στοιχεία ελέγχου για να ελαχιστοποιήσουν τις ανεπιθύμητες αναμνήσεις, αλλά οι χρήστες το έχουν αναφέρει μερικές φορές ακίνητη επιφάνεια ανεπιθύμητες μνήμες και απαιτούν από τους χρήστες να εναλλάσσουν διάφορες ρυθμίσεις προκειμένου να τις ελαχιστοποιήσουν.
Μην χάσετε αυτές τις ιστορίες από το CNBC PRO: