Τα μοντέλα τεχνητής νοημοσύνης έχουν τη δυνατότητα να βλέπουν φωτογραφίες και να σας πουν τι μπορούν να δουν μέσα στην εικόνα για χρόνια, αλλά με Ανοιξιάτικη ενημέρωση, OpenAI πήγε τα πράγματα σε ένα νέο επίπεδο.
Με την διάθεση του GPT-4o στο ChatGPT — ακόμη και χωρίς τη λειτουργία φωνής και βίντεο — η OpenAI αποκάλυψε ένα από τα καλύτερα μοντέλα AI vision που έχουν κυκλοφορήσει μέχρι σήμερα.
Η επιτυχία του οφείλεται εν μέρει στο γεγονός ότι είναι εγγενώς πολυτροπικό, έχοντας μια βαθύτερη κατανόηση της εικόνας, του βίντεο, του ήχου και του κειμένου. Μπορεί να συλλογιστεί μια εικόνα, ομιλία, βίντεο και κείμενο όπου άλλα μοντέλα μετατρέπονται πρώτα σε κείμενο.
Για να δοκιμάσω τις δυνατότητές του, του έδωσα μια σειρά από εικόνες και του ζήτησα να περιγράψει τι μπορούσε να δει. Όσο πιο ακριβές είναι τόσο καλύτερο το μοντέλο. Συχνά μοντέλα όρασης AI — συμπεριλαμβανομένου του GPT-4 — θα χάσει ένα ή δύο αντικείμενα ή θα λάβει λάθος περιγραφή.
Δοκιμή όρασης GPT-4o
Για κάθε τεστ, έδινα ChatGPT-4o η εικόνα και η προτροπή “Τι είναι αυτό;” χωρίς πρόσθετο πλαίσιο ή πληροφορίες. Αυτό είναι πιο κοντά στο πώς οι άνθρωποι είναι πιθανό να χρησιμοποιήσουν αυτή τη δυνατότητα στον πραγματικό κόσμο και πώς τη χρησιμοποίησα πρόσφατα σε μια εκδήλωση στο Παρίσι.
Ο στόχος είναι να δούμε πόσο καλά αναλύει την εικόνα. Παρακολούθησα κάθε φορά για να ρωτήσω αν μπορούσε να εντοπίσει εάν η εικόνα δημιουργήθηκε από AI ή όχι. Όλα έγιναν χρησιμοποιώντας Ιδεόγραμμα από μια περιγραφή δημιουργήθηκε από τον Claude 3 — τόσο πλήρως AI.
Μετά τις δύο πρώτες εικόνες στη συνομιλία, άρχισε να μου λέει αυτόματα αν πίστευε ότι η εικόνα δημιουργήθηκε από AI ή όχι χωρίς να χρειαστεί να ρωτήσω.
ξεκίνησα στο Εφαρμογή επιφάνειας εργασίας ChatGPT αλλά αυτό άρχισε να αποτυγχάνει να ανταποκρίνεται έτσι μεταφέρθηκε στον Ιστό και λειτούργησε καλά.
1. Αναγνώριση αντικειμένου
Για αυτήν την πρώτη εικόνα, δημιούργησα μια εικόνα ενός κόκκινου κεραμικού φλιτζανιού γεμάτο με καφέ στον ατμό. Το είχαν βάλει σε ένα πιατάκι σε ένα ξύλινο τραπέζι σε ένα καφέ — αλλά το καφενείο ήταν θολό. Η ιδέα είναι να δούμε πώς το GPT-4o ερμηνεύει το φόντο και το σενάριο.
Το GPT-4o έγραψε: «Αυτή η εικόνα δείχνει ένα αχνιστό φλιτζάνι καφέ σε ένα κόκκινο φλιτζάνι και ένα πιατάκι τοποθετημένο σε ένα ρουστίκ ξύλινο τραπέζι. Το φόντο είναι θολό, απεικονίζοντας ένα ζεστό εσωτερικό σκηνικό με ανθρώπους να κάθονται και να συνομιλούν σε ένα καφέ που μοιάζει με σπήλαιο ή σε ένα μοναδικά σχεδιασμένο εσωτερικό με πέτρινους τοίχους. Η εστίαση είναι στο φλιτζάνι του καφέ, τονίζοντας τον ατμό που αναδύεται από το ζεστό ρόφημα.»
Αυτό είναι όσο πιο ακριβές και περιγραφικό θα μπορούσε να γίνει. Ακόμη και να ζωγραφίζει μια εικόνα της σκηνής που ξεπερνά την απλή περιγραφή. Για διασκέδαση του ζήτησα: «Περιγράψτε τις σκέψεις του ατόμου που κάθεται στο τραπέζι με αυτόν τον καφέ έτοιμο να πιει».
Απάντησε με μια όμορφη περιγραφική επισκόπηση, αλλά αυτή η γραμμή ξεχώριζε: «Αυτός ο καφές είναι κάτι περισσότερο από ένα ποτό. είναι μια ιεροτελεστία, μια αγαπημένη στιγμή μοναξιάς και προβληματισμού μέσα στη φασαρία της καθημερινότητας».
2. Οπτική αναγνώριση χαρακτήρων (OCR)
Το OCR είναι μια τεχνολογία τόσο παλιά όσο και η πληροφορική, οπότε θα πρέπει να είναι ασήμαντη για οποιοδήποτε μοντέλο όρασης, ακόμη και τα smartphones το κάνουν αυτό στη συσκευή. Του έδωσα μια απλή εικόνα που δείχνει ένα κοντινό πλάνο μιας ξεπερασμένης ξύλινης πινακίδας που γράφει “Καλώς ήρθατε στο Oakville” σε vintage στυλ με γράμματα με το χέρι. Θέλω περισσότερα από το κείμενο από το AI.
Παραδόθηκε GPT-4o. γράφοντας: «Αυτή η εικόνα δείχνει μια πινακίδα με vintage εμφάνιση που γράφει «Καλώς ήρθατε στο Oakville». Η πινακίδα φαίνεται ξεπερασμένη, με ρουστίκ, παλαιωμένο φινίρισμα, υποδηλώνοντας ότι έχει εκτεθεί στα στοιχεία για αρκετό καιρό. Το κείμενο είναι με έντονη, λευκή γραμματοσειρά σε κόκκινο φόντο, με κάποια σημάδια φθοράς, προσθέτοντας στη νοσταλγική του γοητεία. Η πινακίδα περιβάλλεται εν μέρει από πράσινο, υποδεικνύοντας ότι μπορεί να τοποθετηθεί σε εξωτερικό χώρο, πιθανώς στην είσοδο μιας πόλης ή μιας κοινότητας που ονομάζεται Oakville.
Όχι μόνο διάβασε σωστά το κείμενο, αλλά πρότεινε επίσης περισσότερες λεπτομέρειες για την τοποθεσία, προσδιορίζοντας την πιθανή πόλη ή οικισμό και βγάζοντας λεπτομέρειες της ίδιας της πινακίδας.
3. Αναγνώριση προσώπου
Πρόκειται για μια αμφιλεγόμενη χρήση της τεχνολογίας τεχνητής νοημοσύνης και απαγορεύεται σε κάποιο βαθμό στην ΕΕ. Αλλά πόσο καλά μπορεί το GPT-4o να περιγράψει ένα πρόσωπο; Η εικόνα ήταν μια απεικόνιση μιας γυναίκας γύρω στα 40 με σκούρα μαλλιά και ζεστά καστανά μάτια. Είχε ένα φιλικό χαμόγελο.
Το GPT-4o το περιέγραψε ως εξής: «Αυτή η εικόνα είναι ένα κοντινό πορτρέτο μιας χαμογελαστής γυναίκας με σγουρά σκούρα μαλλιά. Η εστίαση είναι στο πρόσωπό της, το οποίο είναι καλά φωτισμένο, δείχνοντας λεπτομερή υφή και χαρακτηριστικά δέρματος. Έχει μια φιλική έκφραση, με τα μάτια της να κοιτούν κατευθείαν την κάμερα. Το φόντο είναι θολό, δίνοντας έμφαση στο θέμα.»
Ήθελα λίγο περισσότερο, συμπεριλαμβανομένων γύρω από την ηλικία. Το ρώτησα λοιπόν «τι ηλικία είναι αυτό το άτομο και ποια είναι η συναισθηματική του κατάσταση». Απάντησε με το γεγονός ότι είναι στα τέλη της δεκαετίας των 30 έως τις αρχές των 40 και σε θετική ψυχική κατάσταση, εξηγώντας: «Η γενική εντύπωση είναι ότι βρίσκεται σε καλό μέρος συναισθηματικά, ίσως νιώθει ολοκληρωμένη και άνετη».
4. Ανίχνευση συναισθημάτων
Στη συνέχεια, ήθελα να δω πόσο καλά θα τα πήγαινε το GPT-4o με μια εικόνα ενός ηλικιωμένου άνδρα με μια θλιβερή έκφραση. Θα το έπιανε αυτό ή απλώς θα περιέγραφε τη σκηνή. Θυμηθείτε ότι η μόνη εισαγωγή που είχε ήταν «τι είναι αυτό» και η εικόνα.
Το GPT-4o πήγε καλά. Έλεγε για την εικόνα: «Αυτή η εικόνα είναι ένα πορτρέτο ενός ηλικιωμένου άνδρα που κάθεται σε ένα παγκάκι σε εξωτερικό χώρο, πιθανότατα σε ένα πάρκο. Ο φωτισμός υποδηλώνει ότι τραβήχτηκε τη χρυσή ώρα, καθώς το απαλό φως του ήλιου τονίζει το πρόσωπό του. Η έκφραση του άντρα είναι στοχαστική, με μια ελαφριά υπόνοια μελαγχολίας ή περισυλλογής. Είναι ντυμένος με ένα πουκάμισο με γιακά και ένα σακάκι, και το φόντο είναι θολό, εστιάζοντας την προσοχή στον άντρα ενώ προσφέρει ένα ευχάριστο, φυσικό σκηνικό».
Το μοντέλο AI έκανε ακριβώς αυτό που ήλπιζα: να περιγράψω τη σκηνή και να κάνω προτάσεις για το πώς μπορεί να αισθάνεται ο άντρας εκείνη τη στιγμή.
5. Κατανόηση σκηνής
Πόσο καλά μπορεί το GPT-4o να περιγράψει μια σκηνή από την εικόνα και να αναγνωρίσει στοιχεία μέσα στη σκηνή; Αυτή είναι μια χρήσιμη δεξιότητα, καθώς το μοντέλο AI χρησιμοποιείται όλο και περισσότερο για να βοηθήσει στην περιγραφή του πραγματικού κόσμου. Είναι ένα από τα βασικά χαρακτηριστικά της νέας λειτουργίας Voice στο ChatGPT.
Το GPT-4o δήλωσε: «Αυτή η εικόνα απεικονίζει μια ζωντανή υπαίθρια αγορά αγροτών μια ηλιόλουστη μέρα. Διάφοροι πάγκοι στήνονται κάτω από σκηνές, με αφθονία φρέσκων προϊόντων, όπως φρούτα, λαχανικά και άλλα αγαθά. Οι άνθρωποι περπατούν στην αγορά, περιηγούνται, ψωνίζουν και αλληλεπιδρούν με τους πωλητές. Η αγορά φαίνεται να βρίσκεται σε μια ευχάριστη, δεντρόφυτη περιοχή, με πράσινο φύλλωμα ορατό στο βάθος. Η ατμόσφαιρα φαίνεται ζωντανή και κοινόχρηστη, με έμφαση στα τοπικά, φρέσκα προϊόντα.»
Δεν υπάρχουν πολλά να πω. Ήταν ακριβής στην περιγραφή της εικόνας και της κατάστασης. Παρείχε περισσότερες λεπτομέρειες από ό,τι περίμενα, τονίζοντας ορισμένα από τα προϊόντα που πωλούνται.
6. Αξιολόγηση ποιότητας εικόνας
Έβαλα το Ideogram να δημιουργήσει τέσσερις σχεδόν πανομοιότυπες εικόνες σε ένα πλέγμα, αλλά σε κάθε μια διαφορετική ανάλυση ή επίπεδο σύνθεσης. Ήθελα να δω πώς θα το περιέγραφε αυτό το GPT-4o. Μπορεί να χειριστεί την υποκείμενη εικόνα, αλλά τι γίνεται με τέσσερις από αυτές, το καθένα ελαφρώς διαφορετικό;
Το GPT-4o έγραψε: «Η εικόνα είναι μια συλλογή τεσσάρων φωτογραφιών τοπίων διατεταγμένων σε ένα πλέγμα, που η καθεμία παρουσιάζει μια γραφική θέα σε κυματιστούς λόφους καλυμμένους με πράσινο γρασίδι και αγριολούλουδα κάτω από έναν ουρανό με σύννεφα». Τόσο καλά μέχρι εδώ.
Συνεχίζει: «Η επάνω αριστερή φωτογραφία παρουσιάζει έναν απαλό ροζ και μπλε ουρανό με κλίση, που υποδηλώνει την αυγή ή το σούρουπο, με λόφους λουσμένους με ζεστό, χρυσαφένιο φως, που ενισχύει το ζωντανό πράσινο γρασίδι και τα κίτρινα και λευκά λουλούδια. Η επάνω δεξιά φωτογραφία δείχνει μια παρόμοια σκηνή αλλά με σιωπηλά χρώματα, που υποδηλώνουν νωρίς το πρωί ή αργά το απόγευμα. Η κάτω αριστερή εικόνα έχει πιο ψυχρούς τόνους και έναν πιο έντονο μπλε ουρανό, που υποδηλώνει μεσημέρι με πιο απαλό φωτισμό. Η κάτω δεξιά φωτογραφία είναι πιο ζεστή και πιο κορεσμένη, με μια ροζ απόχρωση στον ουρανό, που υποδηλώνει το ζεστό φως του ηλιοβασιλέματος. Αυτές οι παραλλαγές στο φωτισμό και τον χρωματικό τόνο δείχνουν πώς διαφορετικές ώρες της ημέρας και φωτογραφικές τεχνικές μπορούν να επηρεάσουν τη διάθεση και την εμφάνιση του ίδιου τοπίου.»
Αν και δεν έπιασε τον σκοπό του πλέγματος τεσσάρων εικόνων – σύγκριση σύνθεσης – ήταν σε θέση να περιγράψει το καθένα ξεχωριστά, κάτι που είναι εντυπωσιακό. Στην πραγματικότητα έκανε τη δική του σύγκριση μεταξύ των εικόνων.
7. Ανίχνευση πολλαπλών αντικειμένων
Τέλος, μια σημαντική δοκιμή εάν το μοντέλο θέλει να είναι χρήσιμο ως εργαλείο προσβασιμότητας — πόσο καλά εντοπίζει αντικείμενα σε μια σκηνή με πολύ κόσμο. Ίδια προτροπή με τα άλλα. Η εικόνα δείχνει ένα ακατάστατο γραφείο και περιμένω να τραβήξει προς τα πάνω τουλάχιστον ένα μικρό αντικείμενο.
Το GPT-4o έγραψε: «Η εικόνα απεικονίζει έναν σύγχρονο και οργανωμένο χώρο εργασίας γραφείου με ένα αστικό τοπίο ορατό μέσα από μεγάλα παράθυρα στο βάθος. Το γραφείο είναι τακτοποιημένο με διάφορα αντικείμενα που συνήθως βρίσκονται σε ένα παραγωγικό περιβάλλον εργασίας, όπως ένας φορητός υπολογιστής τοποθετημένος στο κέντρο, μια μεταλλική λάμπα γραφείου και μια κούπα καφέ, υποδηλώνοντας μια χαλαρή αλλά συγκεντρωμένη ατμόσφαιρα. Τα διάσπαρτα τετράδια και τα χαρτιά υποδηλώνουν ενεργό εργασία και λήψη σημειώσεων, ενώ ένα μικρό φυτό σε γλάστρα προσθέτει μια πινελιά πρασίνου. Μια φωτογραφία δύο ατόμων με κορνίζα παρέχει μια προσωπική πινελιά, που πιθανότατα χρησιμεύει ως πηγή κινήτρου. Ο χώρος εργασίας είναι καλά εφοδιασμένος με είδη γραφείου, όπως στυλό, μολύβια και διοργανωτές, εξασφαλίζοντας λειτουργικότητα. Το αστικό σκηνικό του ορίζοντα της πόλης με τα μοντέρνα πολυώροφα κτίρια δημιουργεί ένα δυναμικό και εμπνευσμένο σκηνικό.»
Δούλεψε. Αποφάσισα να κάνω μια συνέχεια και να του ζητήσω να μου πει το χρώμα της γλάστρας και το βρήκε. Του ζήτησα λοιπόν να βρει τα γυαλιά μου στην εικόνα και είπε σωστά: «Τα γυαλιά σου βρίσκονται στο γραφείο στα δεξιά του φορητού υπολογιστή, τοποθετημένα πάνω σε ένα σημειωματάριο».
Περίληψη
Κάθε μοντέλο όρασης που έχω χρησιμοποιήσει στο παρελθόν έχει κάνει τουλάχιστον ένα λάθος, συνήθως μεγάλο, όπως η εσφαλμένη αναγνώριση ενός αντικειμένου ή η μη επιλογή χρώματος ή επωνυμίας.
Το GPT-4o είχε κάθε ένα από αυτά τα σημεία. Η μετάβαση στην αληθινή πολυτροπικότητα άλλαξε το παιχνίδι για το OpenAI.
Δείχνει επίσης τη δυνητική αξία των έξυπνων γυαλιών ως το πραγματικό μέλλον της αλληλεπίδρασης με τα δεδομένα. Ξεχάστε το smartphone, ας χρησιμοποιήσουμε το όραμα για να συγχωνεύσουμε το πραγματικό και το ψηφιακό.