Γεννητική τεχνητή νοημοσύνη (AI) είναι διαβόητο επιρρεπείς σε πραγματικά λάθη. Λοιπόν, τι κάνετε όταν το έχετε ρωτήσει ChatGPT για να δημιουργήσετε 150 υποτιθέμενα γεγονότα και δεν θέλετε να περάσετε ένα ολόκληρο Σαββατοκύριακο επιβεβαιώνοντας το καθένα με το χέρι;
Λοιπόν, στην περίπτωσή μου, στράφηκα σε άλλα AI. Σε αυτό το άρθρο, θα εξηγήσω το έργο, θα εξετάσω πώς απέδωσε κάθε AI σε μια αναμέτρηση ελέγχου γεγονότων και θα παράσχω μερικές τελευταίες σκέψεις και προφυλάξεις εάν θέλετε επίσης να τολμήσετε σε αυτόν τον λαβύρινθο από στριφογυριστά, μικρά περάσματα που είναι όλα ίδια.
Η εργασία
Την προηγούμενη εβδομάδα, δημοσιεύσαμε ένα πολύ διασκεδαστικό έργο όπου είχαμε το DALL-E 3, που τρέχει μέσα στο ChatGPT, δημιούργησε 50 γραφικές εικόνες που νόμιζε ότι αντιπροσώπευαν κάθε πολιτεία των ΗΠΑ. Είχα επίσης τη λίστα ChatGPT “τα τρία πιο ενδιαφέροντα στοιχεία που γνωρίζετε για το κράτος”. Τα αποτελέσματα ήταν, όπως έθεσε ο συντάκτης μου στον τίτλο του άρθρου, «ένδοξα περίεργα».
Το ChatGPT έβαλε τη γέφυρα Golden Gate κάπου στον Καναδά. Το εργαλείο έβαλε τη Lady Liberty τόσο στις μεσοδυτικές ΗΠΑ όσο και κάπου στο νησί του Μανχάταν. Και δημιούργησε δύο Empire State Buildings. Εν ολίγοις, το ChatGPT το πήρε αφηρημένος εξπρεσιονισμός funk on, αλλά τα αποτελέσματα ήταν πολύ ωραία.
Όσον αφορά τα μεμονωμένα γεγονότα, ήταν κυρίως στοχευμένα. Είμαι αρκετά καλός με τη γεωγραφία και την ιστορία των ΗΠΑ και σκέφτηκα ότι λίγα από τα γεγονότα που δημιουργήθηκαν από το ChatGPT ξεχώρισαν ως εξαιρετικά λανθασμένα. Αλλά δεν έκανα κανένα ανεξάρτητο έλεγχο στοιχείων. Απλώς διάβασα τα αποτελέσματα και τα είπα αρκετά καλά.
Αλλά τι γίνεται αν θέλουμε πραγματικά να μάθουμε την ακρίβεια αυτών των 150 κουκίδων γεγονότων; Αυτό το είδος της ερώτησης φαίνεται σαν ένα ιδανικό έργο για ένα AI.
Μεθοδολογία
Εδώ είναι λοιπόν το θέμα. Αν GPT-4το μοντέλο μεγάλης γλώσσας OpenAI (LLM) που χρησιμοποιείται από ChatGPT Plus, δημιούργησε τις δηλώσεις γεγονότων, δεν ήμουν απόλυτα πεπεισμένος ότι έπρεπε να τις ελέγχει. Αυτό είναι σαν να ζητάς από μαθητές γυμνασίου να γράψουν μια ιστορία χωρίς να χρησιμοποιούν παραπομπές και μετά να διορθώσουν μόνοι τους τη δουλειά τους. Ξεκινούν ήδη με ύποπτες πληροφορίες — και μετά τους αφήνετε να διορθωθούν; Όχι, δεν μου ακούγεται σωστό.
Επίσης: Δύο ανακαλύψεις έκαναν το 2023 την πιο καινοτόμο χρονιά της τεχνολογίας σε πάνω από μια δεκαετία
Τι θα γινόταν όμως αν τροφοδοτούσαμε αυτά τα γεγονότα σε άλλους LLM μέσα σε άλλα AI; Τόσο ο Bard της Google όσο και ο Claude του Anthropic έχουν τα δικά τους LLM. Το Bing χρησιμοποιεί το GPT-4, αλλά σκέφτηκα ότι θα δοκίμαζα τις απαντήσεις του μόνο και μόνο για να είμαι ολοκληρωμένος.
Όπως θα δείτε, έλαβα τα καλύτερα σχόλια από τον Bard, έτσι τροφοδότησα τις απαντήσεις του πίσω στο ChatGPT σε μια κυκλική διαστροφή της φυσικής τάξης του σύμπαντος. Ήταν ένα δροσερό έργο.
Anthropic Claude
Ο Κλοντ χρησιμοποιεί το Claude 2 LLM, το οποίο χρησιμοποιείται επίσης στο πλαίσιο της υλοποίησης AI της Notion. Ο Claude μου επέτρεψε να το τροφοδοτήσω με ένα PDF που περιέχει το πλήρες σύνολο γεγονότων (χωρίς τις εικόνες). Εδώ είναι τι πήρα πίσω:
Συνολικά, ο Claude βρήκε τη λίστα γεγονότων ως επί το πλείστον ακριβή, αλλά είχε κάποιες διευκρινίσεις για τρία στοιχεία. Περιόρισα το μήκος των γεγονότων του ChatGPT και αυτό το όριο εμπόδισε τις αποχρώσεις στις περιγραφές γεγονότων. Ο έλεγχος στοιχείων του Κλοντ αντιμετώπισε κάποιες από αυτές τις αποχρώσεις.
Συνολικά, ήταν μια ενθαρρυντική απάντηση.
Copilot… ή nopilot;
Στη συνέχεια φτάνουμε στο Copilot της Microsoft, το μετονομασμένο Bing Chat AI. Το Copilot δεν επιτρέπει τη μεταφόρτωση αρχείων PDF, γι’ αυτό προσπάθησα να επικολλήσω το κείμενο και από τα 50 γεγονότα κατάστασης. Αυτή η προσέγγιση απέτυχε αμέσως, επειδή το Copilot δέχεται μόνο προτροπές έως 2.000 χαρακτήρες:
Ρώτησα τον Copilot τα εξής:
Το παρακάτω κείμενο περιέχει ονόματα πολιτειών ακολουθούμενα από τρία γεγονότα για κάθε πολιτεία. Εξετάστε τα γεγονότα και εντοπίστε τυχόν λανθασμένα για αυτήν την κατάσταση
Εδώ είναι τι πήρα πίσω:
Επανέλαβε λίγο πολύ τα δεδομένα που του ζήτησα να ελέγξει. Έτσι, προσπάθησα να το καθοδηγήσω με μια πιο δυναμική προτροπή:
Για άλλη μια φορά, μου έδωσε πίσω τα δεδομένα που του ζήτησα να επαληθεύσει. Βρήκα αυτή την έξοδο πολύ περίεργη επειδή το Copilot χρησιμοποιεί το ίδιο LLM με το ChatGPT. Σαφώς, η Microsoft το έχει ρυθμίσει διαφορετικά από το ChatGPT.
Τα παράτησα και πήγα στον Μπαρντ.
Βάρδος
Η Google μόλις ανακοίνωσε το νέο Gemini LLM. Δεν έχω ακόμη πρόσβαση στο Gemini, οπότε έτρεξα αυτές τις δοκιμές Το μοντέλο PalM 2 της Google.
Επίσης: Τι είναι ο Δίδυμος; Όλα όσα πρέπει να γνωρίζετε για το νέο μοντέλο AI της Google
Σε σύγκριση με τον Claude και τον Copilot, Βάρδος το έριξε έξω από το πάρκο, ή, πιο σαιξπηρικό, «διατρέχει τον στενό κόσμο σαν Κολοσσός».
Δείτε τα αποτελέσματα παρακάτω:
Είναι σημαντικό να σημειωθεί ότι πολλά πολιτειακά γεγονότα δεν συμφωνούνται καν από τα κράτη ή υπάρχουν αποχρώσεις. Όπως θα σας δείξω στην επόμενη ενότητα, επέστρεψα αυτήν τη λίστα στο ChatGPT και βρήκε δύο αποκλίσεις στις απαντήσεις της Αλάσκας και του Οχάιο.
Αλλά υπάρχουν κι άλλες ελλείψεις εδώ. Κατά κάποιο τρόπο, ο Μπαρντ υπεραντιστάθμισε την ανάθεση. Για παράδειγμα, ο Bard είπε σωστά ότι άλλες πολιτείες εκτός από το Maine παράγουν αστακούς. Αλλά το Maine κάνει all-in στην παραγωγή αστακού. Δεν έχω πάει ποτέ σε άλλη πολιτεία που έχει μικροσκοπικές παγίδες αστακού ως ένα από τα πιο δημοφιλή τουριστικά μπιχλιμπίδια.
Ή ας διαλέξουμε τη Νεβάδα και την Περιοχή 51. Το ChatGPT είπε, “Ακρως απόρρητη στρατιωτική βάση, φημολογούμενες θεάσεις UFO”. Ο Bard προσπάθησε να διορθώσει, λέγοντας “Η περιοχή 51 δεν φημολογείται απλώς ότι έχει παρατηρήσεις UFO. Είναι μια πραγματική άκρως απόρρητη στρατιωτική εγκατάσταση και ο σκοπός της είναι άγνωστος.” Σχεδόν το ίδιο λένε. Ο Μπαρντ απλώς έχασε την απόχρωση που προέρχεται από το αυστηρό όριο λέξεων.
Ένα άλλο μέρος που επέλεξε ο Bard στο ChatGPT χωρίς να κατανοεί το πλαίσιο ήταν η Μινεσότα. Ναι, το Ουισκόνσιν έχει επίσης πολλές λίμνες. Αλλά ο Μπαρντ δεν ισχυρίστηκε ότι η Μινεσότα είχε τις περισσότερες λίμνες. Μόλις περιέγραψε τη Μινεσότα ως τη «Γη των 10.000 λιμνών», που είναι ένα από τα πιο κοινά συνθήματα της Μινεσότα.
Ο Μπαρντ έκλεισε το τηλέφωνο στο Κάνσας επίσης. Το ChatGPT είπε ότι το Κάνσας είναι “σπίτι στο γεωγραφικό κέντρο των συνεχόμενων ΗΠΑ”. Ο Μπαρντ ισχυρίστηκε ότι ήταν η Νότια Ντακότα. Και αυτό θα ήταν αλήθεια αν λάβετε υπόψη την Αλάσκα και τη Χαβάη. Αλλά το ChatGPT είπε “συνεχόμενο” και αυτή η τιμή πηγαίνει σε ένα σημείο κοντά στον Λίβανο, στο Κάνσας.
Επίσης: Αυτές είναι οι θέσεις εργασίας που είναι πιο πιθανό να αναληφθούν από την AI
Θα μπορούσα να συνεχίσω, και θα το κάνω στην επόμενη ενότητα, αλλά καταλαβαίνετε το νόημα. Ο έλεγχος γεγονότων του Bard φαίνεται εντυπωσιακός, αλλά συχνά χάνει το νόημα και κάνει τα πράγματα εξίσου στραβά με κάθε άλλη τεχνητή νοημοσύνη.
Πριν προχωρήσουμε στον περιορισμένο έλεγχο στοιχείων του ChatGPT για τον έλεγχο δεδομένων του Bard, επιτρέψτε μου να επισημάνω ότι οι περισσότερες από τις καταχωρίσεις του Bard ήταν είτε λανθασμένες είτε λανθασμένες. Και όμως, η Google βάζει τις απαντήσεις της σε τεχνητή νοημοσύνη μπροστά στα περισσότερα αποτελέσματα αναζήτησης. Αυτό σε αφορά; Σίγουρα με ανησυχεί.
Ένα τέτοιο θαύμα, άρχοντες και κυρίες μου, δεν πρέπει να μιλήσουμε.
ChatGPT
Ακριβώς από την κορυφή, θα μπορούσα να πω ότι ο Bard έκανε λάθος ένα από τα στοιχεία του — Η Αλάσκα είναι πολύ μεγαλύτερη από το Τέξας. Λοιπόν, σκέφτηκα, ας δούμε αν το ChatGPT μπορεί να ελέγξει τον έλεγχο δεδομένων του Bard. Για μια στιγμή, σκέφτηκα ότι αυτό το κομμάτι της ουράς AI μπορεί να κυνηγήσει βγάλει το φεγγάρι από την τροχιά της Γηςαλλά μετά αποφάσισα ότι θα διακινδύνευα ολόκληρη τη δομή του σύμπαντος μας γιατί ήξερα ότι θα θέλατε να μάθετε τι συνέβη:
Εδώ είναι τι έδωσα το ChatGPT:
Και να τι είπε το ChatGPT (και, για λόγους σαφήνειας, το φεγγάρι παρέμεινε σε τροχιά):
Όπως μπορείτε να δείτε, το ChatGPT διαφώνησε με τον εσφαλμένο ισχυρισμό του Bard ότι το Τέξας είναι η μεγαλύτερη πολιτεία. Είχε επίσης λίγο ζαλάδα για το Οχάιο εναντίον του Κάνσας ως γέννηση της αεροπορίας, η οποία είναι πιο αμφιλεγόμενη από ό,τι διδάσκουν τα περισσότερα σχολεία.
Επίσης: 7 τρόποι για να βεβαιωθείτε ότι τα δεδομένα σας είναι έτοιμα για τεχνητή νοημοσύνη
Είναι κοινώς αποδεκτό ότι ο Wilbur και ο Orville Wright πέταξαν το πρώτο αεροσκάφος (στην πραγματικότητα στο Kitty Hawk της Βόρειας Καρολίνας), αν και κατασκεύασαν το Wright Flyer στο Dayton του Οχάιο. Τούτου λεχθέντος, Sir George Cayley (1804), Henri Giffard (1852), Félix du Temple (1874), Clément Ader (1890), Otto Lilienthal (1891), Samuel Langley (1896), Gustave Whitehead (1901) και Richard Pearse (1902) — από τη Νέα Ζηλανδία, το Ηνωμένο Βασίλειο, τη Γαλλία, τη Γερμανία και άλλα μέρη των ΗΠΑ — όλοι έχουν κάπως νόμιμες αξιώσεις ότι είναι οι πρώτοι σε πτήση.
Αλλά θα δώσουμε το νόημα στο ChatGPT, γιατί έχει μόνο 10 λέξεις για να διεκδικήσει, και το Οχάιο ήταν εκεί όπου οι αδελφοί Ράιτ είχαν το κατάστημα ποδηλάτων τους.
Συμπεράσματα και επιφυλάξεις
Ας ξεπεράσουμε κάτι εκ των προτέρων: εάν περιστρέφετε ένα έγγραφο ή ένα έγγραφο όπου χρειάζεστε τα στοιχεία σας να είναι σωστά, κάντε τον δικό σας έλεγχο δεδομένων. Διαφορετικά, οι φιλοδοξίες σας στο μέγεθος του Τέξας μπορεί να θάβονται κάτω από ένα πρόβλημα μεγέθους Αλάσκας.
Όπως είδαμε στις δοκιμές μας, τα αποτελέσματα (όπως και με τον Bard) μπορεί να φαίνονται αρκετά εντυπωσιακά, αλλά να είναι εντελώς ή εν μέρει λάθος. Συνολικά, ήταν ενδιαφέρον να ζητήσουμε από τα διάφορα AI να διασταυρώσουν το ένα το άλλο, και αυτή είναι μια διαδικασία που πιθανώς θα διερευνήσω περαιτέρω, αλλά τα αποτελέσματα ήταν μόνο πειστικά ως προς το πόσο ασαφή ήταν.
Ο Copilot εγκατέλειψε εντελώς και απλώς ζήτησε να επιστρέψει στον υπνάκο του. Ο Κλοντ αμφισβήτησε την απόχρωση μερικών απαντήσεων. Ο Μπαρντ χτύπησε δυνατά σε μια σειρά απαντήσεων — αλλά, προφανώς, το να σφάλεις δεν είναι μόνο ανθρώπινο, είναι και τεχνητή νοημοσύνη.
Επίσης: Αυτές οι 5 σημαντικές τεχνολογικές εξελίξεις του 2023 ήταν οι μεγαλύτερες αλλαγές στο παιχνίδι
Εν κατακλείδι, πρέπει να παραθέσω τον πραγματικό Βάρδο και να πω, “Η σύγχυση έχει κάνει τώρα το αριστούργημά του!”
Τι νομίζετε; Τι είδους τρομακτικά λάθη έχετε δει από το αγαπημένο σας AI; Είστε ικανοποιημένοι με την εμπιστοσύνη των AI για γεγονότα ή θα κάνετε τώρα τις δικές σας διαδικασίες ελέγχου δεδομένων; Ενημερώστε μας στα σχόλια παρακάτω.
Μπορείτε να παρακολουθείτε τις καθημερινές ενημερώσεις του έργου μου στα μέσα κοινωνικής δικτύωσης. Φροντίστε να εγγραφείτε στο εβδομαδιαίο ενημερωτικό δελτίο ενημέρωσης μου στο Substackκαι ακολουθήστε με στο Twitter στο @DavidGewirtzστο Facebook στη διεύθυνση Facebook.com/DavidGewirtzστο Instagram στο Instagram.com/DavidGewirtzκαι στο YouTube στη διεύθυνση YouTube.com/DavidGewirtzTV.