Πίσω τον Απρίλιοεκτελέσαμε μια σειρά χρήσιμων και/ή κάπως ανόητων μηνυμάτων μέσω της Google (τότε-νέο) Λειτουργεί με PalM Το Bard chatbot και το (λίγο παλαιότερο) ChatGPT-4 του OpenAI για να δούμε ποιο chatbot AI βασίλευε. Εκείνη την εποχή, δώσαμε το προβάδισμα στο ChatGPT σε πέντε από τις επτά δοκιμές, ενώ σημείωσε ότι «είναι ακόμα νωρίς στην επιχείρηση παραγωγής τεχνητής νοημοσύνης». Τώρα, οι μέρες τεχνητής νοημοσύνης είναι λίγο λιγότερο «πρώιμες» και η κυκλοφορία αυτής της εβδομάδας μιας νέας έκδοσης του Bard υποστηρίζεται από το νέο μοντέλο γλώσσας Gemini της Google φαινόταν σαν μια καλή δικαιολογία για να επανεξετάσουμε τη μάχη του chatbot με το ίδιο σύνολο προσεκτικά σχεδιασμένων προτροπών. Αυτό ισχύει ιδιαίτερα από τότε Διαφημιστικό υλικό της Google τονίζουν ότι το Gemini Ultra κερδίζει το GPT-4 στα “30 από τα 32 ευρέως χρησιμοποιούμενα ακαδημαϊκά σημεία αναφοράς” (αν και το πιο περιορισμένο “Gemini Pro” τροφοδοτεί επί του παρόντος τον Bard τα ναύλα είναι σημαντικά χειρότερα σε αυτούς μη-εντελώς αλάνθαστη δοκιμές αναφοράς).
Αυτή τη φορά, αποφασίσαμε να συγκρίνουμε το νέο Bard που λειτουργεί με Gemini τόσο με το ChatGPT-3.5—για μια σύγκριση μήλων με μήλα των σημερινών «δωρεάν» προϊόντων βοηθών τεχνητής νοημοσύνης και των δύο εταιρειών—και του ChatGPT-4 Turbo—για μια ματιά στο Η τρέχουσα “κορυφαία γραμμή” του OpenAI στη λίστα αναμονής προϊόν συνδρομής επί πληρωμή (το μοντέλο “Gemini Ultra” ανώτατου επιπέδου της Google δεν θα είναι δημοσίως διαθέσιμο μέχρι το επόμενο έτος). Εξετάσαμε επίσης τα αποτελέσματα του Απριλίου που δημιουργήθηκαν από το μοντέλο πριν από το Gemini Bard για να μετρήσουμε πόση πρόοδο έχουν σημειώσει οι προσπάθειες της Google τα τελευταία χρόνια μήνες.
Αν και αυτές οι δοκιμές απέχουν πολύ από το να είναι ολοκληρωμένες, πιστεύουμε ότι παρέχουν ένα καλό σημείο αναφοράς για να κρίνουμε πώς αποδίδουν αυτοί οι βοηθοί τεχνητής νοημοσύνης στο είδος των εργασιών στις οποίες μπορεί να αναλαμβάνουν οι μέσοι χρήστες καθημερινά. Σε αυτό το σημείο, δείχνουν επίσης πόση πρόοδο έχουν σημειώσει τα μοντέλα τεχνητής νοημοσύνης που βασίζονται σε κείμενο σε σχετικά σύντομο χρονικό διάστημα.
Ο μπαμπάς αστειεύεται
Προτροπή: Γράψε 5 πρωτότυπα αστεία για τον πατέρα
Για άλλη μια φορά, και οι δύο δοκιμασμένοι LLM αγωνίζονται με το μέρος της προτροπής που ζητά πρωτοτυπία. Σχεδόν όλα τα αστεία του πατέρα που δημιουργούνται από αυτήν την προτροπή θα μπορούσαν να βρεθούν αυτολεξεί ή με πολύ μικρές αναδιατυπώσεις μέσω μιας γρήγορης αναζήτησης στο Google. Ο Bard και ο ChatGPT-4 Turbo περιέλαβαν ακόμη και το ίδιο ακριβώς αστείο στις λίστες τους (σχετικά με ένα βιβλίο για την αντιβαρύτητα), ενώ το ChatGPT-3.5 και το ChatGPT-4 Turbo αλληλεπικαλύπτονταν σε δύο αστεία («επιστήμονες που εμπιστεύονται τα άτομα» και «σκιάχτρα που κερδίζουν βραβεία» ).
Και πάλι, οι περισσότεροι μπαμπάδες δεν δημιουργούν τα δικά τους αστεία για τον πατέρα τους. Η αφαίρεση από μια μεγάλη προφορική παράδοση των αστείων των μπαμπάδων είναι μια παράδοση τόσο παλιά όσο και οι ίδιοι οι μπαμπάδες.
Το πιο ενδιαφέρον αποτέλεσμα εδώ προήλθε από το ChatGPT-4 Turbo, το οποίο παρήγαγε ένα αστείο σχετικά με το όνομα ενός παιδιού που ονομάζεται Brian μετά Thomas Edison (το καταλαβαίνετε;). Το γκουγκλάρισμα για τη συγκεκριμένη φράση δεν εμφανίστηκε πολύ, αν και επέστρεψε ένα σχεδόν πανομοιότυπο αστείο για τον Θωμά Τζέφερσον (με επίσης ένα παιδί που ονομάζεται Brian). Σε αυτή την αναζήτηση, ανακάλυψα επίσης το διασκεδαστικό (;) γεγονός ότι ο διεθνής αστέρας του ποδοσφαίρου Πελέ προφανώς πήρε το όνομά του από τον Thomas Edison. Οι οποίοι γνώριζαν?!
Νικητής: Θα το ονομάσουμε αυτό ισοπαλία, καθώς τα αστεία είναι σχεδόν πανομοιότυπα αυθεντικά και γεμάτα λογοπαίγνια (αν και στο GPT που με οδήγησαν ακούσια στο τυχαίο του Πελέ)
Διάλογος επιχειρημάτων
Προτροπή: Γράψτε μια συζήτηση 5 γραμμών μεταξύ ενός θαυμαστή των επεξεργαστών PowerPC και ενός θαυμαστή των επεξεργαστών Intel, περίπου το 2000.
Ο νέος Bard με δύναμη των Διδύμων σίγουρα «βελτιώνεται» στην παλιά απάντηση του Bard, τουλάχιστον όσον αφορά το να ρίξει πολύ περισσότερη ορολογία. Η νέα απάντηση περιλαμβάνει περιστασιακές αναφορές σε οδηγίες AltiVec, σχέδια RISC εναντίον CISC και τεχνολογία MMX που δεν θα φαινόταν παράταιρη στο πολλές συζητήσεις στο φόρουμ του Ars από την εποχή. Και ενώ ο παλιός Βάρδος τελειώνει με ένα απίστευτα ευγενικό “στον καθένα τον δικό του”, ο νέος Βάρδος υπονοεί πιο ρεαλιστικά ότι το επιχείρημα θα μπορούσε να συνεχιστεί για πάντα μετά τις πέντε γραμμές που ζητήθηκαν.
Από την πλευρά του ChatGPT, μια αρκετά μακροσκελής απάντηση GPT-3.5 συνοψίζεται σε ένα πολύ πιο συνοπτικό επιχείρημα στο GPT-4 Turbo. Και οι δύο απαντήσεις GPT τείνουν να αποφεύγουν την ορολογία και να εστιάζουν γρήγορα σε ένα πιο γενικευμένο επιχείρημα “ισχύς έναντι συμβατότητας”, το οποίο είναι πιθανώς πιο κατανοητό για ένα ευρύ κοινό (αν και λιγότερο συγκεκριμένο για ένα τεχνικό).
Νικητής: Το ChatGPT καταφέρνει να εξηγήσει καλά και τις δύο πλευρές της συζήτησης χωρίς να βασίζεται σε μπερδεμένη ορολογία, οπότε κερδίζει εδώ.