Το επερχόμενο MI300, το οποίο θα κυκλοφορήσει το Latter φέτος μετά το Grace/Hopper Superchip της NVIDIA, έχει σίγουρα μια ευκαιρία. Ωστόσο, παραμένουν πολλά άγνωστα που θα καθορίσουν πόσο καλά αποδίδει για εφαρμογές τεχνητής νοημοσύνης. Και μετά υπάρχει το λογισμικό. Ναι, λογισμικό. Πολύ Λογισμικό.
Το AMD Instinct MI300 είναι ένας συνδυασμός της ναυαρχίδας CPU και GPU της.
Στην κεντρική ομιλία της CES 2023, η Διευθύνουσα Σύμβουλος της AMD, Dr. Lisa Su, επανέλαβε το σχέδιο της εταιρείας να κυκλοφορήσει το Instinct MI300 στην αγορά μέχρι το τέλος του τρέχοντος έτους και έδειξε το πυρίτιο τέρας στο χέρι. Το τσιπ είναι σίγουρα ένα σημαντικό ορόσημο για την εταιρεία και τη βιομηχανία γενικότερα, καθώς είναι η πιο επιθετική εφαρμογή chiplet που έχει παρατηρηθεί μέχρι τώρα. Ο συνδυασμός της ταχύτερης CPU του κλάδου με μια νέα GPU και HBM μπορεί να αποφέρει πολλά πλεονεκτήματα, ειδικά επειδή υποστηρίζει την κοινή χρήση αυτής της μνήμης HBM σε όλο το σύμπλεγμα υπολογιστών. Η ιδέα μιας μεγάλης APU δεν είναι νέα. Εργάστηκα στο ακυρωμένο Big APU στην AMD το 2014 και είμαι αληθινός πιστός. Αλλά ο συνδυασμός της CPU και της GPU σε ένα ενιαίο πακέτο είναι μόνο η αρχή.
Αυτό που ξέρουμε
Το MI300 είναι μια τέρας συσκευή, με εννέα chiplet 5nm της TSMC στοιβαγμένα σε τέσσερα chiplet 6 nm που χρησιμοποιούν στοίβαξη 3D die, όλα με τη σειρά τους θα συνδυαστούν με 128 GB κοινόχρηστης μνήμης HBM στο πακέτο για μεγιστοποίηση του εύρους ζώνης και ελαχιστοποίηση της κίνησης δεδομένων. Σημειώνουμε ότι το Grace/Hopper της NVIDIA, το οποίο αναμένουμε ότι θα κυκλοφορήσει πριν από το MI300, θα εξακολουθεί να μοιράζεται 2 ξεχωριστές δεξαμενές μνήμης, χρησιμοποιώντας HBM για την GPU και πολύ περισσότερη DRAM για την CPU. Η AMD λέει ότι μπορεί να τρέξει το MI300 χωρίς DRAM προαιρετικά, χρησιμοποιώντας απλώς το HBM, το οποίο θα ήταν πολύ ωραίο και πολύ γρήγορο.
Στα τρανζίστορ 146Β, αυτή η συσκευή θα πάρει πολλή ενέργεια για να τροφοδοτήσει και να κρυώσει. Έχω δει εκτιμήσεις 900 watt. Αλλά σε αυτό το high-end της AI, αυτό μπορεί να μην έχει σημασία. Το Grace-Hopper Superchip της NVIDIA θα καταναλώνει περίπου την ίδια κατανάλωση και ένας κινητήρας κλίμακας Wafer Cerebras καταναλώνει 15 kW. Αυτό που έχει σημασία είναι πόση δουλειά επιτρέπει αυτή η δύναμη.
Η AMD θα συνδυάσει 24 πυρήνες CPU EPYC, άγνωστο αριθμό πυρήνων CDNA 3 GPU και 128 GB HBM3 όλα σε … [+]
Η AMD επανέλαβε τον ισχυρισμό της από την Ημέρα Οικονομικών Αναλυτών της ότι το MI300 θα ξεπερνούσε το δικό του MI250x κατά 8 φορές για την τεχνητή νοημοσύνη και θα παρείχε 5 φορές την απόδοση ισχύος. Σημειώνουμε εδώ ότι στην πραγματικότητα πρόκειται για χαμηλή μπάρα, καθώς το MI250 δεν υποστηρίζει εγγενή μαθηματικά χαμηλής ακρίβειας κάτω των 16 bit. Η νέα GPU θα υποστηρίζει πιθανώς 4 και 8 bit int και floating point και θα έχει τετραπλάσιο αριθμό CU, επομένως το 8X είναι ένα chip-shot που μπορεί να ξεπεράσει η AMD.
Η AMD ισχυρίζεται ότι το MI300 θα ξεπεράσει την τρέχουσα GPU του κέντρου δεδομένων κατά 8 φορές, αλλά αυτό θα μπορούσε ως επί το πλείστον … [+]
Αυτό που δεν ξέρουμε
Έτσι, από άποψη υλικού, το MI300 φαίνεται δυνητικά πολύ δυνατό. Ωστόσο, η AMD άργησε να καινοτομήσει πέρα από τους πυρήνες της GPU, εστιάζοντας περισσότερο στο floating point που χρειάζονται οι πελάτες HPC. Για παράδειγμα, η AMD δεν παρείχε ισοδύναμο με το Tensor Cores στο MI250x, το οποίο μπορεί να βελτιώσει δραματικά την απόδοση των εφαρμογών AI (και επιλεγμένων HPC) αυξάνοντας τον παραλληλισμό. Το MI300 υποστηρίζει πυρήνες τανυστή; Θα το υποθέσω. Αλλά το παιχνίδι AI έχει προχωρήσει από τους συνελικτικούς αλγόριθμους επεξεργασίας εικόνας, οι οποίοι επιταχύνουν τους πυρήνες τανυστήρα, στην Επεξεργασία Φυσικής Γλώσσας και στα θεμελιώδη μοντέλα παραγωγής, και αυτό απαιτεί περισσότερη καινοτομία.
Όπως έχουμε δει όλοι με το GPT-3 και τώρα το ChatGPT, τα μεγάλα βασικά μοντέλα γλωσσών είναι τα νέα σύνορα για την τεχνητή νοημοσύνη. Για να τα επιταχύνει, το NVIDIA Hopper διαθέτει έναν Transformer Engine που μπορεί να επιταχύνει την προπόνηση έως και 9X και την απόδοση συμπερασμάτων έως και 30X. Ο H100 Transformer Engine μπορεί να συνδυάσει ακρίβεια 8 bit και μισή ακρίβεια 16 bit όπως χρειάζεται, διατηρώντας παράλληλα την ακρίβεια. Η AMD θα έχει κάτι παρόμοιο; Οι οπαδοί της AMD το ελπίζουν καλύτερα. Τα θεμελιώδη μοντέλα είναι το μέλλον της τεχνητής νοημοσύνης.
Δεν γνωρίζουμε επίσης πόσο μεγάλο θα είναι ένα αποτύπωμα συμπλέγματος. Συγκεκριμένα, η NVIDIA μεταβαίνει από ένα σύμπλεγμα 8 κόμβων σε ένα σύμπλεγμα κοινόχρηστης μνήμης 256 κόμβων, απλοποιώντας σημαντικά την ανάπτυξη μεγάλων μοντέλων τεχνητής νοημοσύνης. Ομοίως, δεν γνωρίζουμε ακόμη πώς η AMD θα υποστηρίξει μεγαλύτερους κόμβους. διαφορετικά μοντέλα απαιτούν διαφορετική αναλογία GPU προς CPU. Η NVIDIA έχει δείξει ότι θα υποστηρίζει 16 Hoppers ανά CPU Grace μέσω NVLink.
Το λογισμικό είναι ένα τεράστιο πρόβλημα για την AMD
Τέλος, στον τομέα του λογισμικού, νομίζω ότι πρέπει να δώσουμε στην AMD ένα hall-pass: δεδομένης της απόδοσης υλικού AMD AI μέχρι σήμερα, δεν έχει γίνει πολύ σοβαρή δουλειά στη στοίβα λογισμικού. Ναι, το ROCm είναι μια καλή αρχή, αλλά στην πραγματικότητα καλύπτει μόνο τα βασικά, απλώς παίρνει τον κώδικα για να λειτουργεί αρκετά καλά στο υλικό.
Η στοίβα λογισμικού AMD ROCm εστιάζει στην καλή λειτουργία των DNN στο AMD Hardware.
Αντίστροφα, σκεφτείτε το ROCm σε σύγκριση με τη στοίβα λογισμικού της NVIDIA. Οι βιβλιοθήκες ROCm είναι περίπου ισοδύναμες με ΕΝΑ από τα μικρά εικονίδια στην παρακάτω εικόνα της NVIDIA: CuDNN. Η NVIDIA δεν αναφέρεται καν σε πράγματα όπως το OpenMPI ή προγράμματα εντοπισμού σφαλμάτων και ανιχνευτές. αυτά είναι απλά στοιχήματα τραπεζιού. Ή Kubernetes και Docker. Η AMD δεν έχει διακομιστή Triton Inference, RAPIDS, TensorRT, κ.λπ., κ.λπ., κ.λπ. Και δεν υπάρχει κανένας υπαινιγμός για κάτι που να πλησιάζει τα 14 πλαίσια εφαρμογών στην κορυφή της διαφάνειας της NVIDIA.
Η στοίβα λογισμικού NVIDIA για AI και HPC σχηματίζει μια βαθιά και ευρεία προστατευτική τάφρο.
Τούτου λεχθέντος, ορισμένοι πελάτες, όπως το OpenAI, έχουν απομονωθεί από το λογισμικό που παρέχεται από τον προμηθευτή και είναι αδιαφάνεια. Πέρυσι, το OpenAI παρουσίασε τη στοίβα λογισμικού ανοιχτού κώδικα Triton, παρακάμπτοντας τη στοίβα NVIDIA CUDA. Θα μπορούσε κανείς να φανταστεί ότι το OpenAI θα μπορούσε να χρησιμοποιήσει το δικό του λογισμικό στο MI300 και να είναι μια χαρά. Αλλά για τους περισσότερους άλλους, υπάρχουν πολλά περισσότερα στο λογισμικό τεχνητής νοημοσύνης από τις βιβλιοθήκες CUDA.
συμπεράσματα
Η AMD έχει κάνει μια αξιοθαύμαστη δουλειά με το MI300, οδηγώντας ολόκληρη τη βιομηχανία στην υιοθέτηση αρχιτεκτονικών που βασίζονται σε chiplet. Πιστεύουμε ότι το MI300 θα τοποθετήσει την AMD ως μια άξια εναλλακτική του Grace/Hopper, ειδικά για όσους προτιμούν μια πλατφόρμα εκτός NVIDIA. Κατά συνέπεια, η AMD έχει την ευκαιρία να θεωρηθεί βιώσιμη δεύτερη πηγή για γρήγορες GPU, ειδικά όταν το HPC είναι ο νούμερο ένα χώρος εφαρμογής και η τεχνητή νοημοσύνη είναι μια σημαντική αλλά δευτερεύουσα παράμετρος. Η απόδοση της AMD στο Floating Point είναι τώρα πολύ μπροστά από την NVIDIA. Και η συνδυασμένη CPU + GPU της Intel, που ονομάζεται Falcon Shores, έχει προγραμματιστεί για το 2024, υποθέτοντας ότι δεν υπάρχουν ολισθήσεις.
Αλλά αυτό που πρέπει να δούμε εμείς και η αγορά είναι η απόδοση εφαρμογών σε πραγματικό κόσμο. Λοιπόν, ας δούμε λίγο MLPerf, AMD!
.