Τα ρεαλιστικά 3D avatars έχουν γίνει διαδεδομένα στα βιντεοπαιχνίδια, στις εμπειρίες εικονικής πραγματικότητας/επαυξημένης πραγματικότητας και στη βιομηχανία ταινιών. Η εμφάνιση των πρακτόρων Metaverse και AI έχει τροφοδοτήσει μια αυξανόμενη ανάγκη για προσαρμοσμένη και εκφραστική δημιουργία χαρακτήρων, ειδικά σε εικονικές συναντήσεις, συνομιλητές και έξυπνη εξυπηρέτηση πελατών. Παρά αυτή τη ζήτηση, η δημιουργία ενός εξατομικευμένου 3D avatar με χρήση συμβατικών εργαλείων ψηφιακής δημιουργίας παραμένει περίπλοκη και χρονοβόρα. Αυτό αποτελεί πρόκληση για τους γενικούς χρήστες να δημιουργήσουν λεπτομερή χαρακτηριστικά του προσώπου.
Μια ομάδα ερευνητών από το Institute for Intelligent Computing και την Alibaba Group παρουσιάζει το Make-A-Character (Mach), ένα εφευρετικό σύστημα που έχει σχεδιαστεί για να απλοποιεί τη δημιουργία τρισδιάστατων ψηφιακών ανθρώπινων μοντέλων. Αξιοποιώντας προηγμένα μοντέλα γλώσσας και όρασης, το Mach μετατρέπει τις βασικές περιγραφές κειμένου σε λεπτομερή και ρεαλιστικά 3D avatar. Αυτή η βελτιστοποιημένη προσέγγιση επιτρέπει στους χρήστες να δημιουργούν εξατομικευμένα avatar που ευθυγραμμίζονται με τις προσδοκίες τους χωρίς κόπο. Το Mach επιτρέπει επίσης την εύκολη ενσωμάτωση με υπάρχοντες αγωγούς CG για δυναμική εκφραστικότητα.
Οι ερευνητές πρότειναν έναν μηχανισμό μετατροπής με το όνομα Triplane, ο οποίος βελτίωσε τη δημιουργία γεωμετρίας και διευκόλυνε τη βελτιστοποίηση των παραμέτρων της κάμερας και των χαρτών Triplane με βάση τα πυκνά ορόσημα του προσώπου και μια εικόνα αναφοράς. Για να συλλέξουν δεδομένα εδάφους αλήθειας, απαθανάτισαν τα πρόσωπα 193 ατόμων υπό ομοιόμορφο φωτισμό και τεχνητά δημιουργημένες υφές υπό διαφορετικές συνθήκες φωτισμού. Για να βελτιώσουν την ποικιλομορφία των δεδομένων και να αποφύγουν την υπερβολική προσαρμογή, αύξησαν τα χρώματα του δέρματος των διάχυτων albedos αλήθειας εδάφους με βάση την Ατομική Γωνία Τυπολογίας (ITA). Δημιουργήθηκαν φώτα υψηλού δυναμικού εύρους (HDR) για κάθε δεδομένο αλήθειας εδάφους για να καλύψουν ένα ευρύ φάσμα συνθηκών φυσικού φωτισμού.
Χρησιμοποιήθηκε μια σειρά από μονάδες ανάλυσης 2D προσώπου και 3D δημιουργίας για τη δημιουργία του πλέγματος και των υφών του προσώπου-στόχου, μαζί με πρόσθετα ταιριαστά αξεσουάρ, επιτρέποντας την εύκολη κίνηση του 3D avatar που δημιουργήθηκε. Η διαδικασία χρησιμοποιεί διαφοροποιήσιμες μεθόδους απόδοσης και βελτίωσης για την εξαγωγή και τελειοποίηση της διάχυτης υφής χρησιμοποιώντας μια εικόνα αναφοράς. Η μονάδα παραγωγής μαλλιών συμβάλλει επίσης στη συνολική εκφραστικότητα μέσω λεπτομερούς σύνθεσης σε επίπεδο κλώνου. Αξεσουάρ όπως ρούχα, γυαλιά, βλεφαρίδες και ίριδες προέρχονται από μια βιβλιοθήκη στοιχείων 3D με ετικέτα και εξάγονται τα σημασιολογικά τους χαρακτηριστικά, ακολουθούμενα από τη συναρμολόγηση αυτών των στοιχείων για τη δημιουργία μιας ολοκληρωμένης τρισδιάστατης εικόνας.
Η μελέτη παρουσιάζει οπτικά αποτελέσματα των δημιουργημένων τρισδιάστατων είδωλα, παρουσιάζοντας εκφραστικά κινούμενα σχέδια που επιτυγχάνονται μέσω του ελέγχου εξέδρας προσώπου. Οι ερευνητές επιδεικνύουν την αποτελεσματικότητα της προσέγγισής τους αναπτύσσοντας λεπτομερή χαρακτηριστικά του προσώπου που καθοδηγούνται από προτροπές κειμένου χρησιμοποιώντας το Stable Diffusion Model, το LLM και το ControlNet. Τα δημιουργημένα τρισδιάστατα είδωλα παρουσιάζουν ρεαλιστικές υφές και γεωμετρία. Οι ερευνητές επιδεικνύουν επίσης τη γενιά μαλλιών με βάση τα μαλλιά, καθοδηγούμενη από εικόνες χτενίσματος που δημιουργούνται χρησιμοποιώντας μοντέλα SD.
Συμπερασματικά, η μελέτη προτείνει μια μέθοδο για τη δημιουργία λεπτομερών 3D avatars με ρεαλιστικές υφές και γεωμετρία, καθοδηγούμενη από προτροπές κειμένου και πυκνά ορόσημα προσώπου. Οι ερευνητές επιδεικνύουν την αποτελεσματικότητα της προσέγγισής τους μέσω οπτικών αποτελεσμάτων, παρουσιάζοντας εκφραστικά κινούμενα σχέδια που επιτυγχάνονται μέσω του ελέγχου εξέδρας προσώπου. Το Stable Diffusion Model, το LLM και το ControlNet επιτρέπουν τη δημιουργία λεπτομερών χαρακτηριστικών του προσώπου. Η μελέτη υπογραμμίζει τη σημασία των πυκνών σημείων του προσώπου για την ακριβή αναδόμηση της δομής του προσώπου και του κεφαλιού. Το Mach χρησιμοποιεί συνθετικές εικόνες για δεδομένα εκπαίδευσης και δημιουργεί μια σωλήνωση λήψης και επεξεργασίας πολλαπλών προβολών για την παραγωγή ομοιόμορφων τοπολογικών σαρώσεων κεφαλής.
Ελέγξτε το Χαρτί. Όλα τα εύσημα για αυτήν την έρευνα ανήκουν στους ερευνητές αυτού του έργου. Επίσης, μην ξεχάσετε να εγγραφείτε Το 35k+ ML SubReddit μας, 41k+ Κοινότητα Facebook, Discord Channel, LinkedIn Grουπκαι Ενημερωτικό δελτίο ηλεκτρονικού ταχυδρομείουόπου μοιραζόμαστε τα πιο πρόσφατα ερευνητικά νέα της τεχνητής νοημοσύνης, εντυπωσιακά έργα τεχνητής νοημοσύνης και πολλά άλλα.
Αν σας αρέσει η δουλειά μας, θα λατρέψετε το ενημερωτικό μας δελτίο..
Η Sana Hassan, ασκούμενη σύμβουλος στην Marktechpost και διπλωματούχος φοιτήτρια στο IIT Madras, είναι παθιασμένη με την εφαρμογή τεχνολογίας και τεχνητής νοημοσύνης για την αντιμετώπιση των προκλήσεων του πραγματικού κόσμου. Με έντονο ενδιαφέρον για την επίλυση πρακτικών προβλημάτων, φέρνει μια νέα προοπτική στη διασταύρωση της τεχνητής νοημοσύνης και των πραγματικών λύσεων.