lang icon En
March 21, 2025, 8:28 a.m.
1838

MIT και NVIDIA παρουσιάζουν το HART: Μια επαναστατική μέθοδος παραγωγής εικόνας

Brief news summary

Η ανάγκη για εικόνες υψηλής ποιότητας είναι κρίσιμη στην ανάπτυξη ρεαλιστικών εικονικών περιβαλλόντων, ειδικά για την εκπαίδευση και την εξασφάλιση της ασφάλειας στα αυτόνομα αυτοκίνητα. Οι παραδοσιακές τεχνικές γενετικής ΑΙ, όπως τα μοντέλα διάδοσης, προσφέρουν εξαιρετική οπτική ποιότητα αλλά είναι αργές και απαιτητικές σε πόρους. Αντίθετα, τα αυτοαναδρομικά μοντέλα, όπως το ChatGPT, παρέχουν γρήγορη παραγωγή εικόνας αλλά συχνά υστερούν σε λεπτομέρεια. Για να αντιμετωπιστούν αυτά τα ζητήματα, το MIT και η NVIDIA παρουσίασαν το HART (Υβριδικός Αυτοαναδρομικός Μετασχηματιστής), ένα προηγμένο εργαλείο παραγωγής εικόνας που συνδυάζει τα πλεονεκτήματα και των δύο μεθόδων. Το HART χρησιμοποιεί ένα αυτοαναδρομικό μοντέλο για γρήγορη παραγωγή εικόνας, το οποίο στη συνέχεια βελτιώνεται από ένα μικρό μοντέλο διάδοσης για ενισχυμένη λεπτομέρεια. Αυτή η υβριδική προσέγγιση επιτρέπει στο HART να παράγει εικόνες που ανταγωνίζονται αυτές των κορυφαίων μοντέλων διάδοσης, επιτυγχάνοντας αποτελέσματα εννέα φορές πιο γρήγορα με μειωμένες υπολογιστικές απαιτήσεις. Η ικανότητα του HART να δημιουργεί εικόνες υψηλής ποιότητας από φυσικές γλώσσες σε εύκολα προσβάσιμες συσκευές ανοίγει νέες δυνατότητες σε τομείς όπως η ρομποτική και ο σχεδιασμός βιντεοπαιχνιδιών. Μελλοντικές εξελίξεις μπορεί να περιλαμβάνουν τη σύνδεση του HART με ενιαία μοντέλα όρασης-γλώσσας, που αντιπροσωπεύει ένα σημαντικό βήμα προς τα εμπρός στη δημιουργία οπτικού περιεχομένου αναβαθμισμένης ΑΙ.

Η ταχεία παραγωγή εικόνων υψηλής ποιότητας είναι ουσιώδης για τη δημιουργία ρεαλιστικών προσομοιωμένων περιβαλλόντων, τα οποία βοηθούν στην εκπαίδευση αυτόνομων οχημάτων να πλοηγούνται με ασφάλεια σε απρόβλεπτους κινδύνους. Ωστόσο, οι τρέχουσες γενετικές τεχνικές AI, και ιδιαίτερα τα μοντέλα διάχυσης, είναι συχνά πολύ αργές και απαιτητικές υπολογιστικά. Ενώ τα αυτοαναδρομικά μοντέλα, όπως αυτά που τροφοδοτούν τα LLMs όπως το ChatGPT, λειτουργούν πολύ πιο γρήγορα, συνήθως παράγουν εικόνες χαμηλότερης ποιότητας που γεμίζουν με σφάλματα. Ερευνητές από το MIT και την NVIDIA εισήγαγαν το HART (Υβριδικός Αυτοαναδρομικός Μετασχηματιστής), μια νέα μέθοδο παραγωγής εικόνας που συνδυάζει τα πλεονεκτήματα και των δύο προσεγγίσεων. Το HART χρησιμοποιεί ένα αυτοαναδρομικό μοντέλο για να σκιαγραφήσει τα κύρια χαρακτηριστικά μιας εικόνας γρήγορα και στη συνέχεια εφαρμόζει ένα μικρότερο μοντέλο διάχυσης για να εξευγενίσει αυτές τις λεπτομέρειες. Αυτό το καινοτόμο εργαλείο δημιουργεί εικόνες που ανταγωνίζονται ή υπερέχουν της ποιότητας μοντέλων διάχυσης τελευταίας τεχνολογίας, αλλά λειτουργεί περίπου εννέα φορές πιο γρήγορα και με λιγότερη υπολογιστική κατανάλωση, επιτρέποντας τη λειτουργία σε κανονικούς φορητούς υπολογιστές και smartphones. Οι εφαρμογές του HART περιλαμβάνουν την υποστήριξη ερευνητών στην εκπαίδευση ρομπότ για σύνθετες εργασίες και βοηθούν τους σχεδιαστές να δημιουργούν συναρπαστικές σκηνές για βιντεοπαιχνίδια.

«Ακριβώς όπως η βελτίωση μιας άγριας ζωγραφιάς με λεπτομερείς πινελιές αυξάνει την ποιότητά της, το HART συνδυάζει την ευρεία παραγωγή εικόνας με προσεκτική εργασία λεπτομέρειας», λέει ο Χαοτιάν Τανγκ, ένας από τους κύριους συγγραφείς της έρευνας. Τα μοντέλα διάχυσης, που απαιτούν πολλαπλά βήματα για την αποθορυβοποίηση εικόνων, μπορούν να παράγουν πολύ λεπτομερείς οπτικές, αλλά είναι αργά και απαιτητικά σε πόρους. Σε αντίθεση, τα αυτοαναδρομικά μοντέλα δημιουργούν εικόνες πιο γρήγορα δημιουργώντας patches διαδοχικά, αλλά πάσχουν από απώλεια πληροφοριών που οδηγεί σε χαμηλότερη ποιότητα. Το HART αντιμετωπίζει αυτούς τους περιορισμούς προβλέποντας πρώτα διακριτά tokens εικόνας με το αυτοαναδρομικό μοντέλο, ακολουθούμενο από τη χρήση του μοντέλου διάχυσης για να προστεθούν πίσω τυχόν ελλείπουσες λεπτομέρειες, επιτρέποντας γρήγορες και υψηλής ποιότητας εικόνες με μόλις οκτώ βήματα. Κατά την ανάπτυξη, οι ερευνητές αντιμετώπισαν προκλήσεις στην ολοκλήρωση, αλλά βελτίωσαν την ποιότητα του HART εφαρμόζοντας το μοντέλο διάχυσης μόνο για την πρόβλεψη υπολειμμάτων. Ο τελικός τους σχεδιασμός χρησιμοποιεί ένα αυτοαναδρομικό μοντέλο 700 εκατομμυρίων παραμέτρων μαζί με ένα μοντέλο διάχυσης 37 εκατομμυρίων παραμέτρων, επιτυγχάνοντας ποιότητα εικόνας συγκρίσιμη με μεγαλύτερα μοντέλα διάχυσης (έως 2 δισεκατομμύρια παραμέτρους) ενώ καταναλώνει 31% λιγότερη υπολογιστική ισχύ. Κοιτάζοντας μπροστά, η ομάδα σκοπεύει να επεκτείνει την αρχιτεκτονική HART για να αναπτύξει μοντέλα γλώσσας-όρασης και να εξερευνήσει εφαρμογές στη δημιουργία βίντεο και στην πρόβλεψη ήχου, ενδεχομένως επαναστατώντας τις αλληλεπιδράσεις με τα γεννητικά μοντέλα. Αυτή η έρευνα υποστηρίχθηκε από διάφορους οργανισμούς, συμπεριλαμβανομένου του MIT-IBM Watson AI Lab και της NVIDIA, που παρείχαν πόρους GPU για την εκπαίδευση του μοντέλου.


Watch video about

MIT και NVIDIA παρουσιάζουν το HART: Μια επαναστατική μέθοδος παραγωγής εικόνας

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 18, 2025, 5:29 a.m.

Η Amazon Ανασχηματίζει τον Τομέα Τεχνητής Νοημοσύ…

Η Amazon υφίσταται σημαντικές αλλαγές στον τομέα της τεχνητής νοημοσύνης της, με την αποχώρηση ενός μακροχρόνιου βετεράνου και την τοποθέτηση νέας ηγεσίας που θα επιβλέπει ένα ευρύτερο φάσμα πρωτοβουλιών σε AI.

Dec. 18, 2025, 5:22 a.m.

Η Gartner προβλέπει ότι το 10% των Συνεργατών Πωλ…

Η Gartner, μια εξέχουσα εταιρεία έρευνας και συμβουλευτικών υπηρεσιών, προβλέπει ότι μέχρι το 2028, περίπου το 10% των πωλητών σε παγκόσμιο επίπεδο θα χρησιμοποιεί τον χρόνο που εξοικονομεί μέσω της τεχνητής νοημοσύνης (ΤΝ) για να ασχολείται με «υπερεργασία».

Dec. 18, 2025, 5:20 a.m.

ΝΑΙ! Τοπική Αναγνωρισμένη Ψηφιακή Υπηρεσία Μάρκετ…

ΝΑΙ! Η YEAH! Local, μια ψηφιακή διαφημιστική εταιρεία με έδρα την Ατλάντα που εστιάζει σε απόδοση της τοπικής αγοράς, έχει ανακηρυχθεί ως η κορυφαία εταιρεία ψηφιακού μάρκετινγκ με τεχνητή νοημοσύνη στην Ατλάντα.

Dec. 18, 2025, 5:18 a.m.

Η Thrillax λανσάρει το οπτικά εστιασμένο πλαίσιο …

Η Thrillax, μια ψηφιακή εταιρεία μάρκετινγκ και SEO, ανακοίνωσε την επικεφαλίδα μια νέα πλατφόρμα SEO εστιασμένη στην ορατότητα, με στόχο να βοηθήσει τους ιδρυτές και τις επιχειρήσεις να αποκτήσουν βαθύτερη κατανόηση της απόδοσης στην αναζήτηση, πέρα από την απλή επισκεψιμότητα του ιστοτόπου.

Dec. 18, 2025, 5:15 a.m.

Η Κίνα προτείνει νέα διεθνή οργανισμό ΤΝ για την …

Η Κίνα έχει προτείνει την ίδρυση ενός νέου διεθνούς οργανισμού για την προώθηση της παγκόσμιας συνεργασίας στον τομέα της τεχνικής νοημοσύνης (AI), ανακοίνωσε ο Πρωθυπουργός Λι Τσιανγκ στο Παγκόσμιο Συνέδριο Τεχνητής Νοημοσύνης στη Σαγκάη.

Dec. 18, 2025, 5:08 a.m.

Το Ηνωμένο Βασίλειο θα μετατοπίσει περισσότερο χρ…

Προσπάθεια απεριόριστης πρόσβασης Μόνο αόριστο για 4 εβδομάδες Μετά αόριστο ανά μήνα

Dec. 17, 2025, 1:35 p.m.

Το Microsoft Copilot Studio επιτρέπει τη δημιουργ…

Η Microsoft παρουσίασε τη νεότερη καινοτομία της, το Copilot Studio, μια ισχυρή πλατφόρμα σχεδιασμένη να μεταμορφώσει τον τρόπο με τον οποίο οι επιχειρήσεις ενσωματώνουν την τεχνητή νοημοσύνη στις καθημερινές ροές εργασίας.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today