Google Veo 3 AI Δημιουργός Βίντεο: Συγχρονισμός Ήχου και Βίντεο με Εντυπωσιακή Ρεαλιστικότητα

Την Τρίτη, η Google παρουσίασε το Veo 3, ένα νέο μοντέλο σύνθεσης βίντεο με τεχνητή νοημοσύνη που μπορεί να πετύχει κάτι που κανένας μεγάλος γεννήτορας βίντεο τεχνητής νοημοσύνης δεν είχε καταφέρει πριν: την παραγωγή ενός συγχρονισμένου ηχητικού κομματιού μαζί με το βίντεο. Μεταξύ 2022 και 2024, τα πρώτα βίντεο που δημιουργούνταν με τεχνητή νοημοσύνη ήταν σιωπηλά και γενικά πολύ σύντομα. Τώρα, το Veo 3 προσφέρει οκταλεπτάκεις υψηλής ευκρίνειας με φωνές, διαλόγους και ηχητικά εφέ. Μετά το λανσάρισμα, οι άνθρωποι αμέσως έθεσαν το προφανές ερώτημα αναφοράς: πόσο καλά μπορεί το Veo 3 να πλαστογραφήσει τον βραβευμένο με Όσκαρ ηθοποιό Will Smith να τρώει σπαγγέτι; Ένα γρήγορο recap: το «benchmark» με το σπαγγέτι στον τεχνητό βίντεο ξεκίνησε τον Μάρτιο του 2023 με ένα πρώτο, αρκετά αφόρητο βίντεο που δημιουργήθηκε με μια ανοικτού κώδικα σύνθεσης που ονομάζεται ModelScope. Αυτό το παράδειγμα με το σπαγγέτι έγινε τόσο γνωστό που ο Smith το τρολάρισε σχεδόν ένα χρόνο αργότερα, τον Φεβρουάριο του 2024. Ορίστε μια υπενθύμιση πώς φαινόταν το αρχικό viral βίντεο: Το συχνά ξεχνάμε είναι πως εκείνη την εποχή, η παρωδία του Smith δεν δημιουργήθηκε με το καλύτερο διαθέσιμο γεννήτορα βίντεο τεχνητής νοημοσύνης—ένα μοντέλο που ονομάζεται Gen-2 από την Runway είχε ήδη παράξει πιο ποιοτικά αποτελέσματα, αν και δεν ήταν ακόμα προσβάσιμο στο κοινό. Παρ’ όλα αυτά, η έκδοση του ModelScope ήταν τόσο παράξενη και αξέχαστη που έγινε σημείο αναφοράς για τις αρχικές περιορισμένες δυνατότητες της τεχνητής νοημοσύνη στη δημιουργία βίντεο, καθώς η τεχνολογία προχωρούσε. Νωρίτερα αυτήν την εβδομάδα, ο προγραμματιστής εφαρμογών τεχνητής νοημοσύνης Javi Lopez απάντησε σε fans που ήθελαν να ξανά δοκιμάσουν το τεστ με το σπαγγέτι χρησιμοποιώντας το Veo 3, μοιραζόμενος τα ευρήματά του στο X. Ωστόσο, όταν είδε τα αποτελέσματα, η συνολική ακουστική υπόκρουση φαινόταν ασυνήθιστη: ο ψεύτικος Smith ακουγόταν σαν να μασούσε το σπαγγέτι. Αυτή η γκαντεμιά προέρχεται από την πειραματική ικανότητα του Veo 3 να προσθέτει ηχητικά εφέ, πιθανότατα επειδή τα εκπαιδευτικά δεδομένα του περιείχαν πολλά παραδείγματα μασήματος συνοδευόμενα από θορύβους τρίξιματος. Οι γενετικές μονάδες τεχνητής νοημοσύνης λειτουργούν ως συστήματα προβλέψεων που ταιριάζουν μοτίβα, βασιζόμενες σε επαρκή εκπαιδευτικά δεδομένα διαφόρων μέσων για να παράγουν πειστικά αποτελέσματα.
Όταν κάποιες έννοιες είναι υπερ- ή υπο-εκπροσωπημένες σε αυτά τα δεδομένα, προκύπτουν παράξενες ατέλειες στη γενετική παραγωγή, όπως αυτή. Επίσης, δοκιμάσαμε και εμείς το αίτημα στο Veo 3, αλλά το όνομα «Will Smith» ήταν μπλοκαρισμένο από τα φίλτρα περιεχομένου της Google. Χρησιμοποιώντας όμως το αίτημα «Ένας μαύρος άνδρας που τρώει σπαγγέτι», παράχθηκε παρόμοιο ηχητικό εφέ θρυμματισμού (ίσως ο Lopez είχε πρόσβαση σε αρχική έκδοση χωρίς φίλτρα ή πειραματίστηκε με παραλλαγές του αιτήματος που πέρασαν). Το Veo 3 εντυπωσιάζει με την ικανότητά του να παράγει συνεκτικό διάλογο και μουσική, ήδη εμπνέοντας εντυπωσιακά παραδείγματα στο X. Δεν θέλαμε να μείνουμε μόνο σε ένα βίντεο με έναν άνδρα που τρώει πολύ al dente μακαρόνια, δοκιμάσαμε αν μπορούσε ταυτόχρονα να τραγουδά και να τρώει, ζητώντας: «Ένας άνδρας που τραγουδάει μια αγγλική κωμική όπερα για σπαγγέτι στο τραπέζι της κουζίνας ενώ το τρώει». Έχουμε σημειώσει τεράστια πρόοδο από το 2023, και οι γεννήτορες βίντεο τεχνητής νοημοσύνης θα συνεχίσουν να βελτιώνονται στην αυθεντικότητα και τη λειτουργικότητα. Αν δεν υπήρχε το τωρινό φίλτρο διασημοτήτων του Veo 3, θα μπορούσαμε εύκολα να δημιουργήσουμε βίντεο του Smith να τραγουδά—ή να κάνει σχεδόν οτιδήποτε άλλο—κάτι που αναδεικνύει τους πιθανούς προβληματισμούς γύρω από την τεχνολογία βίντεο τεχνητής νοημοσύνης. Η πολιτισμική μοναδικότητα πλησιάζει ταχύτατα. Σε αυτό το πλαίσιο, πραγματοποιήσαμε πρόσφατα τη δική μας εκτενή σειρά δοκιμών με το Veo 3 και σύντομα θα μοιραστούμε τα αποτελέσματά μας σε μια αποκλειστική αναφορά. Ας θεωρείται αυτό μια σύντομη ενημέρωση για τον “Φρέσκο Πρίγκιπα” του noodletime. Καλή όρεξη!
Brief news summary
Η Google παρουσίασε το Veo 3, ένα προηγμένο μοντέλο σύνθεσης βίντεο με τεχνητή νοημοσύνη που είναι ικανό να δημιουργεί συγχρονισμένα βίντεο HD οκτώ δευτερολέπτων με ήχο, διαλόγους και ηχητικά εφέ—ξεπερνώντας τα προηγούμενα εργαλεία που περιορίζονταν σε σιωπηλά ή πολύ σύντομα αποσπάσματα. Σε δοκιμές, το Veo 3 αναπαρήγαγε με επιτυχία ένα δοκιμαστικό σενάριο, αντιγράφοντας τον βραβευμένο με Όσκαρ ηθοποιό Γουίλ Σμιθ που τρώει σπαγγέτι από ένα χαμηλής ποιότητας βίντεο του 2023. Αν και το μοντέλο συγχρόνισε αποτελεσματικά το βίντεο και τον ήχο, παρήγαγε έναν ασυνήθιστο ήχο «κρουτσιού» κατά τη σκηνή με το σπαγγέτι, πιθανώς λόγω προκαταλήψεων στα δεδομένα εκπαίδευσης που έδιναν έμφαση στους ήχους μασήματος. Οι φιλτράρισεις περιεχομένου αποκλείουν άμεσα εντολές με το όνομα «Γουίλ Σμιθ», αλλά παρόμοιες εισροές εξακολουθούν να προκαλούν διακοπές στον ήχο. Παρά τις προκλήσεις αυτές, το Veo 3 διαπρέπει στη δημιουργία συνεκτικών διαλόγων και μουσικής, εμπνέοντας δημιουργικά έργα όπως μια κωμική όπερα με σπαγγέτι. Αυτή η πρόοδος αποτελεί σημαντικό βήμα προς την πιο ρεαλιστική δημιουργία πολυμέσων με τεχνητή νοημοσύνη, αν και οι περιορισμοί στην αναπαράσταση διασημοτήτων συνεχίζουν να αποτελούν εμπόδια. Η κυκλοφορία του Veo 3 έχει πυροδοτήσει πολιτιστικές συζητήσεις σχετικά με την ρεαλιστικότητα των βίντεο με τεχνητή νοημοσύνη και προσθέτει μια νέα πλοκή στην ιστορία του «Φρέσκου Πρίγκιπα» και το σπαγγέτι, καθώς συνεχίζονται οι δοκιμές.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Ο αγώνας της Τεχνητής Νοημοσύνης επιταχύνεται με …
Η βιομηχανία της τεχνητής νοημοσύνης παρακολούθησε μια αξιοσημείωτη άνοδο με σημαντικές εξελίξεις την προηγούμενη εβδομάδα, υπογραμμίζοντας την ταχεία καινοτομία και τον έντονο ανταγωνισμό ανάμεσα στους κορυφαίους τεχνολογικούς κολοσσούς.

Μπορεί η Google να εξακολουθεί να κυριαρχεί στην …
Στη συνέλευση προγραμματιστών της Google το 2025, η εταιρεία ανακοίνωσε μια σημαντική ανανέωση της βασικής λειτουργίας αναζήτησής της, τονίζοντας τον κρίσιμο ρόλο που θα διαδραματίσει η τεχνητή νοημοσύνη στο μέλλον της.

Η Ουάσιγκτον προχωράει στα κρυπτονομίσματα: Νομοσ…
Στο επεισόδιο της εβδομάδας του Byte-Sized Insight στο Decentralize με το Cointelegraph, εξερευνούμε μια καθοριστική εξέλιξη στη νομοθεσία των κρυπτονομισμάτων στις ΗΠΑ.

Ο Βασικός Οδηγός για τα Ψηφιακά Περιουσιακά Στοιχ…
Έχουν περάσει πάνω από 15 χρόνια από τη δημιουργία του πρώτου bitcoin, και το κρυπτονόμισμα τώρα πραγματοποιεί μερικές από τις αρχικές του υποσχέσεις μεταμορφώνοντας τα διαχρονικά χρηματοπιστωτικά συστήματα.

Εδώ είναι τα 6 μεγαλύτερα συμπεράσματα από το Goo…
Στο συνέδριο Google I/O αυτής της εβδομάδας, ο γιγαντιαίος τεχνολογικός όμιλος έκανε περίπου 100 ανακοινώσεις, σηματοδοτώντας την φιλοδοξία του να κυριαρχήσει στην ΤΝ σε διάφορους τομείς — από τη δραστική αναβάθμιση της Αναζήτησης μέχρι την ανανέωση των μοντέλων ΤΝ και της τεχνολογίας φορητών συσκευών.

Το Bitcoin ξεπερνά τα 111.000 δολάρια: Η Cloud Mi…
Ο Bitcoin ξαναμαγνητίζει την παγκόσμια προσοχή μετά την υπέρβαση των 111.000 δολαρίων για πρώτη φορά, τροφοδοτούμενος από θεσμικούς επενδυτές, μεταβαλλόμενες γεωπολιτικές νομισματικές δυναμικές και μια αναζωπυρωμένη κρυπτοσυχνότητα.

Τι πιστεύει η Τεχνητή Νοημοσύνη ότι θα συμβεί στι…
Τραμπ εναντίον CASA σε ένα Θερμοκήπιο Τεχνητής Νοημοσύνης: Προσομοίαση Αποφάσεων του Ανωτάτου Δικαστηρίου Την προηγούμενη εβδομάδα, το Ανώτατο Δικαστήριο εξέτασε την υπόθεση Trump εναντίον CASA, Inc