None
Brief news summary
NoneEnric Corona i jego zespół z Google Scholar opracowali narzędzie o nazwie VLOGGER, które może generować filmy wysokiej rozdzielczości przedstawiające rozmawiające osoby na podstawie pojedynczego zdjęcia. Narzędzie potrafi animować filmy, aby dokładnie odzwierciedlać mimikę twarzy i ruchy ciała, tworząc przy tym "awatary" o wysokiej wierności. Zespół sugeruje, że VLOGGER może znaleźć zastosowanie w postaci "awatarów" dla obsługi klienta, komunikacji online, edukacji i spersonalizowanych wirtualnych asystentów. Jednakże, istnieje także potencjalne ryzyko nadużycia narzędzia do tworzenia "deepfake'ów" lub manipulowanych filmów.
VLOGGER łączy techniki wielomodalne, duże modele językowe i techniki dyfuzji w celu tworzenia realistycznych filmów. Zespół przeszkolił sieci neuronowe, aby kojarzyły dźwięk z klatkami filmu w celu zsynchronizowania ruchów i wyrazów twarzy. Narzędzie można dodatkowo dostosować poprzez precyzyjne regulowanie takich cech jak mruganie oczami czy ruchy ust. Pomimo możliwości manipulacji wysokiej jakości filmami oferowanej przez VLOGGER, obawy dotyczące potencjalnego nadużycia i konieczności wykrywania "deepfake'ów" nadal istnieją.
Watch video about
None
Try our premium solution and start getting clients — at no cost to you