2025年十大人工智能视频技术进展与用户体验趋势 - 雅各布·尼尔森
Brief news summary
到2025年,人工智能视频模型取得了显著的进步,相比2024年,提升了头像的表现力和整体内容质量。语音合成和音乐生成方面取得了适度的进展,而头像动画和舞蹈技巧虽面临编舞和视听同步的持续挑战,但仍有所突破。Veo 3模型引入了原生的音视频生成功能,但仅限于8秒的短片,限制了长视频的制作。尽管当前的AI视频技术尚不适用于大规模或好莱坞级的制作,但稳步的改进显示,到2028年将有更广泛的应用。多片段间实现一致的语音复制依然困难,但正逐步改善。AI技术使个人创作者能够制作个性化内容,逐渐摆脱传统媒体的单一化。视频的受欢迎程度越来越受观看时间等互动指标的驱动,而不是仅仅点击次数。作者的热门视频主要探讨AI对用户体验设计和创意的影响,呼吁专业人士适应AI不断发展的角色。新兴趋势强调沉浸式、互动性强的体验,超越传统的线性叙事方式,反映出视频内容创作和观看方式的持续创新。在2025年,人工智能视频模型取得了重大进展,特别是在头像表现力方面,使我能够制作出远优于2024年的视频。尽管如此,2026年仍需进一步改进,才能让个人创作者充分发挥这项技术的潜力。以下是我基于观众点击和观看时间统计的2025年最受欢迎的十个视频。 我最初认为2024年是人工智能视频的元年,2025年将是人工智能代理的时代。虽然2025年人工智能代理显著增长,但仍未成熟,尚需时间普及,虽已有企业开始应用。2024年AI视频的进展较为有限,比如我的音乐视频《2024年十大UX文章》就是例子。然而,2025年能力迎来大飞跃,令早期视频在回顾时显得相当 primitive——例如“老工人用AI保持创造力”(2025年12月)。 为了展示2025年的进步,我制作了一个亮点集锦,精选了全年发布的最佳音乐视频片段,按时间顺序排列,展示改进过程。 关于具体AI视频的组成部分,改进程度不一: - 语音合成方面,自2024年底起已表现强劲,进步有限。最大突破来自如ElevenLabs v3这类模型,结合语言理解能力,赋予语音更多情感色彩,比如在我的解说视频《慢AI:长任务中的用户控制(5分钟解释)》中。 - 歌曲和音乐也有所改进。值得一提的是,我制作的首个听起来相当不错的歌剧咏叹调(《直接操作》),克服了之前类似糟糕百老汇音乐剧的失败。 - 头像动画取得了显著提升;如HeyGen Avatar IV模型,尤其在近景人头特写中表现出高保真,虽然全身动画仍有质量损失。音乐视频《通过发现创造:导航潜在设计空间》中的歌唱表现明显更佳。 - 舞蹈和动作动画虽然有所增强,但仍不够理想。例如《通过发现创造》中的K-pop风格舞蹈,动作单一尚佳,但缺乏连贯的编舞和与音乐的同步。歌手和乐手的动作与音频协调性不足,限制了真实感。 - 原生音视频生成方面,Veo 3和3. 1带来巨大飞跃,一段8秒的同步片段,非常适合制作素材(B-roll),但短暂难以制成完整视频。作为实验,我拼接了莎士比亚《提尔皮策王子》的AI戏码片段,传达了剧情的基本线索,但远未达到令人愉快的讲故事效果。 总体来说,2025年AI视频各方面都取得了进步。 展望2026年,尽管有人声称,但传统好莱坞并未走到尽头——完全由AI生成的主流电影或电视作品仍需数年,可能到2028年左右。像亚马逊这样的公司已能较好地利用AI进行场景和特效制作,但传统工作流程仍然存在。我预期,到2028年,主要制作公司要么转型采用AI,要么将陷入困境。 预计2026年将带来更全面的改进,尤其是在原生音频生成方面,或能将完全同步的片段延长至30秒。通过参考静态图片(如我在《阿芙罗狄蒂讲述可用性》中用Veo 3. 1实现的角色一致性),在视觉上实现片段间的角色一致性是可能的,但声音上的连贯性尚未达到,难以支撑连续的叙事。这方面AI声音的连贯性在2026年有望实现,从而改善故事讲述的流畅性。 音乐生成对视频和MV都至关重要。使用Suno 5制作的一次性歌曲已经相当好听——个人而言,我更喜欢听自己用Suno创作的歌,而非排行榜上的热曲,部分原因在于AI赋予的个性化创作自由,不受企业口味限制。然而,现有的音乐模型多只提供有限的技术编辑功能,比如均衡器调节。我们需要语义级的编辑工具,可以高层次地控制音乐,比如请求更柔和的鼓点或强调特定乐器以营造气氛(比如诡异或浪漫),实现对音乐潜在空间的直观导航。这种对具有意义的语义控制的需求,亦适用于所有视频制作相关的媒体元素。 总之,2025年在AI视频方面取得了巨大突破,但仍难以满足雄心壮志的项目需求。未来依然充满希望。 关于我2025年最Top的视频,我从多个指标中进行分析: - 点击率(CTR)衡量有多少用户点击了视频缩略图,这与缩略图设计关系更大,视频质量影响较小。我避免使用陈词滥调(比如夸张的惊讶表情),尽管它们很有效,导致点击率适中。 - 浏览量(View Count)统计观看人数,不只是点开即走。我将不同平台(YouTube、LinkedIn、Instagram、X)的观看数合并,并根据YouTube视频的发布时间加权,考虑到旧视频有更长时间积累数据。 - 观看时长(Watch Duration)是衡量内容质量的关键指标。YouTube提供平均观看时间和观看比例,但两者都有局限——平均观看时间偏好长视频,短视频即使全部看完也难达到高值。我更倾向于分析用户的掉落率,比如在30秒后剩余观看人数,以标准化不同长度视频的观众参与度。我的“直接操作”两版本的留存曲线显示,观众偏好摇滚版本多于歌剧版本。 展望2026年,AI视频有望更全面地赋能独立创作者,带来从线性叙事到沉浸式世界构建的变革,用户将成为积极参与的角色。 我2025年的十大视频如下: 1. 不再有人机界面 探索 AI 如何演变,取代传统UI,通过更深层次的体验编排,由AI代理处理更多任务。 2. 服务即软件(也是音乐视频) 讨论AI智能变得免费,促使服务变身即时应用软件,扩大技能规模。 3. 制作可用性动作玩偶 展示用AI制作的3D动画动作玩偶,趣味十足,彰显技术应用潜力。 4. 气氛编码与设计(也是音乐视频) 演示AI在软件和用户体验设计中的影响,支持自然语言表达意图,加快原型速度,同时强调人类专家的作用。 5. 2025年的UX:雅各布·尼尔森的六大主题(也是音乐视频) 呈现雅各布·尼尔森对2025年UX主要趋势的预测。 6.
UI与UX:雅各布·尼尔森讲解二者区别 阐明区别:UI是用户可以触及的界面元素,UX则是由UI及其他因素共同塑造的整体用户满意度;预计AI会自动化大部分UI设计,让人类更专注于UX策略。 7. 认知而非回忆(雅各布·尼尔森的可用性启发式第6条) 强调降低用户记忆负担,让信息易于识别而非依赖回忆。 8. 为AI时代转型你的UX职业 建议UX专业人士培养独特的人类技能(如主控权、判断力、说服力),因为AI将自动化传统任务,呼吁适应变革。 9. Viking式的错误预防(雅各布·尼尔森的第5条启发式) 强调通过设限、验证和风险管理减少错误,建立用户信心,降低支持成本。 10. AI迈入主流:跨越“鸿沟”,到早期大众用户(也是解说视频) 分析AI从早期 adopters 到全球主流用户的采用变化。 额外内容:AI帮助老用户保持创造力(音乐和头像解说可用) 探讨AI如何弥补年长创意专业人员的流体智力下降,延长他们的创造性工作时期,尽管在年轻观众中知名度有限。 核心结论:随着AI创新,UX正快速演变——你准备好了吗? 关于作者: 雅各布·尼尔森(Jakob Nielsen)博士,是著名的UX先驱,拥有超过四十年的经验,创立了UX Tigers。他开创了折扣可用性和关键启发式原则、雅各布定律,被广泛誉为“可用性之王”。拥有79项美国专利,著有八本影响深远的书籍,并获得多项殊荣,包括ACM SIGCHI终身成就奖和人因学会“人因泰坦”奖。曾任Sun Microsystems的杰出工程师和Bell Communications Research的研究员。
Watch video about
2025年十大人工智能视频技术进展与用户体验趋势 - 雅各布·尼尔森
Try our premium solution and start getting clients — at no cost to you