谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

AI工具2个月前发布 AI小集

0 3

DeepMind V2A

在人工智能领域，谷歌旗下的DeepMind公司再次取得突破性进展，推出了一款名为V2A（Video-to-Audio，视频到音频）的AI模型。该项技术能够将视频像素与文本提示相结合，为无声视频生成包含对话、音效和音乐的详细音频轨道。

V2A技术不仅可以与DeepMind自家的视频生成模型Veo配合使用，还能与Sora、可灵或Gen 3等竞争对手的视频生成模型相结合，为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。当然，这项技术同样适用于为传统影像资料，如档案影像和无声电影添加声音。V2A的强大之处在于，能够为每个视频输入创造无限数量的音轨。

DeepMind团队表示，V2A模型基于扩散模型，在同步视频和音频方面提供了最逼真和令人满意的结果。V2A系统首先将视频输入编码为压缩表示，然后扩散模型在视觉输入和文本提示的指导下，从随机噪声中逐渐细化音频。最终，音频输出被解码、转换为音频波形，并与视频数据结合。

V2A的工作原理

为了提高音频质量，DeepMind在训练过程中增加了额外信息，包括AI生成的声音描述和对话的转录。这样，V2A学会了将某些音频事件与不同的视觉场景联系起来，并响应描述或转录中包含的信息。

然而，V2A技术也存在一些限制。例如，音频输出的质量取决于视频输入的质量。视频中的伪影或失真，如果超出了模型的训练分布，可能会导致音频质量显著下降。此外，视频中的唇形同步仍然不够稳定。

目前，V2A尚未公开发布。DeepMind正在收集来自顶尖创意人士和电影制作人的反馈，以确保V2A能够对创意社区产生积极影响。公司表示，在考虑更广泛的访问之前，V2A将经过严格的安全评估和测试。

（更多信息：Google DeepMind – Generating audio for video）

© 版权声明

本站文章版权归AI工具集所有，未经允许禁止任何形式的转载。

相关文章

uBrand – 一站式AI品牌创建和设计平台

AI小集

4

Screenshot to Code – AI将截图转换为网页代码的开源项目

AI小集

6

HeyGen – 专业的AI数字人视频生成工具

AI小集

17

Vary-toy：开源的小型视觉多模态模型

AI小集

3

IP-Adapter – 腾讯开源的文本到图像扩散模型适配器

AI小集

3

神采PromeAI – 专为设计师打造的AI设计助手

AI小集

3

暂无评论

暂无评论...

AI工具集导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具集导航广告投放关于我们免责声明文章博客 AI应用商店 SearchGPT GPT-4o 智谱清影橙篇豆包MarsCode Dream Machine 知乎直答

Copyright © 2024 AI工具集蜀ICP备2022019184号-2

川公网安备 51010702003349号