微软的vall-e ai可以在短短三秒钟内克服您的声音

生活作者 / 姓名 / 2025-06-29 21:12

微软的vall-e ai可以在短短三秒钟内克服您的声音　　喜欢指数的未来？加入我们的Xpotential社区，通过Xpotential University的课

　　喜欢指数的未来？加入我们的Xpotential社区，通过Xpotential University的课程进行未来的证明，阅读有关指数技术和趋势，连接，观看Keynote或浏览我的博客。

　　语音克隆工具并不是什么新鲜事物，实际上他们能够多年来都很好地模仿人们，包括Bill Gate的声音，这是Facebook实验的结果，并且创建了包括现已死去的Steve Jobs在内的播客。不过，现在，微软宣布，它正在使用自己的人工智能（AI），称为vall-e，可以从仅3秒钟的音频剪辑中克隆某人的声音。这就是世界迅速跳动。

　　根据康奈尔大学（Cornell University）发表的一篇论文，Vall-E接受了60,000小时的英语演讲培训，能够模仿“零镜头场景”中的声音，这意味着它可以使声音说出以前从未听说过的声音。

　　根据16页的论文，VALL-E使用文本到语音技术将书面词转换为“高质量个性化”演讲中的口语单词。

　　主题演讲Matthew Griffin的网络和欺骗的未来

　　它使用了来自Liblilight的7,000多名真实演讲者的录音，该唱片是由志愿者阅读的公共域文本组成的有声读物数据集 - 进行采样。这位科技巨头发布了Vall-E如何工作的样本，展示了演讲者的声音如何克隆。

　　AI工具当前尚不可供公开使用，Adobe也在一段时间前创建了一个类似工具的Adobe，称为Voco罐装该项目，担心它会释放出等同于“ Photoshop for Vicoping Content”，而到目前为止，Microsoft尚未明确表示其预期目的是什么。研究人员还说，迄今为止的结果表明，VALL-E“在言语自然和说话者的相似性方面都显着胜过最先进的系统。

　　但是他们指出，演讲者之间缺乏口音的多样性，而综合言论中的某些单词“不清楚，错过或重复”。

　　他们还包括有关VALL-E及其风险的道德警告，称该工具可能会被滥用，例如“欺骗语音识别或模仿特定说话者”，后者前一段时间意味着一家公司在CFO之后转移了243,000美元的CFO，其声音被“串起来”“告诉他们”。

　　开发人员在论文中写道：“为了减轻这种风险，可以建立一个检测模型来区分VALL-E是否合成音频剪辑。”他们没有提供有关如何完成的详细信息。

　　他们补充说：“如果将模型推广到现实世界中看不见的说话者，则应包括一项协议，以确保演讲者批准使用声音的使用。”

　　同时，微软周一宣布，将在宣布投资100亿美元在AI写作工具上投资100亿美元的兴趣后，将为自己的服务提供自己的服务。

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

微软的vall-e ai可以在短短三秒钟内克服您的声音

最新文章

热文导读