微软的vall-e ai可以在短短三秒钟内克服您的声音

生活作者 / 姓名 / 2025-06-29 21:12
"
微软的vall-e ai可以在短短三秒钟内克服您的声音  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课

微软的vall-e ai可以在短短三秒钟内克服您的声音

  喜欢指数的未来?加入我们的Xpotential社区,通过Xpotential University的课程进行未来的证明,阅读有关指数技术和趋势,连接,观看Keynote或浏览我的博客。

  语音克隆工具并不是什么新鲜事物,实际上他们能够多年来都很好地模仿人们,包括Bill Gate的声音,这是Facebook实验的结果,并且创建了包括现已死去的Steve Jobs在内的播客。不过,现在,微软宣布,它正在使用自己的人工智能(AI),称为vall-e,可以从仅3秒钟的音频剪辑中克隆某人的声音。这就是世界迅速跳动。

  根据康奈尔大学(Cornell University)发表的一篇论文,Vall-E接受了60,000小时的英语演讲培训,能够模仿“零镜头场景”中的声音,这意味着它可以使声音说出以前从未听说过的声音。

  根据16页的论文,VALL-E使用文本到语音技术将书面词转换为“高质量个性化”演讲中的口语单词。

  主题演讲Matthew Griffin的网络和欺骗的未来

  它使用了来自Liblilight的7,000多名真实演讲者的录音,该唱片是由志愿者阅读的公共域文本组成的有声读物数据集 - 进行采样。这位科技巨头发布了Vall-E如何工作的样本,展示了演讲者的声音如何克隆。

  AI工具当前尚不可供公开使用,Adobe也在一段时间前创建了一个类似工具的Adobe,称为Voco罐装该项目,担心它会释放出等同于“ Photoshop for Vicoping Content”,而到目前为止,Microsoft尚未明确表示其预期目的是什么。研究人员还说,迄今为止的结果表明,VALL-E“在言语自然和说话者的相似性方面都显着胜过最先进的系统。

  但是他们指出,演讲者之间缺乏口音的多样性,而综合言论中的某些单词“不清楚,错过或重复”。

  他们还包括有关VALL-E及其风险的道德警告,称该工具可能会被滥用,例如“欺骗语音识别或模仿特定说话者”,后者前一段时间意味着一家公司在CFO之后转移了243,000美元的CFO,其声音被“串起来”“告诉他们”。

  开发人员在论文中写道:“为了减轻这种风险,可以建立一个检测模型来区分VALL-E是否合成音频剪辑​​。”他们没有提供有关如何完成的详细信息。

  他们补充说:“如果将模型推广到现实世界中看不见的说话者,则应包括一项协议,以确保演讲者批准使用声音的使用。”

  同时,微软周一宣布,将在宣布投资100亿美元在AI写作工具上投资100亿美元的兴趣后,将为自己的服务提供自己的服务。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读