都市汽车网 设为首页 收藏本站
首页
  • 首页
  • 业界车讯
  • 新车评测
  • 新车上市
  • 新车能源
  • 热点
  • 首页 热点 正文

    微软推出语音合成模型NaturalSpeech2:语音重构“更准确”,不

    发表于:2023-07-29 11:58:30    来源:IT之家    阅读量:5357   
    恢复

    ,微软日前推出了一款名为 NaturalSpeech2 的语音模型,该模型采用“潜在扩散”式设计,在零样本语音合成层面效果出众,微软宣称该模型提供了“商业级”的语音 / 歌唱解决方案,能够给予用户高质量、多样化的语音合成体验。

    微软对 NaturalSpeech2 进行了一系列演示,展示了其在零样本情况下生成具有不同说话人身份、韵律和风格的语音的能力。

    图源 NaturalSpeech 2 论文

    据悉,与传统的语音转文字系统不同,微软的 NaturalSpeech2 使用“连续向量”取代“离散标记”来表示语音,从而生成更完整的语音片段,不会产生“缺乏感情”的“棒读(一字一顿地讲话)”现象。

    图源 NaturalSpeech 2 论文

    实验结果表明,NaturalSpeech2 在零样本条件下生成的语音与语音提示和真实语音的韵律近乎一致,并且在 LibriTTS 和 VCTK 测试集上的自然度与真人语音难以区分。

    该项目的论文目前已经发布于 GitHub 中,感兴趣的IT之家小伙伴们可以点此访问。

    广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

    声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

    你该读读这些:一周精选导览
  • Copyright © 2012- 都市汽车网 All Rights Reserved 版权所有
    欢迎广大网友来本网站投稿,网站内容来自于互联网或网友提供 网站地图  备案号:皖ICP备2023005497号
  • f1f2f3f4f5