VibeVoice
美国
视频处理语音合成

VibeVoice

VibeVoice 是微软开源的长对话多说话人语音合成框架,可在单条 64 K 上下文中合成最长 90 分钟、4 位说话人的自然对话音频。支持中英混读、情感、即兴 BGM,MIT 协议可商用。

标签:
其他站点:在线体验地址

VibeVoice 是微软最新开源的前沿语音合成框架,采用连续语义-声学双 Tokenizer + 扩散模型架构,可在单条 64 K 上下文中合成最长 90 分钟、4 位说话人的自然对话音频。模型支持跨语言(中英混合)、情感表达、即兴歌唱与背景氛围音生成,效果媲美专业播客,已开源 1.5 B / 7 B 两套权重,MIT 许可,可商用可魔改。

主要特点

  • 超长上下文:32–64 K token,单条音频 90 min
  • 多说话人一致:4 个角色音色稳定,男女老幼任意组合
  • 跨语言混读:中英文无缝切换,情感自然
  • 流式推理:逐句实时生成,边录边播
  • 开源可商用:MIT 协议,HuggingFace/GitHub 一键下载

如何使用

  1. 克隆仓库并安装:
    git clone https://github.com/microsoft/VibeVoice && cd VibeVoice && pip install -e .
  2. 启动 Gradio Demo:
    python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
  3. 输入文本+角色标签,即可在线生成并试听/下载高保真音频。

适用人群

播客创作者、有声书制作人、虚拟助手开发者、教育内容机构、游戏语音设计师及所有需要长对话语音合成的研究或商业团队。

数据评估

关于VibeVoiceVibeVoice

VibeVoice 收录于2025年9月2日 03:07,截至目前 VibeVoice 浏览人数已经达到 54, 本站提供 VibeVoice 最新可用网址,VibeVoice 最新网址 https://microsoft.github.io/VibeVoice/ 来源于网络,不保证外部链接的准确性和完整性。
同时,对于该外部链接的指向,不由工具达人实际控制,在 VibeVoice 收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,工具达人不承担任何责任。

若网址失效,请点击反馈按钮提交或留言,本站将及时更新新地址!

相关导航