VibeVoice 是微软最新开源的前沿语音合成框架,采用连续语义-声学双 Tokenizer + 扩散模型架构,可在单条 64 K 上下文中合成最长 90 分钟、4 位说话人的自然对话音频。模型支持跨语言(中英混合)、情感表达、即兴歌唱与背景氛围音生成,效果媲美专业播客,已开源 1.5 B / 7 B 两套权重,MIT 许可,可商用可魔改。
主要特点
- 超长上下文:32–64 K token,单条音频 90 min
- 多说话人一致:4 个角色音色稳定,男女老幼任意组合
- 跨语言混读:中英文无缝切换,情感自然
- 流式推理:逐句实时生成,边录边播
- 开源可商用:MIT 协议,HuggingFace/GitHub 一键下载
如何使用
- 克隆仓库并安装:
git clone https://github.com/microsoft/VibeVoice && cd VibeVoice && pip install -e .
- 启动 Gradio Demo:
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
- 输入文本+角色标签,即可在线生成并试听/下载高保真音频。
适用人群
播客创作者、有声书制作人、虚拟助手开发者、教育内容机构、游戏语音设计师及所有需要长对话语音合成的研究或商业团队。
数据评估
VibeVoice 收录于2025年9月2日 03:07,截至目前 VibeVoice 浏览人数已经达到 53, 本站提供 VibeVoice 最新可用网址,VibeVoice 最新网址 https://microsoft.github.io/VibeVoice/ 来源于网络,不保证外部链接的准确性和完整性。
同时,对于该外部链接的指向,不由工具达人实际控制,在 VibeVoice 收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,工具达人不承担任何责任。
若网址失效,请点击反馈按钮提交或留言,本站将及时更新新地址!
相关导航

Ciallo TTS 是一款免费的在线文本转语音工具,支持多种声音选择,可调节语速和语调,提供即时试听和下载功能。快速将文字转换成自然流畅的语音。Ciallo TTS是免费的文本转语音工具,提供语音合成服务,支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、朝鲜语、粤语、越南语等,以及多种语音风格,提供丰富的讲述人。Ciallo TTS is an online text-to-speech tool, also known as a voice generator, it can convert text to audio, and you can play or download audio files. Free online text-to-speech converter supporting multiple voices, adjustable speed and pitch, with instant preview and download features.