What is Orpheus TTS?
Orpheus TTS 是一款全新的开源文本转语音系统,它充分利用大型语言模型 (LLMs) 的强大功能,生成极其逼真的人声。Orpheus 基于 Llama-3b 架构,能够提供自然的语调、情感和韵律,在质量上甚至可以媲美甚至超越 Eleven Labs 和 PlayHT 等领先的闭源替代方案。它解决了对高质量、可定制和易于获取的 TTS 的需求问题,且不受专有系统的限制。您将获得控制权、灵活性和透明度,同时获得最先进的效果。
主要特性:
🗣️ 生成逼真的人声:Orpheus 能够生成具有自然语调、情感表达和韵律的语音,其质量超过了许多闭源模型。这得益于在大规模数据集上的广泛预训练和微调技术。
🗣️ 执行零样本语音克隆:无需任何预先微调,即可逼真地克隆声音。只需提供一个样本,预训练模型就可以模仿该声音的特征。(提示中的语音文本对越多,预训练模型的克隆效果越好。)
🗣️ 引导情感和语调:使用简单的文本标签(例如,
<laugh>、<sigh>、<crying>)控制生成语音的情感基调和表达方式。微调模型以实现细致而特定的声音风格。🗣️ 实现低延迟流式传输:体验实时语音生成,流式传输延迟约为 200 毫秒。这非常适合交互式应用程序,并且可以通过输入流式传输进一步降低到约 100 毫秒。
🛠️ 利用预训练和微调模型:可以使用通用预训练模型(在超过 10 万小时的英语语音上训练)和针对日常 TTS 应用优化的微调模型。
🛠️ 自定义和微调:轻松地根据您的特定需求调整 Orpheus 。我们提供数据处理脚本和示例数据集,使您可以轻松创建自己的微调模型。该过程类似于使用
Trainer和Transformers调整 LLM。🛠️ 轻松集成:使用简单的 Python 包 (
orpheus-speech) 进行快速设置和集成。利用底层的vLLM进行优化的高速推理。
用例:
实时对话式 AI:想象一下构建一个客户服务聊天机器人,它不仅能理解自然语言,还能以听起来真正富有同情心和吸引力的声音做出回应。Orpheus 的低延迟流式传输使这成为可能,创造了更像人际互动式的体验。
辅助功能应用:为有视觉障碍或阅读困难的个人开发辅助技术解决方案。Orpheus 可以将书面内容转换为高质量、听起来自然的语音,从而改善对信息和交流的访问。
内容创作和配音:创建具有多样化和富有表现力的声音的有声读物、播客或视频旁白。Orpheus 的零样本语音克隆和情感控制允许快速原型设计和定制,从而简化内容创作过程。
技术细节:
架构:Orpheus 使用 Llama-3b 架构作为其骨干。预训练模型在超过 100,000 小时的英语语音数据和数十亿个文本 token 上进行了训练,从而确保了对语言和细微语音模式的深刻理解。
模型大小:Orpheus 提供四种大小:Medium(30 亿参数)、Small(10 亿参数)、Tiny(4 亿参数)和 Nano(1.5 亿参数),为不同的性能和资源需求提供选择。
分词:Orpheus 采用非流式基于 CNN 的分词器。对反分词器的滑动窗口修改能够实现流式传输,而不会产生音频伪影(“爆音”)。
解码:该模型将以不同频率采样的 token 平铺并将其解码为单个序列,从而提高生成速度。
常见问题解答:
问:Orpheus 与其他 TTS 系统相比如何?
答:在自然度、语调和情感表达方面,Orpheus 表现出与 Eleven Labs 和 PlayHT 等领先的闭源模型相当或更优越的性能。请参阅我们博客文章中的比较。
问:运行 Orpheus 需要什么硬件?
答:Orpheus 可以在 GPU 上高效运行,其中 30 亿参数模型可以在 A100 40GB GPU 上实现实时流式传输。较小的模型可以在性能较低的硬件上运行。
问:如何在自己的数据上微调 Orpheus ?
答:我们提供详细的微调说明和脚本。该过程类似于使用
Trainer和Transformers调整 LLM。您需要指定 Hugging Face 格式的数据集。大约 50 个示例后就可以看到高质量的结果,但建议每个说话者 300 个示例以获得最佳结果。问:如何格式化微调模型的提示?
答:对于
finetune-prod模型,请将您的提示格式化为{name}: I went to the...。有效名称包括“tara”、“leah”、“jess”、“leo”、“dan”、“mia”、“zac”和“zoe”。我们的 Python 包会自动处理此格式。您还可以添加情感标签,例如<laugh>或<sigh>。
结论:
Orpheus TTS 为任何需要高质量、可定制的文本转语音的人提供了一个强大而灵活的解决方案。它的开源性质,加上其先进的功能和易用性,使其成为专有系统的引人注目的替代方案。您将获得控制权、透明度以及根据您的特定需求定制系统的能力,同时获得最先进的效果。





