What is Orpheus TTS?
Orpheus TTS es un nuevo sistema de texto a voz de código abierto que aprovecha el poder de los Modelos de Lenguaje Grandes (LLMs) para generar un habla notablemente similar a la humana. Construido sobre la base de Llama-3b, Orpheus ofrece una entonación, emoción y ritmo naturales, rivalizando e incluso superando a las principales alternativas de código cerrado como Eleven Labs y PlayHT. Soluciona el problema de necesitar un TTS de alta calidad, personalizable y accesible, sin las restricciones de los sistemas propietarios. Obtiene control, flexibilidad y transparencia, todo ello al tiempo que logra resultados de última generación.
Características principales:
🗣️ Genere un habla similar a la humana: Orpheus produce un habla con entonación, expresión emocional y ritmo naturales, superando la calidad de muchos modelos de código cerrado. Esto se logra mediante un preentrenamiento exhaustivo en un conjunto de datos masivo y técnicas de ajuste fino.
🗣️ Realice la clonación de voz sin ejemplos: Clone voces de forma realista sin ningún ajuste fino previo. Simplemente proporcione una muestra y el modelo preentrenado puede imitar las características de la voz. (Más pares de voz y texto en el prompt conducen a una mejor clonación con el modelo preentrenado).
🗣️ Guíe la emoción y la entonación: Controle el tono emocional y la entrega del habla generada utilizando etiquetas de texto simples (por ejemplo,
<laugh>,<sigh>,<crying>). Ajuste con precisión el modelo para lograr estilos vocales matizados y específicos.🗣️ Logre una transmisión de baja latencia: Experimente la generación de voz en tiempo real con una latencia de transmisión de aproximadamente 200 ms. Esto es ideal para aplicaciones interactivas y se puede reducir aún más a ~100 ms con la transmisión de entrada.
🛠️ Utilice modelos preentrenados y ajustados con precisión: Acceda tanto a un modelo preentrenado de propósito general (entrenado en más de 100 000 horas de habla en inglés) como a un modelo ajustado con precisión optimizado para aplicaciones TTS cotidianas.
🛠️ Personalice y ajuste con precisión: Adapte fácilmente Orpheus a sus necesidades específicas. Proporcionamos los scripts de procesamiento de datos y conjuntos de datos de muestra, lo que facilita la creación de sus propios modelos ajustados con precisión. El proceso es similar al ajuste de un LLM con
TraineryTransformers.🛠️ Intégrelo fácilmente: Utilice un paquete simple de Python (
orpheus-speech) para una configuración e integración rápidas. AprovechevLLMbajo el capó para una inferencia optimizada y rápida.
Casos de uso:
IA conversacional en tiempo real: Imagine construir un chatbot de servicio al cliente que no solo comprenda el lenguaje natural sino que también responda con una voz que suene genuinamente empática y atractiva. La transmisión de baja latencia de Orpheus lo hace posible, creando una interacción más humana.
Aplicaciones de accesibilidad: Desarrolle soluciones de tecnología de asistencia para personas con discapacidades visuales o dificultades de lectura. Orpheus puede convertir el contenido escrito en un habla de alta calidad y sonido natural, mejorando el acceso a la información y la comunicación.
Creación de contenido y doblaje: Cree audiolibros, podcasts o locuciones de video con voces diversas y expresivas. La clonación de voz sin ejemplos y el control de emociones de Orpheus permiten la creación rápida de prototipos y la personalización, agilizando el proceso de creación de contenido.
Detalles técnicos:
Arquitectura: Orpheus utiliza la arquitectura Llama-3b como su columna vertebral. El modelo preentrenado se entrenó con más de 100 000 horas de datos de voz en inglés y miles de millones de tokens de texto, lo que garantiza una sólida comprensión del lenguaje y patrones de voz matizados.
Tamaños del modelo: Orpheus está disponible en cuatro tamaños: Mediano (3B de parámetros), Pequeño (1B de parámetros), Diminuto (400M de parámetros) y Nano (150M de parámetros), lo que proporciona opciones para diferentes requisitos de rendimiento y recursos.
Tokenización: Orpheus emplea un tokenizador basado en CNN sin transmisión. Una modificación de ventana deslizante al detokenizador permite la transmisión sin artefactos de audio ("popping").
Decodificación: El modelo aplana los tokens muestreados a diferentes frecuencias y los decodifica como una sola secuencia, lo que mejora la velocidad de generación.
Preguntas frecuentes:
P: ¿Cómo se compara Orpheus con otros sistemas TTS?
R: Orpheus demuestra un rendimiento comparable o superior al de los principales modelos de código cerrado como Eleven Labs y PlayHT en términos de naturalidad, entonación y expresión emocional. Consulte las comparaciones en la publicación de nuestro blog.
P: ¿Qué hardware necesito para ejecutar Orpheus?
R: Orpheus puede ejecutarse de manera eficiente en GPU, y el modelo de 3 mil millones de parámetros logra una transmisión en tiempo real en una GPU A100 de 40 GB. Los modelos más pequeños pueden ejecutarse en hardware menos potente.
P: ¿Cómo puedo ajustar con precisión Orpheus en mis propios datos?
R: Proporcionamos instrucciones y scripts detallados para el ajuste fino. El proceso es análogo al ajuste de un LLM utilizando
TraineryTransformers. Necesitará un conjunto de datos en el formato Hugging Face especificado. Se pueden ver resultados de alta calidad después de ~50 ejemplos, pero se recomiendan 300 ejemplos/altavoz para obtener los mejores resultados.P: ¿Cómo formateo los prompts para el modelo ajustado con precisión?
R: Para los modelos
finetune-prod, formatee su prompt como{name}: I went to the.... Los nombres válidos incluyen "tara", "leah", "jess", "leo", "dan", "mia", "zac" y "zoe". Nuestro paquete de Python maneja este formato automáticamente. También puede agregar etiquetas emotivas como<laugh>o<sigh>.
Conclusión:
Orpheus TTS ofrece una solución potente y flexible para cualquiera que necesite texto a voz personalizable y de alta calidad. Su naturaleza de código abierto, combinada con sus capacidades avanzadas y su facilidad de uso, lo convierte en una alternativa atractiva a los sistemas propietarios. Obtiene control, transparencia y la capacidad de adaptar el sistema a sus necesidades específicas, todo ello al tiempo que logra resultados de última generación.





