Chatterbox Turbo es el modelo de síntesis de voz open source de Resemble AI: 350M parámetros, 75ms de latencia, 6 veces en tiempo real, con clonación de voz desde 5 segundos de audio y licencia MIT.
¿Qué es Chatterbox Turbo?
Chatterbox Turbo es la versión ultra-rápida del modelo TTS open source de Resemble AI, diseñada para producción real. Con solo 350 millones de parámetros, alcanza 75ms de latencia y procesa audio a 6 veces la velocidad en tiempo real, lo que lo hace viable para aplicaciones conversacionales, videojuegos y agentes de voz. Lo que distingue a Chatterbox Turbo de otros modelos TTS es su combinación de velocidad y naturalidad. Soporta etiquetas paralingüísticas (pausas, énfasis, emociones), clonación de voz a partir de apenas 5 segundos de audio, y está entrenado para sonar humano incluso a alta velocidad. Está disponible en GitHub y Hugging Face bajo licencia MIT, lo que significa que puedes usarlo en proyectos personales, de investigación y comerciales, incluyendo productos de código cerrado. También está disponible como API en Replicate para integraciones inmediatas sin necesidad de infraestructura propia. Para desarrolladores que construyen agentes de voz, asistentes, narradores o cualquier aplicación que necesite síntesis de voz de calidad con baja latencia, Chatterbox Turbo es hoy uno de los mejores modelos open source disponibles.
Casos de uso principales
Agentes de voz, aplicaciones conversacionales, narración, clonación de voz, videojuegos.
Puntuación Oledir
4.0/5 — Síntesis de voz