Speaches
Servidor autoalojado compatible con OpenAI para voz a texto y texto a voz
Elegí un plan VPS para implementar Speaches
Se renueva a AR$ 30.299/mes por 2 años. Cancelá cuando quieras.
Acerca de Speaches
Speaches es un servidor de código abierto, compatible con la API de OpenAI, para cargas de trabajo de IA de audio. Descrito por sus mantenedores como "Ollama, pero para modelos TTS/STT", ofrece a los equipos una alternativa completamente autoalojada a la API de audio de OpenAI, sin tarifas por minuto, sin ataduras a un proveedor y sin que los datos salgan de su propia infraestructura. Con más de 3.300 estrellas en GitHub y desarrollo activo, Speaches es una opción lista para producción para despliegues que priorizan la privacidad.
Casos de Uso Comunes
Speaches se integra naturalmente en una amplia gama de flujos de trabajo. Los equipos de desarrollo lo usan como un reemplazo local de la API de audio de OpenAI durante las pruebas, eliminando costos de API y viajes de ida y vuelta de red en pipelines de CI. Las aplicaciones orientadas al cliente lo integran para potenciar interfaces de voz, transcripción de llamadas o funciones de accesibilidad automatizadas, todo sin enviar audio a servicios de terceros. Los creadores de contenido y podcasters ejecutan trabajos de transcripción por lotes en sus propias bibliotecas de medios. Las empresas con requisitos estrictos de residencia de datos despliegan Speaches para mantener todo el procesamiento de audio dentro de un entorno controlado. Los investigadores ajustan o evalúan diferentes puntos de control de whisper intercambiando el modelo a través de la API REST, sin necesidad de un nuevo despliegue.
Características Clave
- Compatibilidad con la API de audio de OpenAI: Implementa
/v1/audio/transcriptions,/v1/audio/speechy/v1/realtime— cualquier SDK o herramienta ya integrada con OpenAI funciona sin cambios en el código - Transcripción con faster-whisper: Reconocimiento de voz multilingüe de alta precisión con salida de streaming a través de Server-Sent Events para aplicaciones de baja latencia
- TTS de Kokoro y Piper: Texto a voz con sonido natural usando modelos que se ejecutan completamente en el dispositivo; Kokoro-82M ocupa el puesto #1 en la TTS Arena
- Gestión dinámica de modelos: Los modelos se cargan en la primera solicitud y se descargan después de un TTL de inactividad configurable, manteniendo el uso de RAM reducido; la precarga está disponible para despliegues sensibles a la latencia
- Interfaz web de Gradio: Interfaz de navegador integrada para probar la transcripción y la síntesis sin herramientas adicionales
- Autenticación con clave de API: Una sola clave protege todos los endpoints mientras deja
/docsy el esquema OpenAPI accesibles públicamente - Soporte para API en tiempo real: Interacción de audio en tiempo real basada en WebSocket compatible con la especificación de la API en tiempo real de OpenAI
- Registro de modelos de HuggingFace: Cualquier modelo faster-whisper o ONNX TTS en HuggingFace se puede cargar por ID de modelo — no se requieren reconstrucciones de imagen
Por qué desplegar Speaches en Hostinger VPS
Ejecutar Speaches en un VPS de Hostinger pone tu infraestructura de procesamiento de audio completamente bajo tu control. Los datos de audio —que pueden incluir conversaciones sensibles, dictados médicos o llamadas comerciales confidenciales— nunca tocan una API de terceros. Los planes de VPS de Hostinger ofrecen costos mensuales predecibles con sin cargos de transcripción por minuto, que pueden acumularse rápidamente a escala. La caché de modelos de HuggingFace se guarda de forma persistente en un volumen Docker con nombre, por lo que los modelos sobreviven a los reinicios y actualizaciones sin tener que volver a descargar gigabytes de pesos. Podés escalar verticalmente actualizando tu plan a medida que crece el uso, y como Speaches expone una API REST estándar, se integra con la infraestructura existente —dashboards, pilas de monitoreo y servicios posteriores— con una configuración mínima. Desplegar a través de la plantilla Docker de un solo clic de Hostinger lleva segundos: el contenedor se inicia, la interfaz de usuario de Gradio está disponible de inmediato, y tu primera solicitud de transcripción o síntesis obtiene automáticamente el modelo que necesites directamente de HuggingFace, almacenado en caché de forma permanente en el disco para cada uso posterior.
Elegí un plan VPS para implementar Speaches
Se renueva a AR$ 30.299/mes por 2 años. Cancelá cuando quieras.