Speaches
Servidor autoalojado de voz a texto y texto a voz compatible con OpenAI
Elige un plan VPS para desplegar Speaches
Se renueva a MX$ 273.99/mes por 2 años. Cancela cuando quieras.
Acerca de Speaches
Speaches es un servidor de código abierto, compatible con la API de OpenAI, para cargas de trabajo de IA de audio. Descrito por sus mantenedores como "Ollama, pero para modelos TTS/STT", ofrece a los equipos una alternativa completamente autoalojada a la API de audio de OpenAI, sin tarifas por minuto, sin dependencia de proveedor y sin que los datos salgan de su propia infraestructura. Con más de 3,300 estrellas en GitHub y desarrollo activo, Speaches es una opción lista para producción para implementaciones conscientes de la privacidad.
Casos de Uso Comunes
Speaches se integra naturalmente en una amplia gama de flujos de trabajo. Los equipos de desarrollo lo utilizan como un reemplazo local de la API de audio de OpenAI durante las pruebas, eliminando costos de API y viajes de ida y vuelta de red en las tuberías de CI. Las aplicaciones orientadas al cliente lo incrustan para potenciar interfaces de voz, transcripción de llamadas o funciones de accesibilidad automatizadas, todo sin enviar audio a servicios de terceros. Los creadores de contenido y podcasters ejecutan trabajos de transcripción por lotes en sus propias bibliotecas de medios. Las empresas con estrictos requisitos de residencia de datos implementan Speaches para mantener todo el procesamiento de audio dentro de un entorno controlado. Los investigadores ajustan o evalúan diferentes puntos de control de Whisper intercambiando el modelo a través de la API REST, sin necesidad de volver a implementar.
Características Clave
- Compatibilidad con la API de audio de OpenAI: Implementa
/v1/audio/transcriptions,/v1/audio/speechy/v1/realtime— cualquier SDK o herramienta ya integrada con OpenAI funciona sin cambios en el código - Transcripción faster-whisper: Reconocimiento de voz multilingüe de alta precisión con salida de transmisión a través de Eventos Enviados por el Servidor para aplicaciones de baja latencia
- Kokoro y Piper TTS: Síntesis de voz con sonido natural utilizando modelos que se ejecutan completamente en el dispositivo; Kokoro-82M ocupa el puesto #1 en el TTS Arena
- Gestión dinámica de modelos: Los modelos se cargan en la primera solicitud y se descargan después de un TTL de inactividad configurable, manteniendo el uso de RAM bajo; la precarga está disponible para implementaciones sensibles a la latencia
- Interfaz de usuario web de Gradio: Interfaz de navegador incorporada para probar la transcripción y la síntesis sin herramientas adicionales
- Autenticación con clave API: Una sola clave protege todos los puntos finales, dejando
/docsy el esquema OpenAPI accesibles públicamente - Soporte para API en tiempo real: Interacción de audio en tiempo real basada en WebSocket compatible con la especificación de la API en tiempo real de OpenAI
- Registro de modelos de HuggingFace: Cualquier modelo faster-whisper o ONNX TTS en HuggingFace se puede cargar por ID de modelo, sin necesidad de reconstruir imágenes
¿Por qué implementar Speaches en un VPS de Hostinger?
Ejecutar Speaches en un VPS de Hostinger pone su infraestructura de procesamiento de audio completamente bajo su control. Los datos de audio —que pueden incluir conversaciones sensibles, dictados médicos o llamadas comerciales confidenciales— nunca tocan una API de terceros. Los planes de VPS de Hostinger ofrecen costos mensuales predecibles con sin cargos de transcripción por minuto, que pueden acumularse rápidamente a escala. La caché del modelo de HuggingFace se mantiene en un volumen Docker con nombre, por lo que los modelos sobreviven a reinicios y actualizaciones sin tener que volver a descargar gigabytes de pesos. Puedes escalar verticalmente actualizando tu plan a medida que crece el uso, y debido a que Speaches expone una API REST estándar, se conecta a la infraestructura existente —paneles de control, pilas de monitoreo y servicios descendentes— con una configuración mínima. La implementación a través de la plantilla Docker de un solo clic de Hostinger toma segundos: el contenedor se inicia, la interfaz de usuario de Gradio está disponible de inmediato, y tu primera solicitud de transcripción o síntesis descarga automáticamente el modelo que necesites directamente de HuggingFace, almacenado permanentemente en disco para cada uso posterior.
Elige un plan VPS para desplegar Speaches
Se renueva a MX$ 273.99/mes por 2 años. Cancela cuando quieras.