Speaches

Speaches

Servidor autoalojado compatible con OpenAI de voz a texto y texto a voz

Elige un plan VPS para desplegar Speaches

KVM 2
2 núcleos de vCPU
8 GB RAM
100 GB de espacio en disco NVMe
8 TB de ancho de banda
CO$ 31.900 /mes

Se renueva a CO$ 56.900/mes por 2 años. Cancela cuando quieras.

Acerca de Speaches

Speaches es un servidor de código abierto compatible con la API de OpenAI para cargas de trabajo de IA de audio. Descrito por sus mantenedores como "Ollama, pero para modelos TTS/STT", ofrece a los equipos una alternativa totalmente autoalojada a la API de audio de OpenAI sin tarifas por minuto, sin dependencia de proveedor y sin que los datos salgan de su propia infraestructura. Con más de 3.300 estrellas en GitHub y desarrollo activo, Speaches es una opción lista para producción para implementaciones conscientes de la privacidad.

Casos de Uso Comunes

Speaches se integra naturalmente en una amplia gama de flujos de trabajo. Los equipos de desarrollo lo utilizan como un reemplazo local de la API de audio de OpenAI durante las pruebas, eliminando los costos de la API y los viajes de ida y vuelta de la red en las tuberías de CI. Las aplicaciones orientadas al cliente lo incrustan para potenciar interfaces de voz, transcripción de llamadas o funciones de accesibilidad automatizadas, todo sin enviar audio a servicios de terceros. Los creadores de contenido y podcasters ejecutan trabajos de transcripción por lotes en sus propias bibliotecas de medios. Las empresas con estrictos requisitos de residencia de datos implementan Speaches para mantener todo el procesamiento de audio dentro de un entorno controlado. Los investigadores ajustan o evalúan diferentes puntos de control de whisper intercambiando el modelo a través de la API REST, sin necesidad de volver a implementar.

Características Clave

  • Compatibilidad con la API de audio de OpenAI: Implementa /v1/audio/transcriptions, /v1/audio/speech y /v1/realtime — cualquier SDK o herramienta ya integrada con OpenAI funciona sin cambios en el código
  • Transcripción faster-whisper: Reconocimiento de voz multilingüe de alta precisión con salida de transmisión a través de Eventos Enviados por el Servidor para aplicaciones de baja latencia
  • TTS Kokoro y Piper: Síntesis de voz de sonido natural utilizando modelos que se ejecutan completamente en el dispositivo; Kokoro-82M ocupa el puesto número 1 en la TTS Arena
  • Gestión dinámica de modelos: Los modelos se cargan en la primera solicitud y se descargan después de un TTL de inactividad configurable, manteniendo el uso de RAM bajo; la precarga está disponible para implementaciones sensibles a la latencia
  • Interfaz de usuario web de Gradio: Interfaz de navegador incorporada para probar la transcripción y la síntesis sin herramientas adicionales
  • Autenticación con clave API: Una sola clave protege todos los puntos finales, dejando /docs y el esquema OpenAPI accesibles públicamente
  • Soporte de API en tiempo real: Interacción de audio en tiempo real basada en WebSocket compatible con la especificación de la API en tiempo real de OpenAI
  • Registro de modelos de HuggingFace: Cualquier modelo faster-whisper o ONNX TTS en HuggingFace se puede cargar por ID de modelo, sin necesidad de reconstruir la imagen

Por qué implementar Speaches en un VPS de Hostinger

Ejecutar Speaches en un VPS de Hostinger pone su infraestructura de procesamiento de audio completamente bajo su control. Los datos de audio, que pueden incluir conversaciones sensibles, dictados médicos o llamadas comerciales confidenciales, nunca tocan una API de terceros. Los planes de VPS de Hostinger ofrecen costos mensuales predecibles con sin cargos de transcripción por minuto, que pueden acumularse rápidamente a escala. La caché del modelo de HuggingFace se mantiene en un volumen Docker con nombre, para que los modelos sobrevivan a reinicios y actualizaciones sin volver a descargar gigabytes de pesos. Puede escalar verticalmente actualizando su plan a medida que crece el uso, y debido a que Speaches expone una API REST estándar, se integra en la infraestructura existente —paneles de control, pilas de monitoreo y servicios posteriores— con una configuración mínima. La implementación a través de la plantilla Docker de un solo clic de Hostinger toma segundos: el contenedor se inicia, la interfaz de usuario de Gradio está disponible de inmediato, y su primera solicitud de transcripción o síntesis recupera automáticamente el modelo que necesite directamente de HuggingFace, almacenado en caché permanentemente en el disco para cada uso posterior.

Elige un plan VPS para desplegar Speaches

KVM 2
2 núcleos de vCPU
8 GB RAM
100 GB de espacio en disco NVMe
8 TB de ancho de banda
CO$ 31.900 /mes

Se renueva a CO$ 56.900/mes por 2 años. Cancela cuando quieras.

Explora otras apps de esta categoría