Speaches
Serveur auto-hébergé compatible OpenAI de reconnaissance vocale et de synthèse vocale
Choisissez un pack VPS pour déployer Speaches
Renouvellement au prix de CHF 13.99/mois pour 2 ans. Annulez à tout instant.
À propos de Speaches
Speaches est un serveur open-source, compatible avec l'API OpenAI, pour les charges de travail d'IA audio. Décrit par ses mainteneurs comme « Ollama, mais pour les modèles TTS/STT », il offre aux équipes une alternative entièrement auto-hébergée à l'API OpenAI Audio, sans frais à la minute, sans dépendance vis-à-vis d'un fournisseur et sans que les données ne quittent leur propre infrastructure. Avec plus de 3 300 étoiles GitHub et un développement actif, Speaches est un choix prêt pour la production pour les déploiements soucieux de la confidentialité.
Cas d'utilisation courants
Speaches s'intègre naturellement dans un large éventail de flux de travail. Les équipes de développement l'utilisent comme remplacement local de l'API OpenAI Audio pendant les tests, éliminant les coûts d'API et les allers-retours réseau dans les pipelines CI. Les applications destinées aux clients l'intègrent pour alimenter les interfaces vocales, la transcription d'appels ou les fonctionnalités d'accessibilité automatisées — le tout sans envoyer d'audio à des services tiers. Les créateurs de contenu et les podcasteurs exécutent des tâches de transcription par lots sur leurs propres bibliothèques multimédias. Les entreprises ayant des exigences strictes en matière de résidence des données déploient Speaches pour maintenir tout le traitement audio dans un environnement contrôlé. Les chercheurs affinent ou évaluent différents points de contrôle Whisper en échangeant le modèle via l'API REST, sans qu'un redéploiement ne soit nécessaire.
Fonctionnalités clés
- Compatibilité API OpenAI Audio : Implémente
/v1/audio/transcriptions ,/v1/audio/speech et/v1/realtime — tout SDK ou outil déjà intégré à OpenAI fonctionne sans modification de code - Transcription faster-whisper : Reconnaissance vocale multilingue de haute précision avec sortie en streaming via Server-Sent Events pour les applications à faible latence
- Kokoro et Piper TTS : Synthèse vocale au son naturel utilisant des modèles qui s'exécutent entièrement sur l'appareil ; Kokoro-82M est classé n°1 dans la TTS Arena
- Gestion dynamique des modèles : Les modèles se chargent à la première requête et se déchargent après un TTL d'inactivité configurable, maintenant une faible utilisation de la RAM ; le préchargement est disponible pour les déploiements sensibles à la latence
- Interface utilisateur web Gradio : Interface de navigateur intégrée pour tester la transcription et la synthèse sans aucun outil supplémentaire
- Authentification par clé API : Une seule clé protège tous les points de terminaison tout en laissant
/docs et le schéma OpenAPI accessibles au public - Prise en charge de l'API en temps réel : Interaction audio en temps réel basée sur WebSocket compatible avec la spécification de l'API OpenAI Realtime
- Registre de modèles HuggingFace : Tout modèle faster-whisper ou ONNX TTS sur HuggingFace peut être chargé par ID de modèle — aucune reconstruction d'image n'est requise
Pourquoi déployer Speaches sur Hostinger VPS
L'exécution de Speaches sur un VPS Hostinger place votre infrastructure de traitement audio entièrement sous votre contrôle. Les données audio — qui peuvent inclure des conversations sensibles, des dictées médicales ou des appels commerciaux confidentiels — ne touchent jamais une API tierce. Les plans VPS Hostinger offrent des coûts mensuels prévisibles avec pas de frais de transcription à la minute, qui peuvent s'accumuler rapidement à grande échelle. Le cache de modèles HuggingFace est persistant dans un volume Docker nommé, de sorte que les modèles survivent aux redémarrages et aux mises à niveau sans avoir à retélécharger des gigaoctets de poids. Vous pouvez évoluer verticalement en mettant à niveau votre plan à mesure que l'utilisation augmente, et parce que Speaches expose une API REST standard, il s'intègre à l'infrastructure existante — tableaux de bord, piles de surveillance et services en aval — avec une configuration minimale. Le déploiement via le modèle Docker en un clic de Hostinger prend quelques secondes : le conteneur démarre, l'interface utilisateur Gradio devient immédiatement disponible, et votre première demande de transcription ou de synthèse récupère automatiquement le modèle dont vous avez besoin directement depuis HuggingFace, mis en cache de manière permanente sur le disque pour chaque utilisation ultérieure.
Choisissez un pack VPS pour déployer Speaches
Renouvellement au prix de CHF 13.99/mois pour 2 ans. Annulez à tout instant.