Speaches

Speaches

خادم متوافق مع OpenAI مستضاف ذاتيًا لتحويل الكلام إلى نص والنص إلى كلام

اختر خطة VPS للنشر Speaches

KVM 2
2 نوى vCPU
8GB RAM
تخزين NVMe بسعة 100GB
نطاق تردّدي 8TB
MAD 82.99 /الشهر

تتجدّد مقابل MAD 124.99/الشهر لـ2 سنوات. يمكنك إلغاء الاشتراك في أي وقت!

حول Speaches

Speaches هو خادم مفتوح المصدر ومتوافق مع واجهة برمجة تطبيقات OpenAI لأعباء عمل الذكاء الاصطناعي الصوتية. يصفه مطوروه بأنه "Ollama، ولكن لنماذج تحويل النص إلى كلام (TTS) والكلام إلى نص (STT)"، فهو يوفر للفرق بديلاً مستضافاً ذاتياً بالكامل لواجهة برمجة تطبيقات OpenAI الصوتية بدون رسوم لكل دقيقة، وبدون قيود على المورد، ولا تخرج أي بيانات من بنيتهم التحتية الخاصة. مع أكثر من 3300 نجمة على GitHub وتطوير نشط، يعد Speaches خيارًا جاهزًا للإنتاج لعمليات النشر التي تراعي الخصوصية.

حالات الاستخدام الشائعة

يتناسب Speaches بشكل طبيعي مع مجموعة واسعة من سير العمل. تستخدمه فرق التطوير كبديل محلي لواجهة برمجة تطبيقات OpenAI الصوتية أثناء الاختبار، مما يلغي تكاليف واجهة برمجة التطبيقات ورحلات الشبكة ذهابًا وإيابًا في مسارات CI. تقوم التطبيقات الموجهة للعملاء بدمجه لتشغيل واجهات صوتية، أو نسخ المكالمات، أو ميزات الوصول التلقائية — كل ذلك دون إرسال الصوت إلى خدمات طرف ثالث. يقوم منشئو المحتوى ومنتجو البودكاست بتشغيل مهام النسخ الدفعي على مكتبات الوسائط الخاصة بهم. تقوم الشركات ذات متطلبات الإقامة الصارمة للبيانات بنشر Speaches للحفاظ على جميع معالجة الصوت ضمن بيئة محكومة. يقوم الباحثون بضبط أو تقييم نقاط تفتيش "whisper" مختلفة عن طريق تبديل النموذج عبر واجهة برمجة تطبيقات REST، دون الحاجة إلى إعادة نشر.

الميزات الرئيسية

  • توافق مع واجهة برمجة تطبيقات OpenAI الصوتية: ينفذ /v1/audio/transcriptions، و/v1/audio/speech، و/v1/realtime — أي حزمة تطوير برامج (SDK) أو أداة مدمجة بالفعل مع OpenAI تعمل بدون تغييرات في الكود
  • نسخ أسرع بتقنية "whisper": تعرف على الكلام عالي الدقة ومتعدد اللغات مع إخراج متدفق عبر أحداث مرسلة من الخادم (Server-Sent Events) لتطبيقات زمن الاستجابة المنخفض
  • Kokoro و Piper لتحويل النص إلى كلام (TTS): تحويل النص إلى كلام بصوت طبيعي باستخدام نماذج تعمل بالكامل على الجهاز؛ Kokoro-82M مصنف رقم 1 في ساحة TTS
  • إدارة النماذج الديناميكية: يتم تحميل النماذج عند الطلب الأول وتفريغها بعد فترة زمنية قابلة للتكوين (TTL) في حالة الخمول، مما يحافظ على استهلاك ذاكرة الوصول العشوائي (RAM) منخفضًا؛ التحميل المسبق متاح لعمليات النشر الحساسة لزمن الاستجابة
  • واجهة مستخدم ويب Gradio: واجهة متصفح مدمجة لاختبار النسخ والتوليف دون أي أدوات إضافية
  • مصادقة مفتاح API: مفتاح واحد يحمي جميع نقاط النهاية مع ترك /docs ومخطط OpenAPI متاحين للعامة
  • دعم واجهة برمجة التطبيقات في الوقت الفعلي: تفاعل صوتي في الوقت الفعلي يعتمد على WebSocket متوافق مع مواصفات واجهة برمجة تطبيقات OpenAI في الوقت الفعلي
  • سجل نماذج HuggingFace: يمكن تحميل أي نموذج faster-whisper أو ONNX TTS على HuggingFace بواسطة معرف النموذج — لا يلزم إعادة بناء الصور

لماذا تنشر Speaches على Hostinger VPS

يضع تشغيل Speaches على Hostinger VPS بنية معالجة الصوت التحتية الخاصة بك بالكامل تحت سيطرتك. بيانات الصوت — التي يمكن أن تتضمن محادثات حساسة، أو إملاء طبي، أو مكالمات عمل سرية — لا تلامس أبدًا واجهة برمجة تطبيقات طرف ثالث. توفر خطط Hostinger VPS تكاليف شهرية يمكن التنبؤ بها مع

لا توجد رسوم نسخ لكل دقيقة، والتي يمكن أن تتراكم بسرعة مع زيادة الاستخدام. يتم الاحتفاظ بذاكرة التخزين المؤقت لنموذج HuggingFace في وحدة تخزين Docker مسماة، بحيث تبقى النماذج بعد إعادة التشغيل والترقيات دون الحاجة إلى إعادة تنزيل جيجابايت من الأوزان. يمكنك التوسع عمودياً عن طريق ترقية خطتك مع نمو الاستخدام، ولأن Speaches توفر واجهة برمجة تطبيقات REST قياسية، فإنها تتكامل مع البنية التحتية الحالية — لوحات المعلومات، ومكدسات المراقبة، والخدمات النهائية — بأقل قدر من التكوين. يستغرق النشر عبر قالب Docker بنقرة واحدة من Hostinger ثوانٍ: تبدأ الحاوية، وتصبح واجهة المستخدم Gradio متاحة على الفور، ويقوم طلب النسخ أو التوليف الأول الخاص بك بجلب أي نموذج تحتاجه تلقائياً مباشرة من HuggingFace، ويتم تخزينه مؤقتاً بشكل دائم على القرص لكل استخدام لاحق.

اختر خطة VPS للنشر Speaches

KVM 2
2 نوى vCPU
8GB RAM
تخزين NVMe بسعة 100GB
نطاق تردّدي 8TB
MAD 82.99 /الشهر

تتجدّد مقابل MAD 124.99/الشهر لـ2 سنوات. يمكنك إلغاء الاشتراك في أي وقت!

استكشف تطبيقات أخرى في هذه الفئة