
STT léger : c’est quoi ?
Un STT léger est un système de reconnaissance vocale :
peu gourmand en RAM et en CPU,
fonctionnant sur un VPS standard (1–2 vCPU, 2–4 Go RAM),
sans GPU,
parfois hors-ligne (local).
Idéal si tu veux intégrer une transcription rapide dans Oravox sans payer des API cloud coûteuses.

Les meilleures solutions STT légères (2025)

Whisper.cpp (ultra léger – recommandé)

Version CPU optimisée du modèle Whisper d’OpenAI.
fonctionne sur petit VPS
rapide, même sans GPU
compile en C++ → performances excellentes
prend des modèles “tiny”, “base”, “small”
précision très bonne pour sa légèreté

Tiny ≈ 75 Mo

Base ≈ 142 Mo
C’est aujourd’hui le meilleur compromis poids/qualité.

Faster-Whisper (léger + très rapide)
Version optimisée utilisant CTranslate2.
tourne très bien sur CPU
accepte des modèles plus petits
souvent 2–4× plus rapide que Whisper normal
facile à intégrer dans Python
Idéal pour un backend Oravox avec un VPS sans GPU.

Vosk (vieux mais ultra léger)
Si tu veux du minimalisme absolu :
tourne sur n’importe quoi (Raspberry Pi, téléphone, VPS faible)
modèles très petits
précision correcte, mais inférieure à Whisper
Utile uniquement si tu veux le plus petit possible.

Coqui STT (ex-Mozilla)
léger
open source
facile à intégrer
Mais aujourd’hui moins performant que Whisper.

Que choisir pour toi (Oravox) ?

Recommandation optimale : Whisper.cpp (tiny ou base)
→ rapide, léger, gratuit, local, sécurisé.
Si tu veux un peu plus de précision :

Faster-Whisper (small)
Fonctionne très bien sur un VPS 4 Go RAM.

Besoin du plus léger possible ?
En termes de ressources mini :
Whisper tiny → 1 vCPU, 1 Go RAM
Whisper base → 2 vCPU, 2 Go RAM
Vosk → 512 Mo RAM (très léger)

Tu veux quoi exactement ?
un STT off-line pour Oravox ?
un STT sur smartphone ou embarqué ?
un STT temps réel pour commandes vocales ?
un STT dans un VPS avec budget ultra réduit ?
Si tu me dis ton usage, je te propose la solution exacte + un guide d’installation sur ton futur VPS.