Parler, c'est plus simple.
Parlez librement, tapez instantanément — dictée vocale 100% locale pour Linux avec 25+ langues, traduction, diarisation et retour visuel en temps réel. Le texte apparaît directement sous votre curseur.
Installation • Configuration • Interfaces visuelles • Utilisation • Pour aller plus loin • Feuille de route
dictee est un système complet de dictée vocale pour Linux. La transcription est réalisée 100% en local — aucune donnée audio ne quitte votre machine. Appuyez sur un raccourci, parlez, et le texte est tapé directement dans l'application active.
- 4 backends ASR : Parakeet-TDT (25 langues, ponctuation native), Canary-1B (traduction intégrée, GPU), Vosk (léger, ~50 Mo), faster-whisper (99 langues)
- Mode daemon : modèle chargé une seule fois, transcriptions quasi-instantanées (~0,8s sur CPU)
- Traduction : 4 backends — Google, Bing, LibreTranslate (local), ollama (local)
- Diarisation : identification des locuteurs, jusqu'à 4 via Sortformer (CLI uniquement, pas encore dans la dictée vocale)
- 3 interfaces visuelles : widget KDE Plasma, icône de notification, animation plein écran
Télécharger le .deb depuis les Releases, puis :
# Version GPU (nécessite le dépôt NVIDIA CUDA — voir « Dépendances CUDA » ci-dessous)
sudo dpkg -i dictee-cuda_1.2.0_amd64.deb
# Version CPU (tout ordinateur, aucun dépôt supplémentaire requis)
sudo dpkg -i dictee-cpu_1.2.0_amd64.deb
# Installer les dépendances manquantes
sudo apt-get install -fNote : La version GPU nécessite cuDNN provenant du dépôt NVIDIA CUDA, qui n'est pas inclus dans les dépôts standards Ubuntu/Fedora. Sans celui-ci, la version GPU fonctionnera en mode CPU uniquement.
Fedora / openSUSE :
# Version GPU (NVIDIA CUDA — voir « Dépendances CUDA » ci-dessous)
sudo dnf install ./dictee-cuda-1.2.0-1.x86_64.rpm
# Version CPU (tout ordinateur)
sudo dnf install ./dictee-cpu-1.2.0-1.x86_64.rpmArch Linux (AUR) :
Un PKGBUILD est disponible à la racine du dépôt. Il compile depuis les sources et inclut tous les composants (x86_64 et aarch64).
aarch64 (ARM64) :
Les paquets pré-compilés sont x86_64 uniquement. Sur aarch64 (Raspberry Pi 5, Ampere, etc.), compilez depuis les sources — voir ci-dessous. CUDA est limité aux NVIDIA Jetson sur cette architecture ; la plupart des utilisateurs utiliseront le mode CPU.
Autres distributions (.tar.gz) :
tar xzf dictee-1.2.0_amd64.tar.gz
cd dictee-1.2.0
sudo ./install.shDepuis les sources :
tar xzf dictee-1.2.0-source.tar.gz
cd dictee-1.2.0-source
cargo build --release --features sortformer
sudo ./install.shPour les instructions de compilation détaillées et les features Cargo, voir docs/building.md.
La version GPU (dictee-cuda) nécessite cuDNN, qui n'est pas disponible dans les dépôts standards Ubuntu/Fedora. Il faut ajouter le dépôt NVIDIA CUDA :
Ubuntu / Debian :
wget -qO - https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/3bf863cc.pub | \
sudo gpg --dearmor -o /usr/share/keyrings/cuda-archive-keyring.gpg
echo "deb [signed-by=/usr/share/keyrings/cuda-archive-keyring.gpg] \
https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /" | \
sudo tee /etc/apt/sources.list.d/cuda-ubuntu2404-x86_64.list
sudo apt update
sudo apt install libcudnn9-cuda-12Remplacer
ubuntu2404par votre version (ubuntu2204,ubuntu2504, etc.). Voir dépôts NVIDIA CUDA.
Fedora :
sudo dnf config-manager addrepo --from-repofile=https://developer.download.nvidia.com/compute/cuda/repos/fedora41/x86_64/cuda-fedora41.repo
sudo dnf install libcudnn9-cuda-12Sans cuDNN, la version GPU fonctionne automatiquement en mode CPU.
dictee-setupdétectera le problème et vous guidera.
Au premier lancement, un assistant vous guide pour choisir le backend, télécharger le modèle et configurer les raccourcis clavier. Vous pouvez reconfigurer à tout moment depuis le menu application, le tray, le widget Plasma ou en lançant dictee --setup depuis le terminal :
Quatre backends de transcription mutuellement exclusifs, commutables depuis dictee --setup :
| Backend | Langues | Taille modèle | Latence (chaud) | Type |
|---|---|---|---|---|
| Parakeet-TDT | 25 | ~2,5 Go | ~0,8s CPU · ~0,16s GPU | ONNX Runtime (Rust) |
| Canary-1B | 4 (EN,ES,FR,DE) | ~5 Go | ~0,7s GPU | ONNX Runtime (Python, GPU recommandé) |
| faster-whisper | 99 | ~500 Mo–3 Go | ~0,3s | CTranslate2 (Python) |
| Vosk | 9+ | ~50 Mo | ~1,5s | Python (léger) |
Chaque backend tourne en service systemd utilisateur — même protocole socket Unix, totalement transparent pour l'utilisateur.
dictee --setup capture et enregistre les raccourcis automatiquement (KDE Plasma / GNOME). Deux raccourcis séparés : un pour la dictée, un pour la dictée + traduction.
Pour les WM tiling (Sway, i3, Hyprland…), l'outil indique la commande à ajouter manuellement à votre config.
| Backend | Confidentialité | Vitesse | Qualité | Installation |
|---|---|---|---|---|
| Canary-1B | 100% local | Intégrée | Meilleure | Inclus avec le backend ASR |
| LibreTranslate | 100% local | 0,1–0,3s | Bonne | Guidé depuis le setup |
| ollama | 100% local | 2,3–3,4s | Meilleure | Guidé depuis le setup |
| translate-shell (Google) | En ligne | 0,2–0,7s | Bonne | Inclus |
| translate-shell (Bing) | En ligne | 1,7–2,2s | Bonne | Inclus |
Changez de backend ASR ou traduction instantanément depuis la ligne de commande, le menu du tray ou le widget Plasma :
# Changer de backend ASR
dictee-switch-backend asr canary
# Changer de backend traduction
dictee-switch-backend translate ollama
# Voir les backends actifs
dictee-switch-backend status
# → ASR: parakeet (dictee.service, active)
# → Translate: google (trans)Le tray et le widget Plasma incluent des sous-menus pour changer de backend sans ouvrir la configuration.
Un widget natif KDE Plasma 6 avec visualisation audio en temps réel pendant l'enregistrement, état du daemon et contrôles rapides (dictée, traduction, annulation).
Cinq styles d'animation avec enveloppe Hanning, sensibilité par style et dégradés de couleurs optionnels :
| Barres | Onde | Pulsation | Points | Forme d'onde |
|---|---|---|---|---|
Tous les styles supportent les dégradés de couleurs, une enveloppe Hanning ajustable (forme et fréquence centrale), une courbe de sensibilité par style, et des options de réglage fin (nombre de barres, espacement, rayon, vitesse…).
# Installer (inclus dans le .deb, ou manuellement)
kpackagetool6 -t Plasma/Applet -i /usr/share/dictee/dictee.plasmoidClic droit sur le panneau → « Ajouter des composants graphiques… » → chercher « Dictée ».
Pour la documentation complète des réglages du widget, voir docs/plasmoid.md.
dictee-tray est l'alternative au widget KDE Plasma pour les bureaux non-KDE (GNOME, Xfce, Sway, Hyprland…). Il affiche une icône dans la zone de notification qui reflète l'état en temps réel : idle, enregistrement (vert), transcription (bleu), daemon arrêté (rouge).
- Clic gauche → lancer une dictée
- Clic molette → annuler
- Menu contextuel → toutes les actions (dictée, traduction, daemon, configuration)
# Lancer manuellement
dictee-tray
# Activer au démarrage de la session
systemctl --user enable --now dictee-trayL'icône s'adapte automatiquement au thème clair/sombre.
Le widget Plasma et le tray incluent tous deux :
- Sélecteurs de backend — changer de backend ASR et traduction sans ouvrir
dictee-setup - Détection premier lancement — propose de lancer l'assistant de configuration si pas encore configuré
- Détection d'installation (widget Plasma) — affiche un message clair si dictee n'est pas installé
animation-speech est un projet autonome qui fournit une animation visuelle plein écran pendant l'enregistrement, avec annulation via la touche Echap. Il fonctionne sur tout compositeur Wayland supportant wlr-layer-shell (KDE Plasma, Sway, Hyprland…).
sudo dpkg -i animation-speech_1.2.0_all.debTélécharger : releases animation-speech
Note : animation-speech n'est pas compatible GNOME (pas de support
wlr-layer-shell). Les utilisateurs GNOME peuvent utiliserdictee-traypour le retour visuel. Les contributions pour une extension GNOME Shell sont les bienvenues — voir le code source du plasmoid comme architecture de référence.
Sans aucune interface visuelle, dictee fonctionne normalement mais sans retour visuel pendant l'enregistrement.
# Dictée simple — transcrit et tape
dictee
# Avec traduction (défaut : langue système → anglais)
dictee --translate
dictee --translate --ollama # traduction 100% locale via ollama
# Changer les langues de traduction
DICTEE_LANG_TARGET=es dictee --translate # → espagnol
# Annuler l'enregistrement en cours (via raccourci ou touche Echap)
dictee --cancel
# Tester les règles de post-traitement
dictee-test-rules # mode interactif
dictee-test-rules --loop # boucle de test continue
dictee-test-rules --wav fichier.wav # tester depuis un fichier audio
# Changer de backend en ligne de commande
dictee-switch-backend status # voir les backends actifs
dictee-switch-backend asr canary # passer à Canary
dictee-switch-backend translate bing # traduction vers Bingdictee inclut un pipeline configurable de transformation du texte qui s'exécute après la transcription :
- Règles personnalisées — remplacement par regex (ex : commandes vocales « à la ligne », « virgule »)
- Dictionnaire — corriger les erreurs récurrentes de l'ASR
- Continuation — détecter les phrases incomplètes entre plusieurs dictées
- Élisions — règles de grammaire française (ex : « le arbre » → « l'arbre »)
- Conversion des nombres — nombres dictés en chiffres (ex : « vingt-trois » → « 23 »)
- Capitalisation automatique — majuscule après ponctuation finale
- Correction LLM — correction optionnelle grammaire/orthographe via Ollama avant les règles
Configuration depuis dictee --setup → onglet Post-traitement, ou testez les règles avec dictee-test-rules.
| Documentation | Description |
|---|---|
| docs/cli-programs.md | Binaires CLI, utilisation directe, modèles ONNX |
| docs/building.md | Compilation depuis les sources, features Cargo, pipeline audio |
| docs/plasmoid.md | Réglages du widget, styles d'animation, configuration détaillée |
| Post-traitement | Pipeline de transformation du texte : règles, dictionnaire, élisions, text2num, capitalisation, correction LLM |
v1.2.0 (actuelle) : 4 backends ASR (+ Canary), pipeline de post-traitement, changement rapide de backend, assistant premier lancement, dictee-test-rules
- (v1.3) Hotword boosting — biaiser le décodage ASR vers des noms et termes personnalisés sans ré-entraîner (beam search + Aho-Corasick en Rust)
- Diarisation depuis le tray/plasmoid — sélection de fichier audio, transcription avec identification des locuteurs
- CLI speech-to-text (pipe audio, récupérer le texte)
- Coordinateur
dictee-ctl— point d'entrée unique, élimine les race conditions - VAD (Voice Activity Detection) — dictée mains libres sans push-to-talk
- Transcription streaming temps réel avec affichage en direct
- Overlay visuel intégré (remplacer
animation-speechexterne) - Packaging AppImage / Flatpak
- Applet COSMIC / GNOME (contributions bienvenues !)
Le moteur de transcription s'appuie sur parakeet-rs par Enes Altun, qui fournit la bibliothèque Rust pour l'inférence des modèles NVIDIA Parakeet via ONNX Runtime. Le backend Canary-1B utilise onnx-asr par Ivan Stupakov pour l'inférence ASR via ONNX.
Ce projet est distribué sous licence GPL-3.0-or-later (voir LICENSE).
Le code original de parakeet-rs par Enes Altun est sous licence MIT (voir LICENSE-MIT).
dotool par geb est intégré pour la simulation de saisie clavier et est sous licence GPL-3.0.
Les modèles ONNX Parakeet (téléchargés séparément depuis HuggingFace) sont fournis par NVIDIA. Ce projet ne distribue pas les modèles.






