Pendant longtemps, l'assistant vocal local en français sur Home Assistant a relevé du bricolage avancé : reconnaissance vocale incomplète, voix de synthèse robotique, latence de plusieurs secondes. La situation a basculé en 2025. Speech-to-Phrase a apporté une reconnaissance vocale française rapide et fiable sur Raspberry Pi 4. Piper propose désormais plusieurs voix françaises de synthèse correctes. Et le Voice Chapter 11 d'octobre 2025 a introduit le multilingue, permettant de faire cohabiter français et anglais sur la même installation.

Concrètement, en 2026, vous pouvez avoir un assistant vocal 100% local, en français, qui répond en moins d'une seconde sur un Raspberry Pi 4 ou un Home Assistant Green. Ce guide couvre la pile technique complète, le choix du hardware, l'installation pas-à-pas et la construction d'un satellite vocal DIY avec ESPHome.

Pourquoi un assistant vocal local plutôt qu'Alexa ou Google Home

Trois arguments tiennent la route en 2026.

Confidentialité réelle. Avec Alexa ou Google Home, chaque commande vocale transite par les serveurs du fournisseur, est analysée et archivée. Une commande "éteins la lumière de la chambre" envoie à Amazon ou Google la confirmation que vous êtes chez vous, dans cette pièce, à cette heure. En local, rien ne sort de votre réseau.

Fonctionnement offline. Une coupure internet ne neutralise plus votre maison. Les commandes critiques continuent de passer, ce qui est précieux pour un éclairage, un volet roulant ou un chauffage piloté à la voix.

Intégration native Home Assistant. Une commande vocale locale a accès directement à toutes vos entités HA (capteurs, scripts, scenes, automatisations) sans passer par une intégration cloud limitée. Vous pouvez piloter à la voix votre Frigate, votre ZLinky, vos modules Shelly Zigbee — exactement comme depuis l'interface.

Le contrepoint : le hardware reste à votre charge, et la latence dépend de la machine sur laquelle tourne la pile vocale. Un Raspberry Pi 4 fait l'affaire pour la plupart des cas, mais un mini-PC N100 ou supérieur reste plus confortable si vous mobilisez Whisper plutôt que Speech-to-Phrase.

Les briques techniques d'une pile vocale Home Assistant

Comprendre les composants évite de se perdre dans la documentation. Une pipeline vocale Home Assistant enchaîne quatre étapes :

Wake word — un mot d'activation détecté en permanence ("Ok Nabu", "Hey Jarvis"). Géré par openWakeWord.
Speech-to-Text (STT) — la conversion de la voix captée en texte. Deux moteurs locaux disponibles : Whisper (modèle générique, gourmand) et Speech-to-Phrase (modèle entraîné sur vos entités, ultra-rapide).
Intent recognition + Conversation agent — Home Assistant interprète le texte et détermine l'action à exécuter. Peut basculer vers un LLM (Ollama, OpenAI) pour les requêtes complexes.
Text-to-Speech (TTS) — la synthèse vocale qui répond. Piper est le moteur local recommandé, avec plusieurs voix françaises.

Le tout est orchestré par le pipeline Assist, configurable depuis Home Assistant via Paramètres → Assistants vocaux. Vous pouvez créer plusieurs pipelines (un par langue, par exemple) et y associer différents wake words.

Speech-to-Phrase vs Whisper en français : lequel choisir en 2026

C'est la décision structurante. Les deux moteurs ne visent pas les mêmes cas d'usage.

Critère	Speech-to-Phrase	Whisper (faster-whisper)
Approche	Modèle entraîné sur vos entités HA	Modèle générique multi-domaine
Hardware minimum	Raspberry Pi 4, HA Green	Mini-PC N100 ou GPU
Latence FR	Moins d'1 seconde	2 à 8 secondes selon le modèle et le hardware
Vocabulaire reconnu	Limité aux phrases prédites	Toute phrase libre
Mise à jour	Automatique quand vous ajoutez un device	Statique
Cas d'usage idéal	Commandes "allumer / éteindre / régler"	Conversations libres avec un LLM

Recommandation pratique. Commencez par Speech-to-Phrase. Le modèle s'entraîne automatiquement sur vos appareils, vos zones et vos déclencheurs de phrases. La reconnaissance est suffisamment robuste pour 95% des commandes domotiques courantes ("allume la lumière du salon", "ferme le volet de la chambre", "quelle est la température dehors"). Le français est officiellement supporté depuis février 2025 et géré finement — Speech-to-Phrase comprend par exemple les contractions du type "l'humidificateur" ou "l'entrée".

Whisper reste pertinent si vous prévoyez de brancher un LLM derrière (voir plus bas) pour des requêtes en langage naturel ouvertes du type "rappelle-moi de sortir les poubelles demain matin". Dans ce cas, prévoyez un mini-PC N100 minimum. Sur Raspberry Pi 4, Whisper en français est inutilisable — la latence dépasse 5 secondes même avec le modèle tiny, et la qualité de reconnaissance se dégrade nettement (mots tronqués, confusions sur les liaisons). Les modèles base et small sont plus précis mais inutilisables à cause de la latence sur ce hardware.

Côté ressources : sur un HA Green ou un Raspberry Pi 4 (4 Go), comptez environ 800 Mo de RAM consommée par les trois add-ons Speech-to-Phrase + Piper + openWakeWord. Ce n'est pas bloquant, mais à intégrer dans le budget mémoire si vous faites tourner Frigate ou Music Assistant en parallèle.

Voix françaises Piper : le tour d'horizon

Piper est le moteur de synthèse vocale local de référence dans l'écosystème Home Assistant. Il propose plusieurs voix françaises, téléchargeables comme add-ons ou via la configuration Piper.

fr_FR-siwis-medium — voix féminine, claire et naturelle, c'est la référence pour la plupart des installations FR. Modèle medium (~60-65 Mo selon le repo HuggingFace rhasspy/piper-voices). Recommandée par défaut.
fr_FR-tom-medium — voix masculine, ton neutre. Bonne alternative si vous préférez une voix masculine.
fr_FR-upmc-medium — voix masculine institutionnelle, un peu plus formelle, parfaite pour des annonces de sécurité ou des notifications critiques.
fr_FR-mls-medium — voix multi-locuteurs (entraînée sur le dataset Multilingual LibriSpeech), rendu moins homogène que siwis/tom/upmc. Utile si vous cherchez une diversité timbrale ou pour expérimenter.

Pour comparer en pratique, ouvrez Paramètres → Modules complémentaires → Piper → Configuration, sélectionnez la voix puis cliquez sur "Try voice". Le rendu s'écoute en streaming dans l'interface.

Hardware : Voice PE, Raspberry Pi 4, mini-PC N100 ou full DIY

Quatre approches, quatre profils d'utilisateur.

Home Assistant Voice Preview Edition (Voice PE)

Le boîtier officiel de Nabu Casa, sorti fin 2024 et disponible chez Domadoo et Amazon en 2026. Format compact (84 x 84 x 21 mm), micros far-field, puce audio XMOS dédiée, alimentation USB-C, configuration via l'app Home Assistant Companion. C'est le hardware satellite le plus simple à mettre en service — branche, scan QR code, c'est fini.

Le test des Alexiens publié en décembre 2024 pointait deux limites : détection inégale du wake word "Ok Nabu" et latence parfois élevée. Les firmwares de 2025 ont nettement amélioré la première, et la latence dépend principalement du hardware Home Assistant qui héberge la pipeline (le Voice PE n'est qu'un satellite). Sur un HA Green ou un Raspberry Pi 4 avec Speech-to-Phrase, la réponse arrive en moins de 2 secondes en pratique.

Avantages : zéro bricolage, design correct, stéréo line-out pour brancher une enceinte. Inconvénients : un seul produit, prix unitaire qui grimpe vite si vous voulez équiper plusieurs pièces.

Procédure de mise en service : branchez le Voice PE en USB-C, lancez l'app Home Assistant Companion sur votre smartphone, scannez le QR code généré dans Paramètres → Appareils et services → Ajouter un appareil. La pipeline Assist est associée automatiquement. C'est l'option la moins chronophage si vous ne voulez pas faire de YAML.

Meilleur choix

Home Assistant Voice Preview Edition

Plug & play · ESP32-S3 + XMOS XU316 · USB-C · Far-field mics

Voir sur Domadoo Stock France · SAV français

Voir sur Amazon Livraison Prime · Retours gratuits

Raspberry Pi 4 ou Home Assistant Green

Pour héberger la pipeline (Whisper/Speech-to-Phrase, Piper, openWakeWord), un Raspberry Pi 4 (4 ou 8 Go) ou un HA Green suffit avec Speech-to-Phrase. Pour Whisper, prévoyez plus puissant.

Astuce : si Home Assistant tourne déjà chez vous sur un Raspberry Pi 4, vous n'avez pas besoin d'un autre hardware pour la pipeline. Le seul ajout est le micro/haut-parleur, qui peut être un Voice PE en satellite ou un satellite DIY ESPHome (voir plus loin). Pour une nouvelle installation, le Raspberry Pi 5 est encore plus confortable — Speech-to-Phrase y répond en environ 150 ms, soit la moitié du temps mesuré sur RPi 4.

Raspberry Pi 5 8 Go

8 Go RAM · ARM Cortex-A76 · HAT+ compatible

Voir sur Amazon Livraison Prime

Mini-PC N100 ou supérieur

Le bon compromis si vous voulez utiliser Whisper en français de manière fluide. Un Beelink N100 ou équivalent avec 16 Go de RAM passe Whisper small ou medium sans difficulté, en latence acceptable (1 à 2 secondes en français). C'est aussi le seuil pour faire tourner un LLM local (Ollama avec un modèle quantizé) en parallèle de Home Assistant.

Satellite vocal DIY avec ESPHome

Pour équiper plusieurs pièces sans multiplier les Voice PE, un satellite vocal sur ESPHome est l'approche la plus économique. Deux options testées et compatibles d'office avec le firmware home-assistant-voice-pe :

M5Stack Atom Echo — la base d'entrée de gamme. Format ultra-compact, micro PDM intégré, mini haut-parleur, USB-C. Comptez environ 25 €. La qualité de captation est correcte en pièce calme, en retrait dès qu'il y a du bruit ambiant. Idéal pour un satellite de chambre ou de bureau.

Rapport qualité-prix

M5Stack Atom Echo

Satellite DIY ESPHome · Micro PDM + speaker · ~25 EUR

Voir sur Amazon Livraison Prime · Retours gratuits

Waveshare ESP32-S3 AI Smart Speaker — l'option qualité supérieure pour les pièces de vie. Deux micros far-field avec réduction de bruit hardware, haut-parleur correct, ESP32-S3, RGB LED, support écran et caméra externe. Comptez environ 27 €. C'est le meilleur compromis qualité/prix pour un satellite DIY en 2026, à privilégier si vous voulez équiper le salon ou la cuisine.

Waveshare ESP32-S3 AI Smart Speaker

Dual mics far-field · Noise reduction · RGB LED · ESP32-S3

Voir sur Amazon Livraison Prime · Retours gratuits

L'avantage commun : configuration entièrement en YAML versionnée dans Home Assistant, prix divisé par 2 à 3 par rapport au Voice PE, et la pipeline reste exactement la même côté Home Assistant.

Installation pas-à-pas : Whisper, Piper et pipeline Assist en français

La procédure ci-dessous fonctionne sur Home Assistant OS, HA Supervised et HA Container (avec quelques nuances que je précise). Toute la configuration se fait dans l'interface, sans toucher à configuration.yaml.

Étape 1 — Installer les add-ons Speech-to-Phrase et Piper

Allez dans Paramètres → Modules complémentaires → Boutique des modules complémentaires. Recherchez successivement :

Speech-to-Phrase (officiel Home Assistant) — installation puis démarrage
Piper (officiel Home Assistant) — installation puis démarrage
openWakeWord (officiel Home Assistant) — installation puis démarrage

Sur HA Container, ces add-ons ne sont pas disponibles directement — il faut lancer les conteneurs équivalents en Docker (rhasspy/wyoming-piper, rhasspy/wyoming-faster-whisper, rhasspy/wyoming-openwakeword) puis les déclarer comme intégrations Wyoming Protocol dans Home Assistant.

Étape 2 — Configurer Piper en français

Ouvrez l'add-on Piper, onglet Configuration. Sélectionnez la voix fr_FR-siwis-medium (ou fr_FR-tom-medium si vous préférez une voix masculine). Réglez la qualité sur medium. Démarrez ou redémarrez l'add-on. L'intégration Piper apparaît automatiquement dans Paramètres → Appareils et services.

Étape 3 — Configurer Speech-to-Phrase

Ouvrez l'add-on Speech-to-Phrase. Dans la configuration, sélectionnez la langue fr. Démarrez l'add-on. Au premier lancement, Speech-to-Phrase scanne vos entités, vos zones et vos déclencheurs de phrases pour générer un modèle de reconnaissance personnalisé. Cette étape prend une à deux minutes.

Astuce : si vous ajoutez de nouveaux devices plus tard, redémarrez l'add-on pour régénérer le modèle. Sinon les commandes sur les nouveaux devices ne seront pas reconnues.

Étape 4 — Créer le pipeline Assist en français

Dans Paramètres → Assistants vocaux, cliquez sur Ajouter un assistant. Configurez :

Nom : "Assistant Français" (ou ce que vous voulez)
Langue : Français
Conversation agent : Home Assistant (par défaut, intent natif)
Speech-to-text : Speech-to-Phrase (langue : Français)
Text-to-speech : Piper, voix fr_FR-siwis-medium
Wake word : okay_nabu (le modèle technique du wake word vocal "Ok Nabu") ou hey_jarvis

Validez. Le pipeline est prêt. Vous pouvez tester immédiatement depuis l'icône Assist en bas à droite de l'interface Home Assistant.

Note sur les wake words disponibles : les satellites Home Assistant (Voice PE et builds ESPHome home-assistant-voice-pe) activent par défaut okay_nabu, hey_jarvis et hey_mycroft. Le modèle alexa existe aussi dans openWakeWord, mais activez-le uniquement si vous n'avez pas d'enceinte Echo Amazon dans la pièce — sinon les deux systèmes vont se déclencher en parallèle. Le modèle okay_nabu n'est pas disponible dans le repo openWakeWord d'origine ; il vient du fork Nabu Casa rhasspy/wyoming-openwakeword, déjà installé par défaut côté Home Assistant.

Construire un satellite vocal DIY avec ESPHome

Si vous voulez équiper plusieurs pièces sans acheter un Voice PE par chambre, un satellite ESPHome basé sur ESP32-S3 ou M5Atom Echo coûte 5 à 10 fois moins cher.

L'approche la plus rapide consiste à utiliser le package officiel ESPHome maintenu par la communauté Home Assistant, qui suit les évolutions du firmware sans intervention de votre part :

esphome:
  name: satellite-salon
  friendly_name: Satellite Salon

packages:
  m5stack_voice:
    url: https://github.com/esphome/wake-word-voice-assistants
    ref: main
    files:
      - m5stack-atom-echo/m5stack-atom-echo.yaml

wifi:
  ssid: !secret wifi_ssid
  password: !secret wifi_password

Si vous préférez maîtriser chaque détail (logique custom, modifications de la pile audio, ajout de capteurs supplémentaires), voici la configuration détaillée équivalente à dérouler :

esphome:
  name: satellite-salon
  friendly_name: Satellite Salon

esp32:
  board: m5stack-atom

wifi:
  ssid: !secret wifi_ssid
  password: !secret wifi_password

api:
  encryption:
    key: !secret api_key

logger:

i2s_audio:
  i2s_lrclk_pin: GPIO33
  i2s_bclk_pin: GPIO19

microphone:
  - platform: i2s_audio
    id: mic
    adc_type: external
    i2s_din_pin: GPIO23
    pdm: true

speaker:
  - platform: i2s_audio
    id: spk
    i2s_dout_pin: GPIO22
    dac_type: external

voice_assistant:
  microphone: mic
  speaker: spk
  noise_suppression_level: 2
  auto_gain: 31dBFS
  volume_multiplier: 2.0
  use_wake_word: true

Flashez via ESPHome Web (web.esphome.io) ou via le builder ESPHome dans Home Assistant. Une fois le satellite en ligne, il apparaît automatiquement comme appareil Wyoming dans Paramètres → Appareils et services. Associez-lui le pipeline Assist français créé à l'étape précédente.

Pour les pièces ouvertes ou bruyantes (salon, cuisine), le Waveshare ESP32-S3 AI Smart Speaker reste le meilleur compromis : deux micros far-field avec réduction de bruit hardware embarquée, packaging plus pro que l'Atom Echo, support communautaire ESPHome actif.

Setup multilingue : faire cohabiter français et anglais

Le Voice Chapter 11 d'octobre 2025 a introduit une fonctionnalité attendue : plusieurs assistants avec wake words distincts sur la même installation. Cas d'usage typique : conjoint anglophone, ou simplement vous-même qui passez parfois à l'anglais pour les commandes complexes ou les LLM.

La marche à suivre :

Créez un second pipeline Assist en anglais (Speech-to-Phrase ou Whisper, Piper voix anglaise, intent agent EN).
Dans l'add-on openWakeWord, activez deux modèles : ok_nabu et hey_jarvis.
Sur le satellite (Voice PE ou ESPHome), associez "Ok Nabu" au pipeline français et "Hey Jarvis" au pipeline anglais.

Résultat : "Ok Nabu, allume la lumière du salon" déclenche le pipeline français, "Hey Jarvis, what's the weather" le pipeline anglais. Aucun chevauchement.

Exemples de commandes vocales en français qui fonctionnent

Voici des commandes que Speech-to-Phrase reconnaît correctement après configuration, à condition que les entités correspondantes existent dans Home Assistant :

"Allume la lumière du salon"
"Éteins toutes les lumières"
"Ferme le volet de la chambre"
"Quelle est la température du salon"
"Combien de portes sont ouvertes"
"Lance la scène cinéma"
"Démarre un minuteur de 10 minutes"
"Quel temps fait-il dehors"
"Mets le chauffage à 21 degrés"
"Pause Spotify" (si l'intégration Music Assistant est en place)

Les commandes plus libres ("rappelle-moi de sortir le chien à 18h", "raconte-moi une blague") nécessitent un LLM en backup — voir section suivante.

Brancher un LLM local (Ollama) ou OpenAI en fallback

Speech-to-Phrase et l'intent agent natif gèrent les commandes domotiques. Pour les requêtes ouvertes, vous pouvez configurer un Conversation agent LLM qui prend le relais quand l'intent natif échoue.

Deux approches :

OpenAI (cloud). Simple à configurer, rapide, mais la requête sort de votre réseau. Configuration : intégration "OpenAI Conversation" dans HA, clé API OpenAI. Coût : environ 0,01 € par requête avec GPT-4o-mini, ce qui reste acceptable pour un usage occasionnel.

Ollama (local). Cohérent avec une approche local-first complète. Nécessite une machine avec au moins 16 Go de RAM (mini-PC N100 16 Go ou supérieur). Modèles recommandés en français : qwen2.5:3b, llama3.2:3b, ou mistral:7b sur du hardware plus costaud. Latence : 2 à 5 secondes par réponse selon le modèle.

Dans le pipeline Assist, configurez le Conversation agent sur "Home Assistant" en priorité, puis activez le fallback vers Ollama ou OpenAI. Les commandes domotiques continuent de passer par l'intent natif (rapide, fiable), seules les requêtes hors-domaine basculent sur le LLM.

Limites actuelles et roadmap 2026

L'écosystème vocal Home Assistant progresse vite mais quelques limites subsistent.

Wake word personnalisé. Les wake words intégrés ("Ok Nabu", "Hey Jarvis", "Alexa") fonctionnent bien. Entraîner un wake word custom (votre propre mot d'activation) est encore expérimental et demande une centaine d'enregistrements vocaux. Une amélioration est annoncée pour 2026.

Reconnaissance multi-locuteurs. Speech-to-Phrase ne distingue pas les voix. Si vous voulez des comportements différents selon qui parle, il faut passer par Whisper plus une étape de speaker diarization — pas encore industrialisé.

Pièces avec acoustique difficile. Les micros far-field du Voice PE et du Waveshare ESP32-S3 restent en retrait des Echo Show et Nest Hub haut de gamme dans les pièces très réverbérantes ou avec bruit de fond constant (cuisine en activité). Pour ces cas, prévoyez un satellite par zone plutôt qu'un seul satellite central.

Roadmap annoncée. Sur la base des Voice Chapters publiés en 2025, les axes en cours pour 2026 sont : amélioration des modèles Speech-to-Phrase (vocabulaire plus large), nouveaux modèles Piper haute qualité (voix encore plus naturelles), wake word custom plus simple à entraîner, et intégration plus fine des LLM locaux dans le pipeline Assist.

Foire aux questions

Le français fonctionne-t-il vraiment en local en 2026 ?

Oui, sans réserve. Speech-to-Phrase supporte le français depuis février 2025, Piper propose plusieurs voix françaises stables, et le Voice Chapter 11 d'octobre 2025 a stabilisé le multilingue. Les anciens articles (avant 2025) qui disaient "le français n'est pas dispo en local" sont obsolètes.

Quel est le hardware minimum pour démarrer ?

Un Raspberry Pi 4 (4 Go) ou un HA Green pour héberger Speech-to-Phrase + Piper + openWakeWord, plus un satellite (Voice PE, M5Stack Atom Echo ou Waveshare ESP32-S3 AI Smart Speaker). Pour Whisper en français, montez à un mini-PC N100 ou supérieur.

Faut-il acheter le Voice PE ou faire un satellite DIY ?

Voice PE si vous voulez du plug & play et un seul satellite. ESPHome (M5Stack Atom Echo en chambre, Waveshare ESP32-S3 dans les pièces de vie) si vous voulez équiper 3+ pièces ou personnaliser le firmware. Les deux approches utilisent la même pipeline côté Home Assistant.

Speech-to-Phrase peut-elle remplacer Alexa et Google Home ?

Pour les commandes domotiques (allumer, éteindre, scènes, capteurs), oui complètement. Pour les requêtes générales (météo détaillée, recettes, traduction, questions ouvertes), il faut soit un LLM derrière (Ollama, OpenAI), soit accepter que ces requêtes ne soient pas traitées.

Comment changer le wake word "Ok Nabu" ?

Dans la configuration du satellite (Voice PE ou ESPHome), sélectionnez un autre modèle parmi ceux activés par défaut : hey_jarvis ou hey_mycroft. Le modèle alexa existe aussi dans openWakeWord mais à éviter si vous avez un Echo Amazon dans la même pièce (déclenchement croisé). Pour un wake word custom (votre propre mot d'activation), il faut entraîner un modèle openWakeWord personnel, procédure encore expérimentale en 2026.

Quelle latence en pratique pour une commande vocale ?

Avec Speech-to-Phrase + Piper sur Raspberry Pi 4 ou HA Green : 1 à 2 secondes entre la fin de la commande et la confirmation vocale. Avec Whisper sur N100 : 2 à 4 secondes. Avec Whisper sur Raspberry Pi 4 : 5 à 8 secondes (peu utilisable au quotidien).

L'assistant peut-il fonctionner en cas de coupure internet ?

Oui, à 100% si la pipeline est entièrement locale (Speech-to-Phrase + Piper + intent natif). Le Voice PE et les satellites ESPHome dialoguent avec Home Assistant en LAN, aucun service cloud n'est sollicité. Si vous activez un fallback OpenAI, seules les requêtes complexes nécessiteront internet.

Combien d'entités gère Speech-to-Phrase au maximum ?

Pas de limite formelle, mais en pratique au-delà de 200 entités utiles, le modèle entraîné met plus de temps à se régénérer (5+ minutes au démarrage de l'add-on). Pensez à exclure les entités sans intérêt vocal (capteurs purement techniques, entités sensor.* dérivées) via leur configuration dans HA.