Modèle du monde à base de réseaux de neurones à délai temporel pour la reconnaissance du locuteur
From LRDE
- Auteurs
- Valentin Iovene
- Type
- techreport
- Année
- 2017
- Numéro
- 1703
Résumé
Dans le domaine de la reconnaissance du locuteur, les réseaux de neurones profonds (DNN) ont récemment été montrés plus efficaces pour collecter des statistiques Baum-Welch utilisables pour l'extraction d'i-vector que les modèles de mélanges gaussiens traditionnels. Cependant, ce type d'architecture peut être trop lent au moment de l'évaluation, demandant l'utilisation d'un processeur graphique pour atteindre des performances "temps-réel". Nous montrons que les statistiques produites par un réseau de neurones à délai temporel (TDNN) peuvent être utilisées pour construire un GMM supervisé plus léger servant de modèle du monde (UBM) dans un système i-vector classique. L'erreur obtenue avec cette approche est comparée à celles obtenues avec des modèles du monde basés sur des GMM classiques.