Modèle du monde à base de réseaux de neurones à délai temporel pour la reconnaissance du locuteur

From LRDE

The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.

Résumé

Dans le domaine de la reconnaissance du locuteur, les réseaux de neurones profonds (DNN) ont récemment été montrés plus efficaces pour collecter des statistiques Baum-Welch utilisables pour l'extraction d'i-vector que les modèles de mélanges gaussiens traditionnels. Cependant, ce type d'architecture peut être trop lent au moment de l'évaluation, demandant l'utilisation d'un processeur graphique pour atteindre des performances "temps-réel". Nous montrons que les statistiques produites par un réseau de neurones à délai temporel (TDNN) peuvent être utilisées pour construire un GMM supervisé plus léger servant de modèle du monde (UBM) dans un système i-vector classique. L'erreur obtenue avec cette approche est comparée à celles obtenues avec des modèles du monde basés sur des GMM classiques.