La Segmentation du Locuteur Basée sur les Coefficients Cepstraux sur l'échelle de Mel

From LRDE

Résumé

La séparation du locuteur est un sujet important dans le domaine de la recherche. Il s'agit de savoir qui parle à quel moment dans un enregistrement audio, c'est-à-dire que nous aimerions connaître les intervalles de temps durant lesquels chaque locuteur parle. En calculant les Coefficients Cepstraux sur l'échelle de Mel (MFCC) de notre enregistrement audio, et en utilisant l'Analyse en Composantes Principales (ICA), nous pouvons avec l'aide de chaînes de Markov cachées (HMM), segmenter l'enregistrement. Nous utiliserons cet algorithme pour la segmentation du locuteur dans le système de vérification du locuteur, avec des enregistrements audio où plusieurs personnes parlent, comme dans les enregistrements d'entretiens ou bien les enregistrements microphone de l'évaluation de reconnaissance du locuteur de NIST.