Difference between revisions of "CSI Seminar 2015-01-28"

From LRDE

Line 11: Line 11:
   
 
===== <span style="color:#00FF00">OLENA </span>=====
 
===== <span style="color:#00FF00">OLENA </span>=====
  +
{{CSISeminarSpeaker
11h00 <span style="color:#0000FF">Amélioration de la base d'entraînement d'un classifieur k-NN d'OCR</span> – <span style="color:#00FF00">ANTHONY SEURE</span>
 
  +
|id=seure.15.seminar
  +
|time=11h00
  +
}}
   
 
===== <span style="color:#00FF00">SPEAKER ID </span>=====
Une des parties d'une chaîne de reconnaissance de caractères est la
 
  +
{{CSISeminarSpeaker
classification des caractères à proprement parler : ils peuvent être en
 
  +
|id=bounthong.15.seminar
majuscules, minuscules ou bien être des chiffres. Dans notre cas, notre OCR
 
  +
|time=11h30
calcule un descripteur à base d'ondelettes pour chacune des images de
 
  +
}}
caractère. Ce sont ces descripteurs que nous classifions. L'étape de
 
  +
classification est actuellement basée sur un algorithme des k plus proches
 
  +
{{CSISeminarSpeaker
voisins (k-NN) multi-classe. Sachant que l'étape d'évaluation dépend
 
  +
|id=yeh.15.seminar
fortement de la taille de la base d'entraînement, cette dernière peut être
 
  +
|time=12h00
modifiée afin d'améliorer les scores. Notre travail se concentre sur ces
 
  +
}}
possibles améliorations de la base d'entraînement.
 
   
===== <span style="color:#00FF00">SPEAKER ID </span>=====
 
 
11h30 <span style="color:#0000FF">Compensation d'i-vecteur spécifique aux locuteurs dans la reconnaissance du locuteur</span> – <span style="color:#00FF00">JEAN-LUC BOUNTHONG</span>
 
11h30 <span style="color:#0000FF">Compensation d'i-vecteur spécifique aux locuteurs dans la reconnaissance du locuteur</span> – <span style="color:#00FF00">JEAN-LUC BOUNTHONG</span>
   

Revision as of 16:35, 20 May 2015

Lrde.png
Laboratoire de Recherche et Développement de l’EPITA
Séminaire des étudiants-chercheurs
28 January 2015
11h00-12h00, Amphi 1
http://www.lrde.epita.fr
EPITA / LRDE
14-16 rue Voltaire
94276 Le Kremlin-Bicêtre


11h00 Improving OCR k-NN classifier's training setAnthony Seure

One part of an OCR toolchain is to classify detected characters: they can be lowercase or capital letters, or digits. To do so, our OCR computes for each image of character an associated wavelet-based descriptor. This descriptor can then be classified. The classification step is currently based on a multiclass k-NN classifier. Since the testing step heavily depends on the number of samples of the training set, the latter can be modified to improve the scores. Our work is focused on the possible improvements of the training set.

OLENA

11h00 Improving OCR k-NN classifier's training setAnthony Seure

One part of an OCR toolchain is to classify detected characters: they can be lowercase or capital letters, or digits. To do so, our OCR computes for each image of character an associated wavelet-based descriptor. This descriptor can then be classified. The classification step is currently based on a multiclass k-NN classifier. Since the testing step heavily depends on the number of samples of the training set, the latter can be modified to improve the scores. Our work is focused on the possible improvements of the training set.

SPEAKER ID

11h30 Speaker specific i-vector channel compensation in speaker recognitionJean-Luc Bounthong

The i-vector is actually the state of the art in speaker verification. Efficient result was achieved using classifier such as Cosine Distance (CD). Howeverclassification is performed on a global channel compensated i-vector. In this study, we explore the possibility to enroll a speaker and define a speaker specific channel compensation using i-vector. The objective is to improve the classifier performance using our previous work on Self-Organizing Map to select suitable i-vector. We will compare the performance of our solution with the global channel compensated method.

12h00 Local channel compensated method in Speaker Recognition SystemJimmy Yeh

Currently, i-vectors become the standard representation of speech context in speaker and language recognition method. Cosine Distance (CD) is the most popular scoring method. It uses Linear Discriminant Analysis (LDA) and Within Class Covariance Normalization (WCCN) to reduce the channel variabilities. The aim of this work is to reduce channel variabilities locally before applying the CD. The idea is to create a large i-vector graph from a training dataset. After clustering it with community detection algorithmsthe target and the test i-vectors are projected into this graph. Only their neighborhood are selected to train the LDA and WCCN. Results will be compared with the global channel compensated method.

11h30 Compensation d'i-vecteur spécifique aux locuteurs dans la reconnaissance du locuteurJEAN-LUC BOUNTHONG

Les i-vecteurs représentent actuellement l'état de l'art dans le domaine de la vérification du locuteur. Des résultats intéressants sont obtenus à partir de classifieurs tels que la Distance Cosinus (CD). Cependant, le classifieur travaille sur des i-vecteurs après une compensation globale du canal. Dans cette étude, nous explorerons la possibilité de définir une compensation de canal spécifique à chaque locuteur. L'objectif est d'améliorer les performances du classifieur en se basant sur nos derniers travaux sur les cartes auto-organisatrices de Kohonen pour la sélection des i-vecteurs adaptés. Nous allons aussi comparer l'efficacité de notre méthode avec la méthode de compensation de canal globale.


12h00 Compensation locale du canal dans les systèmes de reconnaissance du locuteurJIMMY YEH

A l'heure actuelle, l'espace des i-vecteurs est devenu l’état de l’art pour les systèmes de reconnaissance du locuteur. La distance cosinus (CD) est la méthode de décision la plus utilisée. Elle utilise l'analyse discriminante linéaire (LDA) et la Within-Class Covariance Normalization (WCCN) afin de compenser globalement le canal. Le but de ce travail est de compenser localement le canal avant d'appliquer la CD. L'idée est de créer un graphe des i-vecteurs partitionné à l'aide d'algorithmes de détection de communautés, puis de projeter les segments test et target dans ce dernier. On sélectionne uniquement leur voisinage pour entrainer la LDA et la WCCN. Les résultats seront comparés avec la méthode de compensation globale.