Thématiques

Résumé de mes thématiques et activités de recherche

IRISA – INRIA Rennes, équipe METISS

Étude et proposition de solutions rapides pour l’identification biométrique. Application à la vérification automatique du locuteur

Période : juin 2004 – octobre 2005
Détails des activités

Thématiques abordéees :

  • Reconnaissance automatique du locuteur, biométrie
  • Arbres de décision, classification
  • Modélisation statistiques des signaux
  • Détection et suivi de classes de sons

Laboratoire d’Informatique de l’Université du Maine, LIUM, Le Mans – équipe Parole

Analyses/Synthèses adaptives dans le plan temps-fréquence

Période : 1998 – 2003
Détails des activités

Mise en place d’une représentation adaptative aux signaux dans le plan temps-fréquence. Étude des critères d’adaptation et des bases de décomposition. L’adaptation est réalisée au moyen de critères entropiques locaux originaux dont l’étude théorique constitue un des apports du travail. Une décomposition fréquentielle adaptée est obtenue au moyen d’une décomposition en paquets d’ondelettes, pour laquelle une extension des bases dyadiques a été implementée.

La décomposition adaptative a été intégrée dans le développement d’un codeur audio, jusqu’à l’écriture du fichier compressé sous forme d’une trame binaire. Finalement des procédures d’évaluations subjectives de type comparaison absolue et aveugle ont été mises en place pour juger de la qualité des signaux encodés.

Thématiques abordées :

  • Segmentation automatique des signaux
  • Décomposition adapatives dans le plan temps-fréquence
  • Analyse multirésolution
  • Codage audio par transformée
  • Évaluations subjectives et critères psychoacoustiques

Laboratoire d’Acoustique de l’Université du Maine, LAUM UMR CNRS 6613

La transformée de Fourier Fractionnaire

1998 (6 mois)
Détails des activités

Étude et implémentation de la transformée de Fourier fractionnaire et de ses applications possibles au traitement du signal et à l’analyse de signaux acoustiques.

Thématiques de recherche :

  • Transformée de Fourier Fractionnaire
  • Filtrage adaptatif
  • Estimation de paramètres physiques

Département d’Informatique et de Systèmes Automatisés, DISCA de l’Université Polytechnique de Valencía, Espagne

Liaison d’un caméra digitale à un réseau local CAN

1997 (5 mois)
Détails des activités

Thématiques abordées :

  • Réseau locaux industriels
  • Protocole communication série par bus CAN
  • Interfaçage et communication Webcam-microcontrôleur
  • Automatique temps-réel

Descriptif des recherches

Doctorat d’informatique, Unversité du Maine [retour en haut]

Proposition d’un schéma d’analyse/synthèse adaptatif dans le plan temps-fréquence basé sur des critères entropiques. Application au codage audio.

Directeurs : Marc Baudry et Silvio Montrésor

Résumé

Les représentations adaptées contribuent à l’étude et au traitement des informations portées par les signaux en permettant une analyse pertinente différente pour chaque signal. Les solutions existantes proposent des critères d’adaptation dans les domaines temporel et fréquentiel mais souffrent d’un manque de souplesse des critères pour une représentation adaptée dans le plan temps-fréquence.

Ce travail de thèse porte sur l’élaboration d’une représentation utilisant successivement des segmentations temporelle et fréquentielle adaptées au signal plus souples que les solutions existantes. Le schéma proposé est appliqué dans un codeur perceptuel par transformée de type haute fidélité.

Le schéma de représentation développé segmente tout d’abord le signal temporellement à l’aide d’un critère entropique local. Pour cela, un estimateur d’entropie locale est étudié analytiquement et le critère fournit un indice des variations d’entropie du signal propice à une segmentation automatique séparant les zones transitoires et les zones stationnaires. Les tranches temporelles ainsi délimitées sont alors décomposées en paquets d’ondelettes et une recherche de la meilleure base permet l’adaptation en fréquence de la représentation. À ce titre, une extension de la recherche de meilleure base est proposée pour augmenter le dictionnaire des bases disponibles par rapport au cas dyadique. À l’issue de cette analyse le signal est localisé dans des atomes du plan temps-fréquence.

Dans la partie application, un schéma de codage orginal permettant l’inclusion de notre représentation est présenté. Le détail de l’implémentation du codeur est fourni jusqu’à la composition de la trame binaire. Ce codeur est ensuite évalué par des tests subjectifs comparant les signaux compressés aux originaux et aux signaux du standard MPEG-1 Layer 3 pour un débit de 96 kbit/s.

Les résultats montrent que l’utilisation du schéma de représentation adapté dans un codeur est compétitive avec les solutions des codeurs standards, bien que de nombreuses améliorations soient encore possibles.

Apports et réutilisation des travaux

Cette thèse apportent deux outils différents d’analyse/synthèse dans le plan temps-fréquence des signaux. Le premier est l’estimateur d’entropie locale et son application à la segmentation temporelle. Le second apport réside dans les originalités du schéma de transformation temps-fréquence, au niveau de l’utilisation couplée des critères entropiques pour la décision de segmentation et d’allocation. Le schéma de représentation proposé possède un degré de liberté dans le choix de l’ordre d’application des critères. Cette souplesse d’adaptation du schéma proposé ouvre différentes perspectives d’application comme la possibilité d’accroître à la fois la finesse et la robustesse au bruit de la segmentation temporelle ou la possibilités d’utiliser le critère pour choisir différentes stratégies de transformation dans une application de codage.

Par ailleurs, l’application au codage audio et les différentes transformations implémentées ont fait l’objet de développement de plusieurs interfaces Matlab, de type boîtes à outils, réalisées autant à des fins pédagogiques et de démonstration qu’à des fins de reglage des différents paramètres. Ces boîtes à outils sont distribués en licence libre.

Mots clés

Représentation temps fréquence adaptative, segmentation automatique, décomposition en paquets d’ondelettes, banc de filtres, codage audio, estimation, entropie.

Publications relatives

  • [2]
  • [3]
  • [5]
  • [6]
  • [8]
  • [9]

Contrat Ingénieur expert INRIA Rennes/IRISA, équipe METISS

Projet Européen InspireD, FP6-IST-2003-507894

Responsable scientifique : Frédéric Bimbot

Cadre des travaux :

Le projet Inspired (Integrated Secure Platform for Interactive Personal Devices) rassemble les principaux fabriquants et fondeurs européens de cartes à puce pour élaborer une réflexion commune sur la prochaine génération de périphériques mobiles (e.g. téléphones portables, cartes à puce, palm, …), notamment sur les enjeux matériels et logiciels relatifs à la sécurité et à la confidentialité. Dans ce contexte, l’IRISA doit étudier et proposer des solutions rapides pour l’identification biométrique, principalement la vérification automatique du locuteur.

Les principales caractéristiques biométriques sont les empreintes digitales, l’iris, le visage, la géométrie de la main et la voix. Pour chaque modalité, un lot de descripteurs propices à la création d’un modèle statistique discriminant de l’individu est extrait du signal correspondant (phase d’apprentissage). La phase de vérification consiste alors soit en une mesure de vraisemblance d’une donnée test par rapport au modèle de l’individu soit en une mesure de similarité entre un modèle construit sur des données test et le modèle appris pour l’individu.

Les performances d’un système d’identification sont évaluées de manière statistique en terme de taux de fausses acceptations (FAR) et de faux rejets (FRR), classiquement représentés par les courbes DET, decision error trade-off. Le taux d’erreurs égales, EER obtenu pour FAR=FRR, est un bon indice des performances globales du système.

Les techniques de l’état de l’art sont souvent coûteuses en ressources mémoires (stockage des modèles) et en puissance de calcul (rapports de vraisemblance ou divergence), ce qui limite d’une part leur portage sur des systèmes embarqués comme les cartes à microprocesseurs et d’autre part leur utilisation pour l’indexation rapide de gros volumes de données.

Résumé

Les techniques de l’état de l’art en reconnaissance du locuteur utilisent les coefficients cepstraux, delta cepstraux et l’énergie comme descripteurs du signal de parole. Un modèle de mélange de gaussiennes (GMM) de l’individu est appris à partir d’un modèle générique de locuteur, dit modèle du monde, par critère de maximum à posteriori. Les mesures typiquement utilisées pour la vérification sont le log rapport de vraisemblance de chaque trame acoustique avec le modèle ou encore la divergence de Kullback-Liebler entre deux modèles GMM.

Ces travaux s’inscrivent dans les perspectives de la thèse de R. Blouet et utilisent les arbres de décisions pour estimer à faible coût la fonction du log rapport de vraisemblance (LLR). Les techniques à base d’arbres de décisions permettent de réduire sensiblement les ressources nécessaires mais ne donne pas des performances équivalentes à l’état de l’art. Afin d’améliorer ces performances, deux principales approches ont été étudiées:
La première amélioration significative consiste à utiliser les connaissances a priori sur les modèles GMM pour l’apprentissages des abres. Les modèles GMM de chaque locuteur sont appris par adaptation de la moyenne de chaque gaussienne du modèle du monde. Ce principe de construction des GMM permet de définir une direction optimale pour la discrimination gaussienne par gaussienne des GMM du locuteur et du monde. La projection des coefficients suivant ces directions revient à construire des arbres de décisions obliques en imposant un jeu d’hyperplans localement optimaux.
La seconde amélioration consiste à affecter a posteriori à chaque feuille de l’arbre une fonction de score simple. Deux stratégies ont été étudiées: exploiter les propriétés statistiques des données d’apprentissage dans chaque feuille (critère de pureté) ou d’utiliser les valeurs réelles du LLR pour affecter un score moyen par région ou une fonction linéaire du score obtenue par regression linéaire multiple.
Ainsi pour un EER du système de référence à 8.6%, ces deux apports permettent de passer d’un EER entre 16% et 18% avec la méthode CART seule à un EER entre 11% et 12%.

De manière plus générique, la combinaison de ces deux apports sur la construction des arbres de décisions permet d’utiliser les arbres comme une méthode d’approximation d’une fontion multidimensionnelle complèxe par une fonction linéaire par morceaux. L’augmentation de la taille des arbres correspond alors au nombre de régions pour l’approximation de la fonction.

Perspectives

Une perspective directe de ce travail est l’intégration à la phase de création des arbres des critères cohérents avec la fonction d’affectation de score utilisée a posteriori (corrélation et erreurs des moindres carrés pour la régression linéaire multiple).

Du point de vue applicatif, il sera intéressant d’utiliser des arbres pour la reconnaissance des locuteurs en temps-réel sur un flux audio.

Enfin, à moyen terme, il serait intéressant d’étendre les techniques d’arbres de décision à d’autres classes de signaux que les locuteurs, dans d’autres domaines où sont utilisés les GMM (e.g. pour l’audio, la classification parole/musique/bruit, ou les classes d’instruments).

Activités menées dans le cadre du projet et de l’équipe METISS

  • Participation active aux groupes de travail européens,
  • Réflexion sur la généricité de la vérification biométrique
  • Rédaction de rapports d’activité et déliverables,
  • Participation à la campagne d’évaluation NIST 2005 en reconnaissance du locuteur
  • Contribution à la réalisation de démonstrations grand public pour la fête de la science (10/2005).

Mots clés

Biométrie, reconnaissance automatique du locuteur, arbres de décision, systèmes embarqués, traitement statistique du signal, classification.

Publications relatives

  • « Material requirements for biometrics »: Déliverable sur les contraintes matérielles et algorithmiques liées à l’authentification biométrique sur carte à puce.
  • Rédaction d’un article à soumettre dans une revue internationale décrivant et comparant les différentes méthodes utilisant les arbres de décision pour la reconnaissance automatique du locuteur.

Laboratoire d’Acoustique de l’Université du Maine, LAUM UMR CNRS 6613

La transformée de Fourier Fractionnaire

Directeur de stage : Claude Depollier

Résumé

Il est fréquent de voir les espaces temps et fréquence comme deux espaces orthogonaux, le passage de l’un à l’autre s’effectuant par la transformée de Fourier. Les distributions temps fréquence utilisent en effet cette orthogonalité comme principe pour leurs représentations dans le plan dit temps-fréquence. Pourtant, cette orthogonalité trouve une justification mathématique et il est maintenant possible par l’intermédiaire de la transformée de Fourier fractionnaire (FRFT) de représenter le signal dans des domaines intermédiaires formant un angle non droit par rapport à l’espace temps.

Ce travail a porté sur la transformée de Fourier fractionnaire (FRFT) et quelques unes de ses applications, notamment pour le traitement du signal et le calcul analytique. Un algorithme de FRFT basé sur la FFT y est proposé et est appliqué à l’analyse de signaux à base de sinus glissants pour lesquels la FRFT semble particulièrement bien adaptée. Enfin, la relation entre la Transformée de Fourier et la Transformée en échelle est utilisée pour étendre le principe d’opérateur fractionnaire et introduire la transformée en échelle fractionnaire.

Poursuite des travaux

J’ai poursuivi le travail sur l’étude et l’implémentation de la FRFT effectué en DEA durant mes années de thèse pour développer une interface de type boîte à outils pour Matlab. Cette boîte à outils permet de visualiser la FRFT pour différents angles et de réaliser des opérations de filtrage dans les domaines fractionnaires.

L’utilisation de cette boîte a permis d’appliquer des traitements originaux à l’analyse de signaux expérimentaux de propagation d’ondes acoustiques. L’utilisation de la FRFT a notamment permis de séparer les ondes de Biot rapides et lentes générées lors de la propagation dans un milieu poreux. Plus récemment, l’analyse par FRFT a permis d’analyser des non-linéarités dans un réseau acoustique. Cette application ouvre deux perspectives : d’une part, il devient possible d’effectuer un bilan de répartition de l’energie dans le plan temps-fréquence et d’autre part, elle ouvre de nouvelles perspectives sur les techniques d’analyse de systèmes physiques par sinus glissants linéaires.

Mots Clés

Fourier fractionnaire, analyse temps-fréquence, algorithme discret, filtrage optimal, détection de sinus glissants, ondes de Biot, réseau acoustique, non-linéaire.

Publications relatives

  • [1]
  • [4]
  • [7]

Département d’Informatique et de Systèmes Automatisés, DISCA de l’Université Polytechnique de Valencía, Espagne

Liaison d’une caméra digitale au réseau CAN

Directeurs de stage : Juan José Serrano (DISCA), Guy Dehay (ENSEA)

Résumé

Le bus CAN, « Controler Area Network », normalisé en 1992 sous la norme ISO 11898, constitue un réseau local qui trouve de nombreuses applications industrielles dans les domaines de l’automobile, du textile ou encore dans le domaine médical. Le projet auquel j’ai participé avait pour but la réalisation d’un système d’automatisation de tâches agricoles dans lequel les différents agents du systèmes sont reliés entre eux et communiquent par l’intermédiaire d’un bus CAN. Les différents types d’éléments du réseau sont des éléments contrôleurs qui se comportent comme des capteurs intelligents, des agents intelligents dotés d’une certaine autonomie et d’une capacité à prendre des décisions et des dispositifs d’entrées/sorties qui permettent l’accès au réseau.

Afin d’automatiser une tâche de tri des légumes par calibre, mon travail à porter sur l’étude de la liaison d’une caméra de type webcam comme contrôleur envoyant des images pour traitement à un PC via le bus CAN. Une carte comprenant tous les éléments nécessaires à la connection d’un capteur au bus CAN a été réalisée par Pedro Yuspe dans le cadre de sa thèse. Cette carte utilise un bus PC/104 pour assurer la connection d’un ou plusieurs capteurs et intègre notamment un microcontrôleur 8051 réalisant les tâches de contrôle.

Dans ce projet, j’ai d’une part conçu la carte assurant l’interface entre le port parallèle de la caméra et le bus PC/104, et d’autre part programmé le microcontrôleur 8051 pour assurer la transmission des signaux de la caméra au réseau CAN ainsi que la possibilité de régler différents paramètres de la caméra, tels que la taille de l’image ou son intensité. La récupération des images et leur traitement pour l’application considérée est effectuée au niveau d’un PC et constituait la suite du projet.

Note sur le stage

Bien qu’étant un stage de type projet de fin d’étude ingénieur, ce stage a intégré une composante recherche de par son contexte de déroulement au sein du laboratoire d’automatisme DISCA et la collaboration avec les différents doctorants et membres du laboratoire sur le projet du réseau CAN.

Mots Clés

Réseaux locaux industriel, bus CAN, capteurs intelligents, programmation microcontrôleur, bus PC/104, protocole de communication webcam, automatisme temps-réel.