CONNEXION

  • Abonnement
  • Publicité
  • Contact
  • Guide industrie
  • Vidéos
  • Podcasts
  • magazine CONVERGENCE
  • Boutique
  • Numérique
  • Jeux Vidéo
  • Mobile
  • Animation
  • Informatique
  • Arts Médiatiques
  • Marketing
  • Musique
  • Industrie
  • Réalité virtuelle
  • Intelligence artificielle
  • Startups
  • Artisans du numérique
  • Conseils d’experts
  • Exclusifs
  • RECEVEZ GRATUITEMENT
    LE BULLETIN QUOTIDIEN [voir un exemple]

    Jahangir Alam compare l’approche modulaire à l’approche de bout en bout pour l’anti-usurpation de la voix Jahangir Alam (CRIM). Photo: Oriane Morriet

    Jahangir Alam compare l’approche modulaire à l’approche de bout en bout pour l’anti-usurpation de la voix

    14 décembre 2019, 08h15
         |      Article rédigé par Oriane Morriet     

    Intitulée « L’anti-usurpation de la voix : l’approche modulaire versus l’approche de bout en bout », et donnée à l’occasion de la Journée Techno du CRIM sur la Désinformation à l’ère de l’intelligence artificielle, la conférence de Jahangir Alam se présente comme une comparaison de l’efficacité respective des deux approches pour lutter contre l’usurpation de la voix. Après avoir rappelé la définition de l’usurpation de la voix, le chercheur s’est attaché à décrire en détail le fonctionnement de l’approche modulaire, puis de l’approche de bout en bout. Retour sur la conférence de Jahangir Alam, chercheur en traitement automatique de la parole au CRIM, pour savoir laquelle des deux approches a ses faveurs.

    En introduction de sa conférence, Jahangir Alam s’est attaché à définir les différentes techniques d’usurpation de la voix. Les systèmes de reconnaissance de la voix se fondent sur l’identification d’un interlocuteur par la reconnaissance du son de sa voix. « C’est un système d’association », affirme le chercheur. L’usurpation de la voix a lieu lorsque le système de reconnaissance est floué. En simulant la voix particulière d’un interlocuteur, les criminels provoquent une identification erronée. Dans le cas d’un système de sécurité fondé sur la reconnaissance de la voix, on comprend qu’une telle situation présente de grands dangers.

    Les systèmes de reconnaissance de la voix sont en effet souvent utilisés pour l’accès aux appareils électroniques, l’accès au domicile, sur des comptes de commerce en ligne, sur les comptes bancaires, pour les appareils électroménagers, etc. Ces systèmes sont de plus en plus répandus dans les centres d’appel, les cliniques et les hôpitaux canadiens parce qu’ils permettent un gain de temps, de ressources financières et de ressources humaines. « Certaines applications mobiles reposent sur le principe de l’usurpation de la voix. Vous enregistrez oralement une phrase et le système la retransmet dans le style de Donald Trump », rapporte Jahangir Alam.

    Ces systèmes de reconnaissance de la voix ont connu plusieurs attaques ces dernières années. Les techniques sur lesquelles reposent ces attaques sont diverses et variées : la voix de synthèse, la conversion de la voix, le replay ou l’incarnation. « Le replay consiste à enregistrer la voix de l’interlocuteur et à jouer l’enregistrement face au système. L’incarnation consiste à la reproduction de la voix de l’interlocuteur par un autre individu. Les systèmes restent vulnérables à ces types d’attaques, même si ceux-ci ne sont souvent pas très efficaces », confie Jahangir Alam. Ils sont cependant souvent utilisés parce qu’ils ne requièrent pas un niveau de technicité élevé.

    La conversion de la voix et la voix de synthèse demandent, quant à elles, un besoin de technologie poussée. Il faut, par exemple, connaître le fonctionnement des algorithmes d’intelligence artificielle. « Ces types d’attaques sont des menaces sérieuses parce qu’elles sont très efficaces », déclare Jahangir Alam.

    Il existe deux méthodes principales pour contrer les différentes techniques d’usurpation de la voix : l’approche modulaire à l’approche de bout en bout. Les deux approches permettent, différemment, d’identifier si la phrase a été modifiée en analysant s’il y a eu des distorsions dans le spectre du fichier audio, des changements de dynamique dans le flux de paroles, des coupes d’information dans la phrase, etc. Ce système de détection peut toutefois être fragilisé si le système lui-même coupe des parties de l’audio, applique des filtres, prédécoupe l’enregistrement, ou normalise le son.

    En résumé, l’approche modulaire pour les mesures contre l’usurpation de la voix permet d’extraire les données locales et globales dans un premier temps, puis de classer les informations selon leur score grâce à un processeur (GMM, SVM, etc). Pour l’approche de bout en bout, l’équipe de chercheurs utilise cette fois le RESNET/LCNN (ResNet-18 layers, of LCNN-9 layers, LCNNN-29). Ce système a l’avantage d’éliminer de lui-même les informations non pertinentes. « Le SincNet fonctionne bien lorsqu’il s’agit d’attaques connues, mais performe moins bien lorsque ces attaques ne sont pas connues », ajoute Jahangir Alam. En termes de comparaison, l’approche modulaire performe mieux lors des attaques fondées sur la voix de synthèse ou la conversion de la voix, tandis que l’approche de bout en bout fonctionne mieux pour contrer les attaques reposant sur le replay ou d’incarnation.

    Cet article sera intégré au Guide de l’industrie: : INTELLIGENCE ARTIFICIELLE, un ouvrage de référence unique pour comprendre les rouages de l’industrie québécoise de l’intelligence artificielle : ses entreprises, ses personnalités, les grands centres de recherche, les processus, les marchés, les considérations économiques, éthiques, ses forces et les défis qui l’animent.

    Il est possible de commander, de contribuer ou de soutenir cette publication en > cliquant ici <.

    https://bit.ly/2OOhYbn - [email protected]

    Sur le même sujet

    Intéressé.e à reproduire un article, une photo ou une vidéo ?

    En bénéficiant de notre licence de reproduction, vous pourrez :

    • publier un article dans vos sites Web, dans vos infolettres, dans vos réseaux sociaux, etc.
    • en modifier la longueur
    • recevoir les photos (et vidéos, si applicable) en haute résolution
    • publier les photos (et vidéos, si applicable) dans vos sites Web, dans vos infolettres, dans vos réseaux sociaux, etc.
    • le contenu devient public sur notre plateforme, ce qui vous octroie encore plus de visibilité

    Sous réserve que les droits sur les contenus que vous souhaitez reproduire (textes, photos ou vidéos) nous appartiennent.

    DERNIERS ARTICLES

    Druide lance « Antidote : le jeu »

    Druide lance « Antidote : le jeu »

    Suite
    2 décembre 2024, 10h25
    Alithya acquiert XRM Vision

    Alithya acquiert XRM Vision

    Suite
    2 décembre 2024, 10h00