Aller au contenu

Travailler avec l'audio

Il est possible d'enregistrer, dans MindDev, des pistes audio en provenance du microphone de l'ordinateur. MindDev utilisera le microphone par défaut de Windows pour ses enregistrements.

Gestion de l'audio

L'enregistrement audio necessite deux entités :

  • Le gestionnaire de microphone
  • L'enregistreur de microphone

Le gestionnaire de microphone dispose des paramètres suivants :

  • Un identifiant de périphérique
  • Un prefix de nom de fichier
  • Un débit (par défaut 44100)
  • Un temps d'enregistrement maximum (par défaut 3599)
  • Un nom de périphérique
  • Une option pour utiliser le processeur de voix

Image title 2

Le gestionnaire de microphone.

Enregistrement complet du microphone

Le gestionnaire de microphone génèrera un fihcier audio de la passation complète.

Nom de périphérique Microphone

Le nom du microphone peut rester vide. Par défaut MindDev utilisera le microphone par défaut de l'ordinateur

Temps d'enregistrement maximal du microphone

Le temps maximal d'enregistrement du micro est de 1h moins 1 seconde.

Enregistrer un flux audio

L'enregistrement des données audio s'effectuent de la même manière qu'un autre périphérique. Il convient d'ajouter une entité d'enregistrement du microphone en spécifiant l'identifiant du gestionnaire de microphone à utiliser et possiblement le prefix de nom de fichier.

Un fichier audio sera généré pour chaque essai, en plus de l'enregistrement complet du gestionnaire.

Image title 2

L'enregistreur de microphone.

Compilation audio

MindDev propose un outil de compilation audio permettant d'obtenir un fichier audio d'une expérimentation complète à partir de l'ensemble des enregistrements de tous les essais de l'expérimentation. Il est donc préférable d'utiliser l'enregistrement essai par essai.

Format de fichier

Le format de fichier audio est le .wav.

Relire un fichier son

Image title 2

Le SoundDataRecord et sa représentation graphique.

MindDev enregistre le son sous une forme spéciale, un DataRecord spécifique nommé SoundDataRecord. Ce conteneur ne contient aucune donnée audio, il ne contient que la référence vers le fichier audio au format .wav. L'interet de ce SoundDataRecord est de permettre une visualisation graphique de la courbe audio en plus de pouvoir relire le fichier en question directement dans l'éditeur.

Stockage des données audio

La donnée audio n'est enregistrée que dans le fichier audio lié au DataRecord. En cas de perte du fichier .wav, l'ensemble des données audio sont perdues.

Outil de compilation audio

MindDev met à disposition un outil de compilation audio permettant de générer un fichier audio par expérimentation pour un protocole donné. La compilation va mettre bout à bout les fichiers audio des essais et marquer chaque début d'essai par un petit signal. Il est ainsi plus facile d'analyser le fichier audio avec ce marquage. Dans le cas où certains fichiers audio des essais seraient manquants, le fichier audio compilé comportera des séquences de signaux de la longueur de l'essai.

Image title 2

Un fichier audio compilé avec quelques données manquantes ouvert dans Audacity.

Travailler avec la reconnaissance audio

MindDev repose sur l'IA VOSK pour permettre la reconnaissance audio en temps réel. Plusieurs considérations sont à prendre en compte pour permette une utilisation correcte. Il faut tout d'abord avoir un modèle d'IA entrainé. Des modèles sont téléchargeables ici : https://alphacephei.com/vosk/models

Pour intégrer un modèle d'IA VOSK dans MindDev, il convient d'utiliser l'outil VOSK intégré a MindDev :

Image title 2

L'outil VOSK de reconnaissance Audio par l'IA de MindDev.

Pour installer un modèle d'IA VOSK, il est necessaire de l'installer via le bouton associé (Un redémarrage de MindDev sera alors necessaire) :

Image title 2

Le bouton d'installation d'un modèle d'IA audio.

Utiliser l'IA de reconnaissance audio en temps réel

Pour utiliser l'IA de reconnaissance audio en temps réel, il convient d'ajouter un noeud spécifique de type "VOSK Speech Engine" qui convertira le flux audio en texte. par la suite, il sera possible de comparer le texte pour convenir du succès d'un essai par exemple.

Image title 2

Le gestionnaire global de conversion en texte.

Reconnaissance audio temps réel

La reconnaissance VOSK necessite d'activer l'option "Use Voice Processor" du gestionnaire de microphone associé par l'identifiant.

Le gestionnaire de conversion en texte dispose de plusieurs paramètres :

  • Un Identifiant
  • L'identifiant du gestionnaire de microphone
  • Le nombre maximal d'alternatives
  • Le modèle à utiliser.

Avec cette configuration, il devient possible d'utiliser la reconnaissance audio comme condition de succès. Dans les essais, il est en effet possible d'ajouter un noeud de type "Success On speech" qui permettra l'arret de l'essai en cours en cas de rencontre d'un mot reconnu.

Les propriétés de ce noeud sont les suivantes :

  • Identifiant du gestionnaire audio (doit correspondre à un identifiant du noeud VOSK Speech Engine)
  • Un mot à reconnaitre

Image title 2

Le succès "Success on Speech".