Aller au contenu

Travailler avec l'audio

Il est possible d'enregistrer, dans VRmaze, des pistes audio en provenance du microphone de l'ordinateur. VRmaze utilisera le microphone par défaut de Windows pour ses enregistrements.

Sélection de la source audio

Il est possible, via les préférences du logiciel de spécifier un microphone par son indice dans la liste des microphones. Les préférences proposent en effet un paramètre permettant de sélectionner le microphone à utiliser. L'indice peut prendre n'importe quelle valeur positive basse (puisqu'il n'y a jamais des milliers de microphones branchés sur un ordinateur) représentant l'indice du microphone dans la liste. Il est aussi possible de spécifier la valeur -1, qui est celle appliquée par défaut, et qui permet d'utiliser automatiquement le microphone par défaut.

Enregistrer un flux audio

Deux possibilités sont offertes dans VRmaze. En fonction des besoins, il est possible d'enregistrer le flux audio d'une expérimentation complète, ou au contraire, d'enregistrer le flux audio essai par essai. L'entité permettant l'enregistrement est le microphone recorder. Cette entité dispose de deux propriétés, l'une spécifiant le préfixe de nom de fichier son, et le second paramètre concerne la durée maximale d'enregistrement. Concernant le nom de fichier, seul un préfixe est nécessaire puisque le fichier audio sera enregistré dans le dossier SoundFiles du dossier de données.

Durée maximale d'enregistrement

En-dehors de cette durée, le flux audio n'est plus enregistré. Il est toutefois important d'estimer au plus proche pour limiter l'impact sur l'utilisation de la mémoire. Dans le cas où l'essai se terminerait avant la fin de l'enregistrement, ce dernier est terminé et le fichier aura une longueur correspondante à l'essai accueillant l'enregistreur.

Compilation audio

VRmaze propose un outil de compilation audio permettant d'obtenir un fichier audio d'une expérimentation complète à partir de l'ensemble des enregistrements de tous les essais de l'expérimentation. Il est donc préférable d'utiliser l'enregistrement essai par essai.

Format de fichier

Le format de fichier audio est le .wav.

Relire un fichier son

Image title 2

Le SoundDataRecord et sa représentation graphique.

VRmaze enregistre le son sous une forme spéciale, un DataRecord spécifique nommé SoundDataRecord. Ce conteneur ne contient aucune donnée audio, il ne contient que la référence vers le fichier audio au format .wav. L'interet de ce SoundDataRecord est de permettre une visualisation graphique de la courbe audio en plus de pouvoir relire le fichier en question directement dans l'éditeur.

Stockage des données audio

La donnée audio n'est enregistrée que dans le fichier audio lié au DataRecord. En cas de perte du fichier .wav, l'ensemble des données audio sont perdues.

Outil de compilation audio

VRmaze met à disposition un outil de compilation audio permettant de générer un fichier audio par expérimentation pour un protocole donné. La compilation va mettre bout à bout les fichiers audio des essais et marquer chaque début d'essai par un petit signal. Il est ainsi plus facile d'analyser le fichier audio avec ce marquage. Dans le cas où certains fichiers audio des essais seraient manquants, le fichier audio compilé comportera des séquences de signaux de la longueur de l'essai.

Image title 2

Un fichier audio compilé avec quelques données manquantes ouvert dans Audacity.

Travailler avec la reconnaissance audio

VRmaze repose sur l'IA VOSK pour permettre la reconnaissance audio en temps réel. Plusieurs considérations sont à prendre en compte pour permette une utilisation correcte. Il faut tout d'abord avoir un modèle d'IA entrainé. Des modèles sont téléchargeables ici : https://alphacephei.com/vosk/models

Pour intégrer un modèle d'IA VOSK dans VRmaze, il convient d'utiliser l'outil VOSK intégré a VRmaze :

Image title 2

L'outil VOSK de reconnaissance Audio par l'IA de VRmaze.

Pour installer un modèle d'IA VOSK, il est necessaire de l'installer via le bouton associé (Un redémarrage de VRmaze sera alors necessaire) :

Image title 2

Le bouton d'installation d'un modèle d'IA audio.

Utiliser l'IA de reconnaissance audio en temps réel

Pour utiliser l'IA de reconnaissance audio en temps réel, il convient d'ajouter un noeud spécifique de type "VOSK Speech Engine" qui convertira le flux audio en texte. par la suite, il sera possible de comparer le texte pour convenir du succès d'un essai par exemple.

Image title 2

Le gestionnaire global de conversion en texte.

Le gestionnaire de conversion audio vers texte dispose de plusieurs paramètres :

  • son propre identifiant (permet l'utilisation de plusieurs modèles)
  • L'identifiant du microphone
  • Le nombre d'alternatives maximales
  • Le modèle à utiliser (doit être téléchargé et installé en amont)

Le gestionnaire de conversion VOSK necessite l'utilisation d'une entité gérant le microphone de l'ordinateur (et dont l'identifiant est correctement spécifié). Seul le gestionnaire de microphone version 2 de VRmaze est compatible. Ce gestionnaire dispose des paramètres suivants :

  • Son propre identifiant (doit correspondre a l'identifiant micro du gestionnaire VOSK)
  • Le prefix du fihcier audio généré
  • Le débit
  • Le temps maximum d'enregistrement (maximum 3599 secondes)
  • Un nom de périphérique (laisser vide prendra le microphone par défaut)

Image title 2

Le gestionnaire de microphone.

Avec cette configuration, il devient possible d'utiliser la reconnaissance audio comme condition de succès. Dans les essais, il est en effet possible d'ajouter un noeud de type "Success On speech" qui permettra l'arret de l'essai en cours en cas de rencontre d'un mot reconnu.

Les propriétés de ce noeud sont les suivantes :

  • Identifiant du gestionnaire audio (doit correspondre à un identifiant du noeud VOSK Speech Engine)
  • Un mot à reconnaitre

Image title 2

Le succès "Success on Speech".

With this configuration, it becomes possible to use audio recognition as a success condition. In the trials, it is possible to add a ‘Success On speech’ type node which will stop the trial in progress if a recognised word is encountered.

The properties of this node are as follows:

  • Audio manager identifier (must correspond to a VOSK Speech Engine node identifier)
  • A word to be recognised

Image title 2

The ‘Success on Speech’ success.