Travailler avec l'audio
Il est possible d'enregistrer, dans VRmaze, des pistes audio en provenance du microphone de l'ordinateur. VRmaze utilisera le microphone par défaut de Windows pour ses enregistrements.
Sélection de la source audio
Il est possible, via les préférences du logiciel de spécifier un microphone par son indice dans la liste des microphones. Les préférences proposent en effet un paramètre permettant de sélectionner le microphone à utiliser. L'indice peut prendre n'importe quelle valeur positive basse (puisqu'il n'y a jamais des milliers de microphones branchés sur un ordinateur) représentant l'indice du microphone dans la liste. Il est aussi possible de spécifier la valeur -1, qui est celle appliquée par défaut, et qui permet d'utiliser automatiquement le microphone par défaut.
Enregistrer un flux audio
Deux possibilités sont offertes dans VRmaze. En fonction des besoins, il est possible d'enregistrer le flux audio d'une expérimentation complète, ou au contraire, d'enregistrer le flux audio essai par essai. L'entité permettant l'enregistrement est le microphone recorder
. Cette entité dispose de deux propriétés, l'une spécifiant le préfixe de nom de fichier son, et le second paramètre concerne la durée maximale d'enregistrement. Concernant le nom de fichier, seul un préfixe est nécessaire puisque le fichier audio sera enregistré dans le dossier SoundFiles
du dossier de données.
Durée maximale d'enregistrement
En-dehors de cette durée, le flux audio n'est plus enregistré. Il est toutefois important d'estimer au plus proche pour limiter l'impact sur l'utilisation de la mémoire. Dans le cas où l'essai se terminerait avant la fin de l'enregistrement, ce dernier est terminé et le fichier aura une longueur correspondante à l'essai accueillant l'enregistreur.
Compilation audio
VRmaze propose un outil de compilation audio permettant d'obtenir un fichier audio d'une expérimentation complète à partir de l'ensemble des enregistrements de tous les essais de l'expérimentation. Il est donc préférable d'utiliser l'enregistrement essai par essai.
Format de fichier
Le format de fichier audio est le .wav.
Relire un fichier son
VRmaze enregistre le son sous une forme spéciale, un DataRecord
spécifique nommé SoundDataRecord
. Ce conteneur ne contient aucune donnée audio, il ne contient que la référence vers le fichier audio au format .wav. L'interet de ce SoundDataRecord
est de permettre une visualisation graphique de la courbe audio en plus de pouvoir relire le fichier en question directement dans l'éditeur.
Stockage des données audio
La donnée audio n'est enregistrée que dans le fichier audio lié au DataRecord
. En cas de perte du fichier .wav, l'ensemble des données audio sont perdues.
Outil de compilation audio
VRmaze met à disposition un outil de compilation audio permettant de générer un fichier audio par expérimentation pour un protocole donné. La compilation va mettre bout à bout les fichiers audio des essais et marquer chaque début d'essai par un petit signal. Il est ainsi plus facile d'analyser le fichier audio avec ce marquage. Dans le cas où certains fichiers audio des essais seraient manquants, le fichier audio compilé comportera des séquences de signaux de la longueur de l'essai.
Travailler avec la reconnaissance audio
VRmaze repose sur l'IA VOSK pour permettre la reconnaissance audio en temps réel. Plusieurs considérations sont à prendre en compte pour permette une utilisation correcte. Il faut tout d'abord avoir un modèle d'IA entrainé. Des modèles sont téléchargeables ici : https://alphacephei.com/vosk/models
Pour intégrer un modèle d'IA VOSK dans VRmaze, il convient d'utiliser l'outil VOSK intégré a VRmaze :
Pour installer un modèle d'IA VOSK, il est necessaire de l'installer via le bouton associé (Un redémarrage de VRmaze sera alors necessaire) :
Utiliser l'IA de reconnaissance audio en temps réel
Pour utiliser l'IA de reconnaissance audio en temps réel, il convient d'ajouter un noeud spécifique de type "VOSK Speech Engine" qui convertira le flux audio en texte. par la suite, il sera possible de comparer le texte pour convenir du succès d'un essai par exemple.
Le gestionnaire de conversion audio vers texte dispose de plusieurs paramètres :
- son propre identifiant (permet l'utilisation de plusieurs modèles)
- L'identifiant du microphone
- Le nombre d'alternatives maximales
- Le modèle à utiliser (doit être téléchargé et installé en amont)
Le gestionnaire de conversion VOSK necessite l'utilisation d'une entité gérant le microphone de l'ordinateur (et dont l'identifiant est correctement spécifié). Seul le gestionnaire de microphone version 2 de VRmaze est compatible. Ce gestionnaire dispose des paramètres suivants :
- Son propre identifiant (doit correspondre a l'identifiant micro du gestionnaire VOSK)
- Le prefix du fihcier audio généré
- Le débit
- Le temps maximum d'enregistrement (maximum 3599 secondes)
- Un nom de périphérique (laisser vide prendra le microphone par défaut)
Avec cette configuration, il devient possible d'utiliser la reconnaissance audio comme condition de succès. Dans les essais, il est en effet possible d'ajouter un noeud de type "Success On speech" qui permettra l'arret de l'essai en cours en cas de rencontre d'un mot reconnu.
Les propriétés de ce noeud sont les suivantes :
- Identifiant du gestionnaire audio (doit correspondre à un identifiant du noeud VOSK Speech Engine)
- Un mot à reconnaitre
With this configuration, it becomes possible to use audio recognition as a success condition. In the trials, it is possible to add a ‘Success On speech’ type node which will stop the trial in progress if a recognised word is encountered.
The properties of this node are as follows:
- Audio manager identifier (must correspond to a VOSK Speech Engine node identifier)
- A word to be recognised