Travailler avec l'audio
Il est possible d'enregistrer, dans MindDev, des pistes audio en provenance du microphone de l'ordinateur. MindDev utilisera le microphone par défaut de Windows pour ses enregistrements.
Gestion de l'audio
L'enregistrement audio necessite deux entités :
- Le gestionnaire de microphone
- L'enregistreur de microphone
Le gestionnaire de microphone dispose des paramètres suivants :
- Un identifiant de périphérique
- Un prefix de nom de fichier
- Un débit (par défaut 44100)
- Un temps d'enregistrement maximum (par défaut 3599)
- Un nom de périphérique
- Une option pour utiliser le processeur de voix
Enregistrement complet du microphone
Le gestionnaire de microphone génèrera un fihcier audio de la passation complète.
Nom de périphérique Microphone
Le nom du microphone peut rester vide. Par défaut MindDev utilisera le microphone par défaut de l'ordinateur
Temps d'enregistrement maximal du microphone
Le temps maximal d'enregistrement du micro est de 1h moins 1 seconde.
Enregistrer un flux audio
L'enregistrement des données audio s'effectuent de la même manière qu'un autre périphérique. Il convient d'ajouter une entité d'enregistrement du microphone en spécifiant l'identifiant du gestionnaire de microphone à utiliser et possiblement le prefix de nom de fichier.
Un fichier audio sera généré pour chaque essai, en plus de l'enregistrement complet du gestionnaire.
Compilation audio
MindDev propose un outil de compilation audio permettant d'obtenir un fichier audio d'une expérimentation complète à partir de l'ensemble des enregistrements de tous les essais de l'expérimentation. Il est donc préférable d'utiliser l'enregistrement essai par essai.
Format de fichier
Le format de fichier audio est le .wav.
Relire un fichier son
MindDev enregistre le son sous une forme spéciale, un DataRecord
spécifique nommé SoundDataRecord
. Ce conteneur ne contient aucune donnée audio, il ne contient que la référence vers le fichier audio au format .wav. L'interet de ce SoundDataRecord
est de permettre une visualisation graphique de la courbe audio en plus de pouvoir relire le fichier en question directement dans l'éditeur.
Stockage des données audio
La donnée audio n'est enregistrée que dans le fichier audio lié au DataRecord
. En cas de perte du fichier .wav, l'ensemble des données audio sont perdues.
Outil de compilation audio
MindDev met à disposition un outil de compilation audio permettant de générer un fichier audio par expérimentation pour un protocole donné. La compilation va mettre bout à bout les fichiers audio des essais et marquer chaque début d'essai par un petit signal. Il est ainsi plus facile d'analyser le fichier audio avec ce marquage. Dans le cas où certains fichiers audio des essais seraient manquants, le fichier audio compilé comportera des séquences de signaux de la longueur de l'essai.
Travailler avec la reconnaissance audio
MindDev repose sur l'IA VOSK pour permettre la reconnaissance audio en temps réel. Plusieurs considérations sont à prendre en compte pour permette une utilisation correcte. Il faut tout d'abord avoir un modèle d'IA entrainé. Des modèles sont téléchargeables ici : https://alphacephei.com/vosk/models
Pour intégrer un modèle d'IA VOSK dans MindDev, il convient d'utiliser l'outil VOSK intégré a MindDev :
Pour installer un modèle d'IA VOSK, il est necessaire de l'installer via le bouton associé (Un redémarrage de MindDev sera alors necessaire) :
Utiliser l'IA de reconnaissance audio en temps réel
Pour utiliser l'IA de reconnaissance audio en temps réel, il convient d'ajouter un noeud spécifique de type "VOSK Speech Engine" qui convertira le flux audio en texte. par la suite, il sera possible de comparer le texte pour convenir du succès d'un essai par exemple.
Reconnaissance audio temps réel
La reconnaissance VOSK necessite d'activer l'option "Use Voice Processor" du gestionnaire de microphone associé par l'identifiant.
Le gestionnaire de conversion en texte dispose de plusieurs paramètres :
- Un Identifiant
- L'identifiant du gestionnaire de microphone
- Le nombre maximal d'alternatives
- Le modèle à utiliser.
Avec cette configuration, il devient possible d'utiliser la reconnaissance audio comme condition de succès. Dans les essais, il est en effet possible d'ajouter un noeud de type "Success On speech" qui permettra l'arret de l'essai en cours en cas de rencontre d'un mot reconnu.
Les propriétés de ce noeud sont les suivantes :
- Identifiant du gestionnaire audio (doit correspondre à un identifiant du noeud VOSK Speech Engine)
- Un mot à reconnaitre