Spécialiste des technologies de reconnaissance vocale, la jeune société messine Vivoka, créée en 2015, lance la seconde version de son générateur d’assistants vocaux, le VDK (Voice Development Kit), dont l’objectif est de simplifier l’utilisation des technologies vocales et de permettre à n’importe quelle entreprise de concevoir elle-même une interface vocale professionnelle.... Avec cette version, Vivoka intègre notamment la technologie embarquée dite Free Speech, conçue pour permettre à un système vocal de travailler avec tous les mots qui lui sont fournis et donc d’autoriser un locuteur à délivrer une dictée libre, sans perte de précision.
Selon Vivoka, contrairement aux technologies ASR (Automatic Speech Recognition) classiques fondées sur une grammaire qui réduit les capacités de compréhension pour obtenir une bonne précision, Free Speech est capable de transcrire un nombre beaucoup plus élevé de mots, sans perte de précision. Cette technologie fonctionne au sein du VDK de manière intégrée et hors ligne.
Au-delà, le Plugin Phonetic Editor permet de définir et d’essayer des phonétiques spécifiques pour des mots ou des expressions d’un projet précis. Les traductions phonétiques peuvent ensuite être utilisées pour construire une grammaire ad hoc et affiner la façon dont les commandes vocales sont dites ou comprises, pour une utilisation dans un mode Wake Word (mot ou série de mots utilisés pour déclencher un enregistrement vocal), avec une technologie de retranscription à l’écrit de propos tenus à l’oral (ASR) ou un module de synthèse vocale (TTS, Text-To-Speech).
Signalons qu’à propos de ces applications TTS, la version 2021 du Voice Development Kit s’accompagne d’une nouvelle gamme de voix, disponibles en plusieurs qualités, genres et émotions, réduisant ainsi le stockage de données pour personnaliser divers cas d’usage.
Enfin, dans cette solution tout-en-un de création d’assistants vocaux, le VDK procure une même interface pour la mise en oeuvre en parallèle de plusieurs plug-in utilisés pour réaliser les fonctionnalités vocales souhaitées. Ainsi, du réglage de la grammaire jusqu’à la phase de test et d’intégration, en passant par l’écriture du code, tout est accessible à travers une seule vue, tous les outils fonctionnant sur un seul système d’exploitation.