A FUZZY-GENETIC APPROACH FOR THE COMPUTATIONAL MODELING OF SPEECH ARTICULATORY PROCESSES

JOSÉ A. BRITO

A FUZZY-GENETIC APPROACH FOR THE COMPUTATIONAL MODELING OF SPEECH ARTICULATORY PROCESSES

JOSÉ A. BRITO

Resumen

ABSTRACT

Articulatory speech synthesis involves three phonation models, namely the excitation source and the acoustic and articulatory models. The first two models represent the generation and filtering of excitation signals, while the articulatory model defines the parameters of the filter. This study focuses on applying fuzzy logic and genetic learning techniques for the representation and control of articulators on the midsagittal plane, following a neuromotor approach. Specifically, movement of the tongue, by effect of muscular contraction, is derived from a Sugeno Fuzzy Inference System. Continuous Genetic Algorithms then evolve populations of articulatory vectors in order to approximate acoustic features of target Spanish vowels and consonants /m/, /n/, /f/ and /s/. Classic excitation signal generators and the transmission-line model were used for the source and acoustic models, respectively. The learned midsagittal configurations along with subjective tests performed by a group of evaluators, positively verify the effectiveness of these techniques for modeling part of the articulatory speech processes.

KEY WORDS: Machine learning, articulatory speech synthesis, fuzzy logic, genetic algorithms, midsagittal models.

RESUMEN

La síntesis de voz articulatoria involucra tres modelos de la fonación, específicamente, la fuente de excitación, y los modelos acústico y articulatorio. Los dos primeros modelos representan la generación y el filtrado de las señales de excitación, mientras que el modelo articulatorio define los parámetros del referido filtro. Esta investigación se enfoca en la aplicación de lógica difusa y técnicas de aprendizaje genético para la representación y control de los articuladores en el plano medial, de acuerdo con el enfoque neuromotor. Específicamente, el movimiento de la lengua, por efecto de la contracción muscular, se deriva de un Sistema de Inferencia Difusa estilo Sugeno. Posteriormente, Algoritmos Genéticos Continuos evolucionan poblaciones de vectores articulatorios para aproximar las características acústicas de vocales españolas objeto, y de las consonantes /m/, /n/, /f/ y /s/. Para la fuente y el modelo acústico, se utilizan un generador clásico de señales de excitación y el modelo de líneas de transmisión, respectivamente. Las configuraciones mediales aprendidas, junto con las pruebas subjetivas efectuadas por un grupo de evaluadores, verifican positivamente la efectividad de estas técnicas para modelar parte de los procesos articulatorios del habla.

PALABRAS CLAVE: Aprendizaje artificial, síntesis articulatoria de voz, lógica difusa, algoritmos genéticos, modelos mediales.

Texto completo:

PDF

Enlaces refback

No hay ningún enlace refback.

Esta obra está bajo una Licencia Creative Commons Atribución 4.0 Internacional.

Nombre de usuario/a
Contraseña
No cerrar sesión

SABER