viernes, 19 de septiembre de 2008

Nuevos Horizontes: Aportes al entrenamiento de Personas Hipoacúsicas

Nuevos Horizontes.-

Aportes al entrenamiento de Personas Hipoacúsicas


Garin Juan Manuel Agüero Pablo Daniel Tulli Juan Carlos

Facultad de Ingeniería, Universidad Nacional de Mar del Plata.

Laboratorio de Comunicaciones

Juan B Justo 4302 – 7600 – Mar del Plata

Tel. +542234816600 int. 251

jmgarin ;pdaguero ;jctulli@fi.mdp.edu.ar


Resumen

Este proyecto en desarrollo analiza la problemática argentina actual sobre la falta de programas para computadora destinados a la asistencia de personas hipoacúsicas, de distribución gratuita y en idioma español local.

Debido a esto, se decidió diseñar un programa que emplee los últimos avances tecnológicos actuales en el área informática, utilizando el lenguaje de programación Java, que nos permite una amplia portabilidad del programa, eliminando las limitaciones de incompatibilidad de programación entre sistemas operativos.

El programa consiste en indicarle en pantalla al usuario lo que se pretende que este pronuncie, capturar su habla a través de un micrófono, analizarla y comparar los resultados con patrones preestablecidos. Para luego informarle nuevamente a través de la pantalla los posibles errores lingüísticos a fin de que este pueda ir mejorándolos con el continuo entrenamiento.

Los datos de este proceso son enviados vía Internet a los servidores del grupo de desarrollo permitiendo realizar análisis posteriores tanto por el profesional a cargo como por los desarrolladores, lo que facilita mantener un registro de sus actividades y progresos.

  1. Introducción

En la actualidad existen personas que presentan una disminución en la capacidad auditiva, las cuales se pueden clasificar en dos grupos, los hipoacúsicos y los sordos profundos (cofóticos).

La hipoacusia es la disminución de la percepción auditiva. La misma puede provenir de distintas causas congénitas tanto de origen genético, neurosensorial, como por mal formaciones; o bien adquirirse a través de enfermedades tales como otitis, tímpanosclerosis, colesteatomas, etc.

Las personas que nacieron con alguna de estas anomalías o que las adquirieron de niños, no cuentan con la realimentación auditiva necesaria, lo que les impide percibir con claridad los sonidos del ambiente y los que ellos mismos emiten.

Esta dificultad les produce grandes inconvenientes en el aprendizaje del habla, lentificando el desarrollo de la dimensión del lenguaje, del pensamiento abstracto, y obstaculizando la categorización de los objetos, la estructura y sistematización de la realidad.
Estas complicaciones se presentan como alteraciones reflejadas en el ritmo, timbre de voz (ronquera, monotonía), tono irregular, etc.

Los sordos profundos, son personas que no tienen percepción auditiva. Debido a esto, desde niños aprenden a comunicarse a través del lenguaje de señas, lo que lleva a que tengan aún más dificultades que los hipoacúsicos en la comunicación a través del habla.

En ambos grupos a su vez se originan, dependiendo del grado de sordera que tengan, distintas alteraciones en la articulación de fonemas por ausencia o alteración de estos por otros. Estas alteraciones se pueden clasificar en tres grupos: dislalias, diglosias y disartrias.

Las dislalias son trastornos producidos por la disminución de la capacidad auditiva, ocasionando que las personas que las padecen no logren discriminar correctamente los fonemas, generándolos de manera equívoca o directamente excluyéndolos. Por ejemplo dicen “mai” en vez de “maíz” o “tre” en vez de “tres”.

Las diglosias son trastornos de origen orgánico provocado por lesiones físicas o malformaciones de los órganos articulatorios y periféricos. Estas últimas, según la parte del aparato fonatorio que afectan, se clasifican en: labiales, mandibulares, dentales, linguales y palatales, para las cuales se pueden citar, como ejemplo, las correspondientes afecciones: labio leporino, prognatismo, agenesias dentarias, glosectomía y paladar hendido.

Por último, las disartrias son anomalías en la articulación, de naturaleza motriz, generadas por lesiones en el sistema nervioso central, como así también por enfermedades en los nervios o músculos de la lengua, faringe y laringe.
A éstas se las puede clasificar a su vez en cinco grupos: flácida, espástica, atáxica, extrapiramidal y mixta.

En las dos primeras la afección esta localizada en las neuronas motrices inferior y superior correspondientemente. La atáxica es ocasionada por una afección en el cerebelo generada por lesiones cerebelosas bilaterales o generalizadas.

La extrapiramidal es generada por lesiones en el sistema que lleva el mismo nombre, el cual forma parte del sistema paloencéfalo.

Por ultimo las mixtas, son una conjunción de las mencionadas anteriormente.

Las personas que tienen estas alteraciones son tratadas por los especialistas del habla a través de la utilización de métodos auditivo-visuales, llevando a cabo una reeducación ortofónica y logopédica, siendo ellos los que interpretan el sonido y le informan al paciente lo que dijo a través de señas o dibujos. Esto implica que el profesional no cuenta con más información sobre lo que dijo el paciente que lo que pudo captar e interpretar a través de la experiencia.

Debido al avance tecnológico en el área informática, se dispone de diversos tratamientos asistidos por computadora que complementan el trabajo del profesional y permiten un conocimiento más amplio y preciso de los sonidos del paciente y de sus anomalías.

En la actualidad existen diversos programas para computadoras orientados a la asistencia de personas hipoacúsicas, tales como el SpeechViewer de IBM [1], Laureate Learning Systems [2], Vocaliza [3].

El SpeechViewer de IBM es un visualizador fonético para los profesionales del habla, que cuenta con dos partes principales:

1. Terapia clínica que incluye ejercicios para una terapia del habla directa.

2. Gestión de terapia que suministra información sobre el rendimiento del paciente y sus progresos.

La compañía Laureate Learning Systems desarrolló diversos paquetes de programas para la asistencia de personas con capacidades diferentes, de los cuales uno está dirigido a niños con problemas en el habla. Dentro de este paquete, se pueden encontrar programas tanto de ejercitación general como específicos, tales como de sustantivos, verbos, pronombres personales, etc. Uno de ellos es el “TalkTime with Tucker” que está basado en juegos, en los que el niño va interaccionando y avanzando niveles a través del habla. Esto es ampliamente recomendable ya que evita el tedio tan característico de otros programas.

El programa Vocaliza pertenece al proyecto Comunica de la Universidad de Zaragoza, el cual trabaja en tres niveles de lenguaje: fonológico, semántico y sintáctico. El mismo esta desarrollado para el tratamiento de niños, ya que se basa principalmente en juegos e interacción con dibujos. También cuenta con un sintetizador de voz, que les permite a las personas con alguna percepción auditiva saber como se debe pronunciar correctamente una palabra. Este último, a diferencia de los mencionados anteriormente, es para el idioma español y su distribución es gratuita lo que permite el acceso a todas las personas.

En la actualidad no existe ningún programa de asistencia de personas con hipoacusia, para el idioma español con lenguajes argentinos. Si bien Vocaliza está desarrollado para el idioma español, las acepciones no se corresponden con las de nuestro país, por lo que no es apto para ejercitar el habla de nuestros niños.
Por esta razón hemos decidido desarrollar un programa diseñado en lenguaje de programación JAVATM (por su portabilidad) y de distribución gratuita, para que sea accesible a todas las personas que padezcan de estas afecciones en nuestro país.

Este articulo esta organizado de la siguiente forma: Sección [2], se describe ampliamente el trabajo del programa y sus características, la cual está dividida en tres subsecciones que explican más detalladamente cada bloque del programa: [2.1].Sesiones multiusuario, [2.2].Análisis de la señal e interfaz gráfica, [2.3].Historial y Comunicación vía Internet. Sección [3].Conclusiones y [4].Bibliografía


  1. Descripción del sistema


El objetivo de este proyecto es desarrollar un programa de distribución gratuita de entrenamiento para personas con discapacidades auditivas.

Muchos de los lenguajes de programación permiten a través de los compiladores obtener código ejecutable propio del microprocesador. En el caso de JAVA el proceso de compilación genera un pseudo-codigo (opcodes) que debe ser interpretado por una máquina virtual java. Esta última es la que ofrece un entorno de ejecución homogéneo para todas las aplicaciones JAVA, independizándolas de los sistemas operativos y de las incompatibilidades del código fuente entre microprocesadores de distintos fabricantes.

La máquina virtual JAVA se ejecuta en segundo plano, recibe las directivas del programa, las convierte al lenguaje del procesador y las ejecuta. Debido a todo este proceso, la ejecución de una aplicación JAVA es sutilmente más lenta, pero presenta como gran ventaja poder ser ejecutada en la mayoría de los sistemas operativos actuales, eliminando de esta forma el grave inconveniente que posee la programación convencional.

En la figura 1 se presenta el diagrama en bloques del funcionamiento general del programa. En el mismo se pueden ver tres grandes bloques funcionales (encerrados en líneas punteadas) que serán desarrollados en las siguientes secciones: Sesiones Multiusuario (seccion 2.1), Análisis de la señal e interfaz gráfica (seccion 2.2), e historial y comunicación vía Internet (seccion 2.3).


2.1 Sesiones multiusuario

Este programa cuenta con un sistema multiusuarios, permitiendo que las computadoras de uso público de las escuelas puedan ser utilizadas por varias personas, sin eliminar la posibilidad de que una persona en particular pueda utilizar el programa en su casa.



Figura 2


Para cada paciente se deben ingresar sus datos personales y los correspondientes a sus deficiencias conocidas, tales como audiogramas (figura 2), dislalias (mencionadas en la introducción), etc.

Este programa cuenta también con un sistema de exportación para que el paciente pueda migrar de una a otra computadora sin perder sus datos y su historial de trabajo. Debido a que el sistema posee un servicio de almacenamiento del historial en el servidor de los desarrolladores, el paciente también podrá utilizar múltiples ordenadores sin la necesidad de copiar los datos a medios extraíbles (diskettes, pen drives, etc). Este último aspecto del funcionamiento se explicará con más detalle en la sección 2.3.

La información, provista en el momento de la carga de los datos del paciente, es muy importante, ya que de esta manera el programa cuenta con información previa al momento de tomar decisiones, haciendo que el proceso de análisis sea más corto y efectivo. Por ejemplo: sabiendo que el paciente al momento de decir palabras omite las vocales iniciales, cuando el programa le pida que diga la palabra “ahora” (trascripción fonética: “aora”), este va a saber que lo primero que dijo es la “o” y no la “a”. Permitiendo de este modo que el análisis continúe con los siguientes fonemas sin detenerse a tratar de interpretar una “a” en lugar de una “o”.

Una vez inicializada la sesión, el profesional debe acceder a un menú para configurar los ejercicios que deberá realizar el paciente durante la práctica.

Existen dos modos principales de configuración de las prácticas. En el primero de ellos se utiliza la información sobre las deficiencias del paciente ingresadas con anterioridad, con las cuales el programa filtra los ejercicios correspondientes al tratamiento de estas, lo que lleva a una mayor rapidez a la hora de la configuración. Esto permite también que el paciente pueda trabajar en su casa sin necesidad de estar con el profesional simplemente siguiendo los pasos que éste le indique.

La otra forma de configuración es la manual, en la cual el profesional genera una secuencia de trabajo arbitraria, seleccionando palabras de un listado o directamente ingresando un texto. Este modo presenta como ventaja que el programa pueda ser utilizado para una evaluación especifica.

2.2 Análisis de la señal Interfaz gráfica

Las personas hipoacúsicas presentan en su mayoría una disminución muy grande de la capacidad auditiva perdiendo así la realimentación sonora que esta les brinda. Debido a esto, es que se reemplaza esta última a través de una interfaz gráfica, como ser en este caso el monitor de la computadora.

La utilización del lenguaje de programación JAVATM, nos permite ofrecerle al usuario una interfaz gráfica amigable y operable tanto por niños, adolescentes o adultos.

Para los niños se ofrece una versión con juegos y dibujos, en la cual el paciente va avanzando niveles y ganando puntos a medida que pronuncia correctamente lo que le indica el programa, generando de esta forma un estímulo en el niño para que continúe su entrenamiento. A su vez estos juegos pueden ser configurados por el profesional para el trabajo de una deficiencia en particular.

Para los adolescentes y adultos que tienen más conocimientos sobre los parámetros del habla, se ofrece otra versión con gráficas en tiempo real de los distintos parámetros, presentando en pantalla:

    • Barras de progreso para indicar la intensidad de la señal, sonoridad, tono y ritmo.
    • Superposición de la grafica de la acentuación utilizando la información del pitch
    • Precisión fonemática, indicando con un parpadeo, el fonema que se dijo incorrectamente.
    • Duración del habla, superponiendo la grafica temporal con un patrón correcto.

En la figura 3, se indican los pasos que recorre la información, desde que es grabada por el micrófono hasta que se informa en pantalla.


Cuando el paciente pronuncia lo que se le indica en pantalla, su voz es grabada a través de un micrófono, convertida digitalmente por la placa de sonido de la computadora, filtrada para eliminar ruidos y enviada a las secuencias de análisis.

Una vez adquirida la señal, el programa realiza diversos análisis previos antes de iniciar los correspondientes a los parámetros, debido a que el habla de las personas hipoacúsicas tiene en general mucha intensidad de ruido.

Si el ruido es muy grande y se la analiza en búsqueda de los parámetros característicos, posiblemente se los encuentre de manera errónea, lo que significaría informar al paciente incorrectamente. En consecuencia, si el programa detecta esta circunstancia, descarta la señal y le solicita al usuario que repita.

Si la señal pasa la prueba de la confiabilidad de señal-ruido, se la envia a las secuencias de análisis de parámetros, las cuales nos retornan información acústica, tal como: el tono, la acentuación a través de la frecuencia fundamental (pitch), el volumen, la intensidad, ritmos, la sonoridad y los fonemas con su respectiva ubicación.

Para una mayor confiabilidad en el análisis de los parámetros de la señal, el sistema procesa los datos a través de varios algoritmos en paralelo que obtienen la misma característica acústica. Estos algoritmos están altamente optimizados para permitir una ejecución más rápida del programa en computadoras de bajo rendimiento, ya que no siempre se cuenta con computadoras nuevas en los establecimientos educativos ni en los domicilios particulares.

Luego de obtener las características acústicas, los resultados son nuevamente analizados para determinar su confiabilidad, efectuando los siguientes estudios: coeficientes de señal ruido (SNR), similitud con el modelo estadístico (HMM), shimmer (Medida de la inestabilidad de la amplitud del tono fundamental AF0), jitter (diferencia de amplitud e intensidad entre periodos del sonido), etc; luego de lo cual, si no se cumplen los requisitos, se descartan los datos y se le pide al usuario que repita.

Una vez que se analiza la confiabilidad de los parámetros, se los compara con los de la base de datos de una persona oyente, la cual esta previamente filtrada utilizando las deficiencias conocidas del paciente configuradas en su sesión. De esta comparación se obtienen los resultados finales del análisis para luego informarle al paciente, las características de su emisión.

2.3 Historial y Comunicación vía Internet

Este programa cuenta con un servicio de almacenamiento de información y envio vía Internet a los servidores pertenecientes al grupo de investigación que desarrolló el programa.

El envio de datos del paciente permite que éste pueda trabajar en múltiples computadoras, pudiendo así ejercitar en la escuela junto al profesional y continuar las prácticas en su casa sin la necesidad de recargar sus datos, simplemente, actualizando estos vía Internet.

En el momento en que el paciente se registra en nuestra pagina Web para descargar el programa, ingresa sus datos personales y un nombre de usuario el cual va a utilizar el programa para identificarlo.

Durante al registro, el usuario debe seleccionar su condición de aceptación o no del contrato, en el cual se informa sobre el envio de datos vía Internet y el uso compartido de datos personales.

Esto no es una limitación para el uso del programa, pero el no aceptarlo restringe la utilización del servidor para almacenar los datos personales, lo cual implica que el usuario no puede migrar tan facilmente de computadoras.

Durante el transcurso de la sesión, un subprograma trabaja en paralelo almacenando datos y enviándolos vía Internet, previa aceptación de las condiciones por el usuario, entre de los cuales podemos distinguir los datos personales y los de la práctica.

Dentro de los datos personales enviados al servidor se encuentran los audiogramas, dislalias conocidas, historial de trabajo, etc; los cuales son descargados del servidor una vez que el paciente inicia la sesión en otra computadora evitando de esta forma que tengan que ser cargados nuevamente.

El segundo grupo de datos enviados al servidor son los correspondientes a la evolución de la práctica, dentro de los cuales se encuentran dos tipos de archivo, los de audio y los de texto.

Los archivos de audio enviados contienen la voz del paciente que fue grabada y comprimida durante toda la sesión utilizando un formato sin pérdidas.

En los archivos de texto se guardan los datos que corresponden a la configuración de la práctica, incluyendo las palabras y sus respectivos errores, pronunciados por el paciente según lo indicado en cada sesión, permitiendo de este modo que el profesional pueda realizar un análisis posterior y así aplicar las acciones correctivas necesarias.

Los datos son guardados también dentro de la computadora, en carpetas independientes para cada usuario, destinado a que si se pierde la conexión a Internet se pueda seguir trabajando.

Si el profesional no se encuentra con el paciente, este puede descargar los datos del servidor, para lo cual deberá estar registrado, manteniendo así un seguimiento del trabajo, conociendo los avances y dificultades que presenta este a la hora de realizar los ejercicios, proporcionando de este modo la posibilidad de un tratamiento en forma particular para personas que no se encuentren en cercanías a los centros médicos o escuelas especiales.

Dentro de este servicio de envio de información vía Internet, se encuentra otro subprograma que realiza informes de errores del programa, lo que les permite a los programadores poder realizar las actualizaciones necesarias.

  1. Conclusiones

En este artículo se ha descrito un programa para la asistencia y entrenamiento de personas hipoacúsicas que aprovecha los avances tecnológicos en el área informática, permitiéndoles la mejora de su habla a través del continuo entrenamiento.

En la actualidad se comprobó que la utilización de este tipo de programas para la asistencia de personas con hipoacusia, acelera de forma notable las mejorías en el habla permitiéndoles una comunicación más fluida y eficiente.

Se esta trabajando conjuntamente con el Centro de Fonoaudiologia ( C.E.F.A ) Escuela de sordos e hipoacúsicos de la ciudad de Mar del Plata, con la cual la Universidad Nacional de Mar del Plata tiene un convenio específico de colaboración.

Este proyecto cuenta con una página web en donde se irán colocando los avances del sistema y el programa para su descarga [4].

  1. Bibliografia

[1]. Xuedong Huang, Alex Acero, Hsiao-wuen Hon, “Spoken Lenguaje Processing” cap 2 y 6, 2001

[2]. Paul Christopher Bagshaw, “Automatic prosodic analisis for computer arded pronunciation teaching”, Tesis doctoral, Universidad de Edimburgo, 1994

[3]. Emagnet Consultoria SA, “Dislalias”, Gabinete Psicopedagógico logopedia, 2007

[4]. Elizabeth E. Crawford, “Acoustic signals as visual biofeedback in the speech training of hearing impared children”, Tesis doctoral, Universidad de Canterbury, 2007

[5]. Carlos Vaquero, Oscar Saz, Eduardo Leida, “Vocaliza: an application for computer-aided speech therapy in spanish languaje”, Grupo de tecnología de la comunicación I3A, Universidad de Zaragoza, IV Jornadas en Tecnología del Habla.

[6]. José Martinez Ledesma, Gaspar González Rus, Mercedes López Torresilla, “Las nntt en la rehabilitación logopédica: el visualizador fonético speechviewer III a la vista del visualizador del habla de la universidad politécnica”, Rep. Tec., Tecnoneet 2000.

[7]. Lawrence R. Rabiner, Fellow IEEE, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proceedings of the IEEE, vol. 77, nº. 2, February 1989.