SciELO - Scientific Electronic Library Online

 
vol.29 número2El conflicto sociocognitivo como instrumento de aprendizaje en contextos colaborativosExpectativas de los agentes de desarrollo rural argentinos sobre la Psicología y sobre la inserción profesional de los psicólogos en el ámbito de la extensión rural índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

  • Não possue artigos citadosCitado por SciELO

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Interdisciplinaria

versão On-line ISSN 1668-7027

Interdisciplinaria vol.29 no.2 Ciudad Autónoma de Buenos Aires ago./dez. 2012

 

Análisis acústico de la voz normal y patológica utilizando dos sistemas diferentes: ANAGRAF y PRAAT

Acoustic analysis of normal and pathological voices using two different systems: ANAGRAF and PRAAT

 

Natalia Gabriela Elisei*

*Licenciada Fonoaudióloga. Becaria de Doctorado del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). E-Mail:natalia.elisei@gmail.com
Grecia 3644, 3er Piso, Dpto. B, (1429) Ciudad Autónoma de Buenos Aires, República Argentina.


Resumen

La necesidad de una evaluación instrumental y objetiva de la calidad de voz se refleja en el creciente número de métodos de análisis acústicos desarrollados para el diagnóstico clínico y la investigación.
En el trabajo que se informa se realizaron análisis acústicos utilizando dos programas diferentes: PRAAT y ANAGRAF. Ambos sistemas son programas informáticos de uso común en Latinoamérica, en contextos clínicos y de investigación, para detectar y caracterizar el habla, la voz y los desórdenes vocales. El propósito fue comparar los resultados obtenidos con un conjunto de mediciones acústicas, muchas de las cuales se definen de manera similar en ambos programas y analizar si se puede distinguir clínicamente entre la normalidad y la patología en sus diferentes niveles de severidad. Un total de 776 muestras de voz correspondientes a 4 repeticiones de la vocal /a/ de 194 hablantes de español en Buenos Aires se midieron utilizando los parámetros disponibles como lo son: la frecuencia fundamental, jitter, shimmery harmonic-to-noise ratio. Los resultados muestran valores similares de frecuencia fundamental (F0) para ambos programas. Sin embargo, los valores de jitter, shimmery harmonic-to-noise ratio (HNR) fueron significativamente menores medidos con PRAAT y resultaron superiores utilizando ANAGRAF.
La confiabilidad de los valores obtenidos con ambos programas se redujo significativamente con el aumento de las irregularidades en la señal. Por lo tanto, parece importante establecer normas para las voces normales y patológicas con el fin de guiar o dar un paso más en la validez y confiabilidad de las prácticas profesionales.

Palabras clave: Análisis acústicos; Análisis de voz normal y patológica; PRAAT; ANAGRAF.

Abstract

The need for instrumental objective assessment of voice quality is reflected in the increasing number of acoustic analysis methods developed for clinical diagnosis and as research outcome in the area. Acoustics measures of vocal productions received much attention in the literature and a variety of commercial packages are available. Those systems packages are presented as objective tools with apparently standardized, well-designed measurement protocols and acceptably low incidence of technical problems.The fact of using the same labels for similar measurement output like mean jitter or mean shimmer induce to think that results from different programs are comparable.
However, there is no standardization of technique methodology and considerable variability is observed about which acoustic parameters must be measured. Furthermore, product documentation often makes it difficult to know how a particular system actually produces its measurements. Little formal information is available about the actual comparability of measures from different analysis packages.
In this study, acoustic analysis was performed using two different programs: PRAAT and ANAGRAF. Both systems are computer programs commonly used in Latin America, in clinical and research to detect and characterize speech and voice disorders. PRAAT, was designed by Boersma and Weenink (2009) and ANAGRAF is a national software designed by Gurlekian (1997).
The purpose of this work was to compare the results obtained by a set of acoustic parameters, many of which are defined similarly in both programs, and analyze whether it can distinguish clinically between normal and pathological voices within different severity levels.
A total of 776 voice samples corresponding to 4 repetitions of the vowel /a/ of 194 speakers of Spanish in Buenos Aires were measured using the available parameters such as: the fundamental frequency, jitter, shimmer, and noise-to harmonic ratio.The Lilliefords Test, with a significance level of 5%, was used to verify the normal distribution of the results of each measurement. The parameters with normal distribution had their means compared to the standard measurements proposed by the program using the t test (significance level of 5%).
General results separated by sex are reported.The findings of analyzed voice samples are showed by definitions for mean, standard deviation, and thresholds of normal for each parameter, which helps the clinician to immediately assess the findings for a particular patient. The test-retest reliability in each pair of measures was calculated.
For both programs the results show similar values of fundamental frequency (F0). However, the values of jitter, shimmer and harmonic-to-noise ratio (HNR) were significantly lower measured by PRAAT, and higher using ANAGRAF in relation which the default results proposed by each system. The empirical evidence shows that if followed the default values and thresholds of each system, the diagnostic accuracy might be questioned by
considering both cases as false positives or false negatives.
Results demonstrate that the reliability of the values obtained by both programs was significantly reduced with the increase of irregularities in the signal. Parameters related with shimmer were more reliable than parameters related with jitter.
For the normal data, r Pearson correlations ranged from .72 (ANAGRAF) to .87 (PRAAT) for measures of jitter, with lower correlations among measures of shimmer .27 (ANAGRAF) to .80 (PRAAT) and noise measures .55 (ANAGRAF) to .87 (PRAAT). The large differences found between the measurements from the systems imply that the accuracy of the measurements are questionable, especially for severely pathological samples.
Therefore, it seems important to establish normal and pathological voice standards norms for Spanish in Buenos Aires to take a step in the validity and reliability of the professional practices. Future research be aimed at establishing differences between vowels in addition to sex and system used.

Key words: Acoustic analysis; Normal and pathological voice analysis; PRAAT; ANAGRAF.


Introducción

La voz humana constituye el medio más rápido y sencillo para comunicarse. Con el desarrollo de las tecnologías en telecomunicaciones ha aumentado considerablemente el uso de la voz así como también se han incrementado los desórdenes vocales, que ocurren en un 3 a 9% de la población.
Desafortunadamente, a pesar de la potencia con la que se pueden computar los datos, no parece ser completamente posible analizar la voz humana objetivamente y conocer más profundamente cuáles son los procesos que gobiernan la producción de la voz. Aunque las técnicas modernas pueden analizar la voz, aún existen temas conflictivos e irresueltos.
Cuando se intenta detectar y caracterizar las voces patológicas en la clínica, el objetivo es documentar sus cambios significativos, es decir, aquellos que no resulten despreciables ni producto del azar. Estos cambios pueden documentarse a través de la evaluación perceptual visual y/o auditiva y el análisis acústico de la señal. La evaluación perceptual visual identifica las patologías laríngeas mediante la observación directa de las cuerdas vocales (fibrolaringos copía, videoestroboscopía laríngea, etc.). Este tipo de exploración subjetiva tiene múltiples desventajas, entre las que se en cuentran su alto costo, la duración de la propia exploración y el hecho de tratarse de técnicas invasivas.
El análisis perceptual auditivo está siendo revisado y cuestionado actualmente en la literatura universal. La selección y la definición de escalas perceptuales auditivas han sido controvertidas y no siempre comunes a todos los especialistas en voz.
En este contexto, el uso de las mediciones acústicas como estudio de diagnóstico complementario de voces patológicas en el ámbito clínico se ha incrementado hasta convertirse en rutinas. El análisis acústico ofrece ventajas ya conocidas, no es costoso, es fácil de usar y no es invasivo. El mayor problema del uso de medidas acústicas es la interpretación de las mismas. Al utilizar métodos de análisis acústico se miden de forma computarizada las propiedades específicas de una forma de onda de señal de voz, semejante a la producida por el paciente, pero modelada por una teoría. La aplicación de los diferentes métodos exige entender y visibilizar los principios que los operan. Según Baken y Orlikoff (2000), se ha sido muy condescendiente y no se han cuestionado los procedimientos o los supuestos, indocumentados muchas veces, en los que se basan los sistemas de análisis que se compran y se utilizan. Estos autores sugieren ser más sofisticados y más escépticos en favor de un diagnóstico más preciso.
Con este propósito se realizaron comparaciones entre sistemas (Bielamowicz, Kreiman, Gerratt, Dauer & Berke, 1993; Boersma, 2009; Burris, 2011; Godino-Llorente, Osma-Ruiz, Saenz-Lechon, Cobeta-Marco, Gonzalez-Herranz & Ramirez-Calvo, 2008; Oguz, Kilic & Safak, 2011) que mostraron la existencia de variaciones en la precisión con la que los diferentes programas determinan el período y la amplitud de una señal vocal (estrategias de voicing). Los valores no son exactos ni comparables entre sí, aunque algunos estudios establecieron relaciones entre medidas (Boersma, 2009; Deliyskiy & Boersma, 1993).
Este artículo propone describir, analizar y discutir los valores de las medidas acústicas calculadas por dos sistemas de análisis objetivos y muy conocidos, uno nacional y otro extranjero, como son ANAGRAF (Gurlekian, 1997, 2001) y PRAAT (Boersma, 2009).
Específicamente, el objetivo fue estudiar en hablantes del español de Buenos Aires, los valores de tendencia central y dispersión que asumen voces normales y patológicas medidos con ambos sistemas e interpretar su ajuste con los valores estándares propuestos por defecto por los mismos programas. Finalmente, se pretende establecer valores guías, que constituyan un aporte a la práctica clínica diaria, para la voz normal y patológica según su grado de severidad, considerando la confiabilidad propia de cada medición.

Método

Materiales y procedimiento

Para el análisis acústico lineal tradicional se utilizaron las vocales /a/ del español de Buenos Aires registradas en la Base de Datos de Alteraciones de la Voz y el Habla (Elisei, 2011) integrada por las emisiones de 66 hablantes normales (H) y 128 hablantes con patología vocal (P).
Se analizaron 194 sujetos hablantes del Español de Buenos Aires, de los cuales 78 (40.2%) eran hombres y 116 (59.8%), mujeres. La media de edad fue igual a 36.35 años con una desviación estándar de 16.059.
Las voces de individuos normales pertenecen a 33 hombres y 33 mujeres, con edades promedio de 27.38 ± 7.9 y 26.78 ± 7.9 años, respectivamente (se indica el valor medio ± el desvío estándar). El conjunto de voces patológicas contiene muestras de 45 hablantes masculinos y 83 femeninos. El promedio de edad en este caso fue de 45.88 ± 22.02 y 38.31 ± 15.68 años para el grupo de hablantes masculinos y femeninos, respectivamente.
Los diagnósticos etiológicos presentes en la base de datos son variados: lesiones estructurales mínimas, congestión por reflujo gastroesofágico, papilomatosis, granulomas, hiperfunción, hiperplasia, queratosis, edema de cuerdas vocales, pólipos cordales, fonación ventricular, tejido de cicatrización, temblor vocal, estenosis laríngeas y parálisis cordales, entre otras.
El corpus empleado para este estudio incluyó 2.995 muestras vocales correspondientes a tres repeticiones de la vocal /a/ del Español de Buenos Aires, más una emisión sostenida durante el tiempo máximo fonatorio de cada sujeto.
Previo al registro de sus voces, los participantes respondieron a un breve cuestionario relacionado con factores de riesgo. Se instruyó a los participantes para que pronunciaran en tres oportunidades la vocal /a/ de manera sostenida (tiempo estimado: de 3 a 5 segundos), a una intensidad y frecuencia espontáneas.
Las emisiones fueron grabadas digitalmente en una computadora de escritorio utilizando una placa de sonido externa USB marca M-Audio Firewire modelo 1410. Se utilizó un micrófono AGK D770, tipo dinámico unidireccional cardioide, con un rango de frecuencia de 60 Hz-20 kHz, sensibilidad de 2,5 mV/Pa (-52 dBV) e impedancia de 600 Ohm situado a 10 cm de la boca en una sala acústica y antecámara con nivel de ruido de 35 dB y tiempo de reverberación menor a 1 segundo. El material fue registrado con un nivel de calidad de 16 bits y una frecuencia de muestreo de 44.100 muestras por segundo y no se utilizó ningún tipo de compresión. Una vez que se tomaron las muestras se editaron a través del programa Sound Forge Versión 8.0b. Sólo el cuerpo de la señal se utilizó para el análisis acústico, lo que se realizó manualmente. La edición de cada sonido se realizó tomando el cuerpo de la emisión y desechando el ataque y la filatura de cada muestra.
Para analizar las señales vocálicas se empleó la funcionalidad del Voice Report de PRAAT Doing Phonetics by Computer, versión 4.6.06 y de ANAGRAF versión V09.10 con la función de reporte desarrollado ad-hoc en el Laboratorio de Investigaciones Sensoriales para analizar estos datos. Se midieron y analizaron un total de 25 mediciones acústicas lineales tradicionales. Una ventaja comparativa de PRAAT es que permite a través de los scripts, realizar una secuencia de comandos para agilizar el análisis de muestras.

Resultados

Los resultados comparativos se agrupan en dos secciones. La primera se refiere al estudio de los hablantes con voces normales en tanto se describen los valores de las medidas acústicas para cada sistema y su relación con los valores umbrales o puntos de corte estándares configurados por defecto.
La segunda sección incluye en el análisis de la población de hablantes con voces patológicas y describe, distinguiendo cada sistema, la confiabilidad de las medidas en función del grado de severidad.

Sección I. Valores normales

En este primer estudio se realizaron las comparaciones de los resultados medidos en voces normales (de ahora en más, H) en cada programa (PRAAT y ANAGRAF) con aquellos dados por defecto. Inicialmente se aplicó el test de Kolmogorov-Smirnov para corroborar la distribución normal de los datos y luego el test t de Student para la vocal /a/ de hombres y mujeres del grupo H. Los resultados de estos procedimientos se resumen en la tabla 1 y tabla 2, se detallan y discuten considerando las medidas individualmente.

 

Tabla 1. Resultados medidos con PRAAT en mujeres y hombres normales

*Sigue la distribución normal. Test de Lilliefords.

 

Tabla 2. Resultados medidos con ANAGRAF en mujeres y hombres normales

 

Mediciones de frecuencia fundamental

El cálculo preciso de la frecuencia fundamental (F0) de la señal de habla es un requisito indispensable para procesamientos posteriores. La evaluación de parámetros relacionados con la variación de la F0 depende fuertemente de que ésta haya sido estimada con el mínimo error posible.
Como se observa en la Tabla 1, la media de la frecuencia fundamental (F0) medida con PRAAT en la muestra de sujetos normales (H) es igual a 119 Hz (± 20) para los varones y 207 Hz (± 24) para las mujeres, con importantes variaciones en ambos grupos.
La medición de frecuencia fundamental en ANAGRAF ofrece tres posibilidades: f0_pr, fc_cp y f0_cc. El primero, (f0_pr) se calcula con un método de correlación (RAPT); el segundo se calcula con un método frecuencial (cepstral) y con el tercero se realiza un cálculo temporal: ciclo a ciclo. Este último es el menos confiable, pero el más arriesgado en casos que los otros métodos no permitan calcular. Por ello, es la informada en el reporte de ANAGRAF. En este estudio sólo se midieron dos: F0_pr y F0_cc. En la Tabla 2 se observa que los valores obtenidos son semejantes a PRAAT cuando se mide con f0_pr y presentan mayor variación cuando se lo compara con f0_cc, confirmando así lo dicho anteriormente sobre su menor confiabilidad.
Los resultados obtenidos con ambos programas concuerdan con lo que se esperaba debido a las diferencias entre sexos para todos los parámetros relacionados con la frecuencia fundamental, encontrándose mayor variabilidad en el sexo femenino. El rango de valores para la frecuencia fundamental (F0) se extiende de 87 a 181-182 Hz para los varones y de 165 a 262-265 Hz para las mujeres.

Mediciones de la perturbación en frecuencia

A diferencia de las medidas anteriores que se muestran como un índice de la estabilidad, la perturbación de la frecuencia (jitter) es la variabilidad de la frecuencia fundamental en ciclos consecutivos. Las medidas de jitter se relacionan con la variación en el corto plazo: el jitter mide cuánto difiere un período dado del período que lo sucede inmediatamente (Lieberman, 1961). Es importante considerar que se han reportado importantes diferencias de aproximadamente el 22.5% en la estimación del jitter a partir de la señal acústica y la electroglotográfica (Vieira, McInnes & Jack, 1996, 2002).
Este parámetro es uno de los más empleados y con mayor tradición tanto en la clínica como en la investigación. El valor medio del Jitta en la muestra estudiada fue de 13.86 microsegundos (µs) para las mujeres y de 31.31 µs para los hombres, mostrando alta variabilidad observable en los desvíos estándar, principalmente en las voces masculinas. Estos valores son inferiores a los referenciados por PRAAT como normativos (83.2 µs).
Otro tipo de medición clínica interesante es el Jitt que considera en términos relativos o porcentuales la variación respecto al período. En la muestra estudiada las mujeres presentaron un .29% de variabilidad con respecto a la fundamental y los hombres, un .35%. Los resultados se asemejan a los reportados por otros autores que obtienen .42% en varones de 26 - 33 años (Orlikoff, 1990).
Para minimizar los posibles errores de estimación o extracción del F0 también se utilizan algoritmos que suavizan o estilizan los contornos promediando 3 períodos consecutivos (RAP), ó 5 períodos (PPQ). Los nuevos valores resultan de la diferencia absoluta promedio entre un período y el promedio entre éste y sus cuatro vecinos más cercanos, dividido por el período promedio. Los valores medidos en esta muestra resultaron muy inferiores a los datos normativos del manual del PRAAT (.16% para RAP y
.17% para PPQ en mujeres y .18% para RAP y .21% para PPQ en hombres) y a otros de trabajos norteamericanos y japoneses (Dwire & McCauley, 1995; Preciado & Fernández, 1998; Preciado, García & Infante, 1998; Takahashi & Koike, 1975). Sin embargo, son similares a los obtenidos en España (Fernández et al., 1999) en una muestra de 154 adultos no fumadores (PPQ = .23%) e incluso al del grupo de fumadores del estudio (Damborenea et al., 1999; Fernández et al., 1999) (PPQ = .27%) y en los de Walton y Orlikoff (1994) (RAP = .28%).
En ANAGRAF, la media de Jitter_pr para el grupo H fue igual a 1.35% para mujeres y a 1.02% para los hombres, superando los valores dados por el programa (< 1%) como normalidad. Para calcular el Jitter cc se requiere calcular el F0cc y como este cálculo no es confiable, en ANAGRAF se debe cumplir la condición que el F0cc dé igual al F0prom (calculado por el método RAPT) para aceptar como confiable el valor de jitter cc (Gurlekian, 2001).

Mediciones de la perturbación en amplitud

Las medidas de perturbación de la amplitud, o shimmer, son análogas a los índices de jitter. Sin embargo, si bien cuenta con tradición en la clínica no ha sido tan estudiado como el jitter. Tampoco es clara la relación del shimmer con anormalidades específicas de la función glótica, pero los valores tienden a normalizarse cuando se reduce la patología laríngea. Todos los valores medios para hombres y mujeres medidos en la muestra analizada son muy inferiores a los valores normativos del programa (ShimdB = .16 dB y .26 dB para mujeres y hombres, respectivamente) y a los reportados por otros autores (Fernández et al., 1999; Horii, 1979; Preciado & Fernández, 1998) (ver Tabla 1).
En ANAGRAF, la media de shimmer para el grupo H fue igual a .27 dB para mujeres y .32 dB para los hombres, ubicándose dentro de los valores de normalidad dados por el programa (.30 dB) (ver Tabla 2).

Mediciones de ruido

La relación armónico-ruido (HNR) es una medida que cuantifica la cantidad de ruido aditivo en la señal de la voz. Consiste en el cociente entre la energía espectral debida a las componentes armónicas de la señal y la correspondiente al ruido. En ANAGRAF, la media de la relación armónico-ruido (HNR) en el grupo H fue igual a 6,53 dB y 6,63 dB para mujeres y hombres, respectivamente. En este caso la muestra analizada supera los valores dados como normales. Se supone que esto es consecuencia de la alta exigencia en los criterios de inclusión impuestos a la selección de la muestra del grupo de voces normales (H).
PRAAT propone que una medida original de HNR debe ser de 20 para /a/ ó /i/ y de 40 para la vocal /u/. En consecuencia, una HNR por debajo de 20 es considerada como una medida de notable ronquera. En la muestra estudiada se encontró HNR de 24,35 y 22,07 para mujeres y hombres, respectivamente.

Sección II. Valores patológicos

Se han resumido, en los casos en que ha sido posible, los datos en tablas que intentan aproximar a normas, entiéndase medias, desviaciones típicas y rango de valores de los parámetros de ANAGRAF y PRAAT. Sólo intentan servir como guías para interpretar los resultados.
Para cada grupo y sexo se compararon los valores medios de frecuencia fundamental, perturbación de la frecuencia y perturbación de la amplitud y ruido de la vocal /a/ del Español de Buenos Aires, que es la vocal informada en la clínica. Se analizaron estos valores con relación a los puntos de corte que establece cada medición en cada sistema en comparación.
Muchas de las mediciones son útiles para un amplio espectro de desórdenes vocales, por lo que la clasificación por tipo de patología no resultó la adecuada, pero sí se consideró desagregarlas y analizarlas según su grado de severidad y confiabilidad.

Mediciones de frecuencia fundamental

Se observó que en el Grupo P aumentó la variabilidad en todos los parámetros medidos y esto se reflejó especialmente en la medida de desvío estándar. En las mujeres, el F0 disminuye y en hombres aumenta, mientras que la medida de máximo tono aumenta en ambos (ver Tabla 3 y Tabla 4).

 

Tabla 3. Resultados medidos con ANAGRAF en mujeres y hombres normales según grado de severidad de las patologías

Notación
N: normal
LM: leve-moderada
MS: moderada-severa

 

Tabla 4. Resultados de frecuencia fundamental medidos con PRAAT en mujeres y hombres normales según grado de severidad de las patologías

Notación
N: normal
LM: leve-moderada
MS: moderada-severa

 

Mediciones de la perturbación en frecuencia

Al analizar las medidas de perturbación en PRAAT: Jitt, Jita, RAP y PPQ en las mujeres de la muestra, los valores medios normales resultaron muy inferiores (Jitt = .29%; Jitta = 13.86 µs) como así también los valores patológicos.
Si no son desagregados los grupos por sexo y se considera, además del valor medio, el desvío estándar, el valor que se obtiene como rango superior no llega a superar el umbral que el programa informa como punto de corte entre la normalidad y la patología. Cabe aclarar que en este caso, el grupo de normalidad es de una normalidad rigurosa en tanto se trata de hablantes locutores entrenados, con lo cual se flexibilizaría el rango superior, pero habría que estudiar qué ocurre en una muestra de no entrenados y, si en verdad se llega a equiparar el umbral configurado por el programa. Cuando se desagrega por sexo, se verifica que en los hombres esto no ocurre y los umbrales podrían considerarse concordantes excepto para PPQ donde se encuentra la misma diferencia que en las mujeres (ver Tabla 5).

 

Tabla 5. Resultados de perturbación de la frecuencia fundamental medidos con PRAAT en mujeres y hombres normales según grado de severidad de las patologías

Notación
N: normal
LM: leve-moderada
MS: moderada-severa

 

En ANAGRAF, los valores normales medios medidos del parámetro jitter_cc, son superiores al umbral. Si se tiene en cuenta el desvío estándar, los valores obtenidos (jitter_cc = 3.37%) se pueden interpretar cómo voces normales pero serían categorizadas como patológicas cuando no lo son. En los hombres ocurre lo mismo, a diferencia de que los valores de jitter son menores (ver Tabla 3).

Mediciones de la perturbación en amplitud

En las medidas de shimmer pareciera encontrarse una mayor consistencia. Tanto en PRAAT como ANAGRAF los valores medios medidos para voces normales y patológicas concuerdan más con las medias y umbrales dados por los sistemas. Un ejemplo en PRAAT es el Shim% medido en las mujeres que se aproxima con valores medios de 1.81% ± .51 y 3.49% ± 2.49 para normales y patológicos, respectivamente, al umbral que es 2.52%. Sin embargo, en los hombres los valores medios medidos son superiores (Shim% = 2.93 ± 1.53 y 5.86 ± 4.93 para H y P, respectivamente) tanto a la media como al umbral (media = 2.52% y umbral = 3.81%) propuesto por PRAAT, por lo que voces normales de la muestra pasarían por patológicas (ver Tabla 6).

 

Tabla 6. Resultados de la perturbación de la amplitud medidos con PRAAT en mujeres y hombres normales según grado de severidad de las patologías

Notación
N: normal
LM: leve-moderada
MS: moderada-severa

 

En ANAGRAF esta medida tiene la misma limitación si se incluye en el análisis, el desvío estándar tanto en mujeres como en hombres. En la muestra estudiada los valores medios de normalidad van de .27 ± .67dB (mujeres) y .32 ± .12 dB (hombres). Si se considera un umbral en .30 dB, se estarían categorizando casos normales como patológicos (ver Tabla 3).

Mediciones de ruido

Los valores medidos de HNR en ANAGRAF tanto en hombres como en mujeres mostraron ser relativamente ajustados aun considerando los desvíos estándares en el análisis (ver Tabla 3).

Medidas según el grado de severidad de las patologías

Se analizaron las mismas medidas anteriormente descriptas por el grado de severidad de la patología (Elisei, 2011) para evaluar si la influencia de la variedad diagnóstica del hablante normal (N), con patologías leves a moderadas (LM) y moderadas a severas (MS) hacía variar estos resultados. Por no cumplirse el supuesto de homocedasticidad o supuesto de homogeneidad de variancias, para el análisis de la variancia (test de Levene) se utilizó el test robusto de Brown Forsythe. En la vocal /a/ se encontraron diferencias significativas para las variables, exceptuando la media y mediana de tono para las mujeres y el mínimo tono para los hombres. Aplicando el test a posteriori de Dunnet con un nivel de significación global del 5% se encontraron diferencias significativas en todos los parámetros medidos exceptuando los sigiuentes casos:
En mujeres, en la mediana del tono (median pitch) y la media del tono (mean pitch) entre las 3 categorías: N, LM y MS, de lo que se interpreta que estos parámetros no son los más sensibles a la hora de caracterizar subgrupos, sino más bien casi constantes del sexo. Tampoco se encontraron diferencias entre tono mínimo y máximo (minimum y maximum pitch) entre LM y MS, pero sí entre N y LM y N y MS, por lo que se interpreta que esta medida sí puede ser relevante al momento de distinguir entre diferentes niveles de severidad. Las cinco medidas de jitter no muestran diferenciassignificativas entre LM y MS, pero sí con N, indicando que si bien (aún con sus limitaciones) son medidas sensibles para distinguir voces normales de patológicas, no pueden caracterizar grados de severidad en patologías.
En hombres se encontró que la mediana y la media del tono no se diferencian para LM y MS pero sí logran diferencias significativas ambos con N. La medida del tono mínimo se comporta de forma semejante a las mujeres: no muestran diferencias signi-ficativas entre niveles de severidad, aunque sí se observan diferencias en el parámetro de tono máximo en los tres niveles. En tres de los jitter no se observan diferencias Jita, RAP y DDP, al igual que APQ11.
En ANAGRAF se realizó el mismo análisis encontrándose diferencias significativas para todos los parámetros a excepción de f0_pr y f0_cc. Los resultados del test a posteriori de Dunnet evidenciaron diferencias significativas en el parámetro HNR para las tres categorías tanto N, LM y MS. Para el parámetro jitter se encontraron diferencias entre N y MS y para shimmer entre N y MS y LM y MS, no así entre N y LM. Esto muestra que la detección en el continuo que va desde la normalidad a la patología no es tarea sencilla siendo específicamente entre normales (N) y patológicos leves (LM), las diferencias no significativas.
En resumen, lo que se puede observar en la Tabla 3, Tabla 4, Tabla 5 y Tabla 7 es cómo los valores medios, los desvíos y los rangos aumentan entre los grupos según el grado de severidad y cómo estos desvíos y rangos dan cuenta de la variancia de cada medición según el grupo. Es interesante pensar que a medida que aumenta la variancia, también aumentan las dudas sobre la sensibilidad de estas mediciones para esos tipos determinados de señales. Las excepciones son AC y HNR que disminuyen lógicamente por la degradación en las señales más patológicas y NHR que parece no encontrar diferencias entre N y LM, dando cuenta nuevamente de que no sería tan evidente hallar diferencias entre voces normales y patológicas leves con esta medida.

 

Tabla 7. Resultados de medidas de ruido realizadas con PRAAT en mujeres y hombres normales según grado de severidad de las patologías

Notación
N: normal
LM: leve-moderada
MS: moderada-severa

 

Confiabilidad de las medidas

Para evaluar el grado de confiabilidad de las medidas obtenidas se comparó la estabilidad de los parámetros en una prueba test-retest mediante el análisis de dos muestras consecutivas de voz tomadas en cada sujeto. Se utilizó el test de correlación de Pearson como medida de confiabilidad. El método del test-retest prevé la aplicación de dos veces el mismo test (el lapso entre las aplicaciones se determina previamente), a una misma muestra de individuos. Las dos series de puntajes resultantes se correlacionan con el coeficiente de correlación r de Pearson para medir el grado de asociación entre dos variables asumiendo valores entre -1 y 1. Los valores próximos a 1 indicarán fuerte asociación lineal positiva, los valores próximosa -1 indicarán fuerte asociación lineal negativa y los valores próximos a 0 indicarán no asociación lineal, lo que no significa que no pueda existir otro tipo de asociación.
En la Tabla 3, Tabla 4, Tabla 5, Tabla 6 y Tabla 7 se presentan los valores de las correlaciones y se observa que es poco probable que esta correlación se dé por el azar para la mayoría de los parámetros. Los coeficientes menores a .7 sugieren, a diferencia de los demás, que existe una media y baja correlación entre las muestras. La medición de la frecuencia fundamental parece ser estable y confiable; sin embargo, esta alta correlación disminuye en la medida de desviación estándar dando cuenta allí de las discrepancias o variaciones que pueden existir en la producción de un tono sostenido. En las mediciones de jitter, se observa una estabilidad alta con coeficientes de .807 a .879 para los normales y de moderada a baja con valores entre .881 a .547 para los patológicos. Esto se asocia con las limitaciones que encuentran estas mediciones para el cálculo cuando la señal contiene mayores irregularidades y deja de ser cuasi periódica. Las mediciones de perturbación de la amplitud varía entre .831 a .798 en voces normales y de .872 a .691 para las voces patológicas, mostrando un comportamiento semejante a la perturbación de frecuencia. Dentro de los parámetros de ruido, ambos logran altas consistencias en sus mediciones. También se puede observar que LM tiene menor correlación en general que N y MS.

Conclusiones

En este trabajo se han presentado las mediciones tradicionales relacionadas con la frecuencia fundamental, la perturbación de la frecuencia y la amplitud y la relación armónico - ruido, dado que a pesar de no ser una medida de aperiodicidad es tradición medirla en la clínica diaria. Es difícil determinar con precisión las normas para medidas acústicas tales como jitter, shimmer, harmonic-to-noise ratio y la frecuencia fundamental. Hay muchos factores que atentan contra la declaración de que todo puede abarcarse en normas. Algunos de ellos son específicos de las personas (sexo y edad), culturales (lo que para una lengua puede considerarse dentro de límites normales, puede ser diferente para otra) y en relación con el entorno de prueba (la variación en el equipo utilizado y, más importante aún, el uso de diferentes algoritmos de los programas de software que se utilizan para hacerlas mediciones). Mientras que la evaluación acústica de la voz se compromete a proporcionar una medida objetiva de los parámetros relevantes, existen muchos elementos que influyen en la comparación de los resultados obtenidos en diferentes ocasiones. En particular, en el estudio que se informa se ha centrado la atención en las diferencias entre sistemas frente a un mismo continuo que se extiende de la normalidad a la patología en sus diferentes grados.
Los resultados aquí obtenidos sugieren que es preferible automatizar el análisis para colaborar en la detección de valores diferentes y/o erróneos. Pareciera importante tener en cuenta las diferencias de sexo en la mayoría de los parámetros explorados, por lo que se sugiere considerar los valores normativos desagregados por sexo.
Los valores de tendencia central y dispersión medidos en la muestra estudiada de hablantes normales verifican diferencias significativas en relación a los estándares propuestos por defecto por ambos sistemas.
Estos valores cobran mayor significancia cuando se intenta no sólo detectar, sino también caracterizar la patología en sus grados de severidad: normal (N), leve-moderado (LM) y moderado a severo (MS). Interpretando los datos medidos y tomando el punto de corte o umbral entre la normalidad y la patología dados por los sistemas, se puede observar que utilizando PRAAT muchos casos son subestimados (falsos negativos) y con ANAGRAF muchos casos son sobreestimados (falsos positivos).
Con el propósito de indagar la confiabilidad de las medidas utilizadas se realizó una prueba de test-retest y se midió la correlación entre los resultados obtenidos. Se vio que a medida que aumenta el grado de severidad de las patologías, disminuye la correlación. Esto se asocia con las limitaciones que encuentran estas mediciones para el cálculo cuando la señal contiene mayores irregularidades y deja de ser cuasi periódica. Cuando esto ocurre, el coeficiente de correlación disminuye al punto de hacer poco fiable su valor.
Finalmente y atendiendo a las diferencias de sistema empleado, sexo, grado de severidad de las patologías y confiabilidad de cada medida se presentan los valores medios, desvíos estándares y rangos medidos en voces normales y patológicas.
La contribución del estudio que se informa reside en evidenciar estas diferencias y proponer guías que las consideren, sobre todo cuando hay evidencia empírica de que guiada por los valores medios y umbrales de cada sistema, la precisión diagnóstica podría ser cuestionada.

Referencias bibliográficas

1. Baken, R. J. & Orlikoff, R. (2000). Clinical measurement of speech and voice (2da. ed.). San Diego, USA: Singular Publising Group. doi: 10.3109/14417040008996786.         [ Links ]

2. Bielamowicz, S., Kreiman, J., Gerratt, B. R., Dauer, M. S. & Berke, G. S. (1993). Comparison of voice analysis systems for perturbation measurements. Journal of Acoustical Society of America, 9(4), 2337. doi: 10.1121/1.4062 76.         [ Links ]

3. Boersma, P. (2009). Should jitter be measured by peak picking or by waveform matching? Folia Phoniatrica et Logopaedica, 61, 305-308. doi:10.1159/000245159.         [ Links ]

4. Burris, C. (2011). Acoustic analysis software: Aquantitative and qualitative comparison of four systems.Tesis de Maestría no publicada. University of Wisconsin. Maddison, USA.         [ Links ]

5. Damborenea, D., Fernández, R., Llorente, E., Naya, M. J., Marín, C., Rueda, P. et al. (1999). Efecto del consumo de tabaco en el análisis acústico de la voz [Smoking effects in voice acoustic analysis]. Acta Otorrinolaringológica Española - Sociedad Española de Otorrinolaringología, 50(2), 448-452.         [ Links ]

6. Deliysky, D. D. & Boersma, P. (1993). Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound. Proceedings of the Institute of Phonetic Sciences, 17(pp. 97-110). Países Bajos: Universidad de Amsterdam.         [ Links ]

7. Dwire, A. & McCauley, R. (1995). Repeated measures of vocal fundamental frequency perturbations obtained using de Visi-Pitch. Journal of Voice, 9, 156-162. doi: 10.1016/ S08921997(05)80249-8.         [ Links ]

8. Elisei, N. G. (2011). Evaluación acústica y perceptual de la voz para la detección y caracterización de los desórdenes vocales [Acoustic and perceptual voice assessment for the detection and characterization of vocal disorders]. Tesis Doctoral no publicada, Universidad de Buenos Aires. Buenos Aires.         [ Links ]

9. Fernández, R., Damborenea, D., Rueda, P., García, E., Leache, J., Campos, M. A. et al. (1999). Análisis acústico de la voz normal en adultos no fumadores [Acoustic analysis of normal voice in nonsmoking adults]. Acta Otorrinolaringológica Española - Sociedad Española de Otorrinolaringología, 50(2), 134-141.         [ Links ]

10. Godino-Llorente, J. I., Osma-Ruiz, V., Saenz-Lechon, N., Cobeta-Marco, I., Gonzalez-Herranz, R. & Ramirez-Calvo, C. (2008). Acoustic analysis of voice using WPCVox: A comparative study with Multi Dimensional Voice Program. European Archives of OtoRhino-Laryngology, 265(4), 465-476. doi: 10.1007/s00405-007-0467-x.         [ Links ]

11. Gurlekian, J. (1997). El laboratorio de audición y habla del LIS [Speech and auditory laboratory from LIS]. En M. Guirao (Ed.), Procesos sensoriales y cognitivos (pp. 55-81). Buenos Aires: Dunken.         [ Links ]

12. Gurlekian, J. A. (2001). La percepción auditiva [Auditory percepion]. En I. Bustos Sanchez (Ed.), La percepción auditiva: Un enfoque transversal (pp. 51-90). Madrid: CEPE.         [ Links ]

13. Horii, Y. (1979). Fundamental frequency perturbation observed in sustained phonation. Journal of Speech and Hearing Research, 22, 5-19.         [ Links ]

14. Lieberman, P. (1961). Perturbations in vocal pitch. Journal of Acoustical Society of America, 33(5), 597-603. doi: 10.1121/1.1908736.         [ Links ]

15. Oguz, H., Kilic, M. A. & Safak, M. A. (2011). Comparison of results in two acoustic analysis programs: PRAAT and MDVP. Turkish Journal of Medical Sciences, 41(5), 835-841.         [ Links ]

16. Orlikoff, R. (1990). Heartbeat-related fundamental frequency and amplotude variations in healthy young and elderly male voices. Journal of Voice, 4, 322-328. doi: 10.1016/S08921997(05)80049-9.         [ Links ]

17. Preciado, J. A. & Fernández, S. (1998). El análisis digital de la señal acústica en el diagnóstico de la patología vocal. Sensibilidad y especificidad de las medidas del shimmer y del jitter [The digital analysis of the acoustic signal in the diagnosis of vocal pathology. Sensitivity and specificity of the measures of shimmer and jitter]. Acta Otorrinolaringológica Española -Sociedad Española de Otorrinolaringología, 49(6), 475-481.         [ Links ]

18. Preciado, J. A., García, R. & Infante, J. C. (1998). Análisis multidimensional de la función vocal. Estudio de casos y controles [Multidimensional analysis of vocal function. Case-control study]. Acta Otorrinolaringológica Española - Sociedad Española de Otorrinolaringología, 49(6), 467-474.         [ Links ]

19. Takahashi, H. & Koike, Y. (1975). Some perceptual dimensions and acoustical correlates of pathologic voices. Acta Otolaryngologica. Supplementum, 338, 1-24.         [ Links ]

20. Vieira, M. N., McInnes, F. R. & Jack, M. A. (1996). Robust F0 and jitter estimation in pathological voices. Fourth International Conference on Spoken Language ICSLP 96, 745-748. doi: 10.1121/1.1430686.         [ Links ]

21. Vieira, M. N., McInnes, F. R. & Jack, M. A. (2002). On the influence of laryngeal pathologies on acoustic and electroglottoraphic jitter measures. Journal of Acoustical Society of America, 111(2), 1045-1055.         [ Links ]

22. Walton, J. & Orlikoff, R. (1994). Speaker race identification from acoustic cues in the vocal signal. Journal of Speech Hearing Research, 38, 738-745.         [ Links ]

Laboratorio de Investigaciones Sensoriales (LIS)
Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET)
Ciudad Autónoma de Buenos Aires
República Argentina

Fecha de recepción: 21 de mayo de 2012
Fecha de aceptación: 6 de agosto de 2012