Unam desarrolla banco de voces para identificarlos

0
22

El Grupo de Lingüística Forense de la licenciatura en Ciencia Forense de la Facultad de Medicina de la UNAM está creando, bajo el nombre Corpus de lengua oral del español de México (CLOE México), un banco de voces con aplicación forense que, a diferencia de otros bancos similares de las instituciones de procuración e impartición de justicia del país, contará con parámetros acústicos y sociolingüísticos para la comparación forense de voz.

Los bancos de voces de la Fiscalía General de la República y de la Procuraduría General de Justicia de la Ciudad de México se utilizan para comparar sólo las características acústicas de una voz dubitada (es decir, de quien se desconoce su autoría) con las de más de 14 mil voces que contienen.

“Son grabaciones de voces de procesados, indiciados y sentenciados por algún delito, así como de personal que labora en las instituciones de procuración e impartición de justicia”, dice Fernanda López Escobedo, coordinadora del citado grupo y especialista en fonética forense y en lingüística forense y computacional.

El país cuenta también con un corpus que se utilizó para crear el Atlas lingüístico de México en la década de los años 70 y que está integrado por voces grabadas en cintas magnetofónicas. Es una buena referencia, pero no refleja la situación actual de las diversas entidades.

Hay otros corpus sociolingüísticos más recientes, como el Corpus sociolingüístico de la Ciudad de México, elaborado por El Colegio de México; forma parte del proyecto PRESEA, que tiene como objetivo la creación de un corpus de lengua española hablada representativo del mundo hispánico. Sin embargo, no está pensado para su aplicación en el ámbito forense y no se puede acceder a su material oral.

Más allá de lo acústico

“En México actualmente se comparan las características acústicas de una voz dubitada grabada durante una llamada de extorsión o de secuestro (dos de los delitos más frecuentes que presentan este tipo de evidencia) con las de las voces de los bancos disponibles, para determinar las probabilidades de coincidencia de aquélla con algunas de éstas”, apunta López Escobedo.

Ya que la mayoría de las grabaciones de esas llamadas telefónicas están dañadas a nivel acústico o tienen mucho ruido o, como son de celular, el ancho de banda del teléfono no permite registrar ciertas frecuencias, no se puede hacer una comparación adecuada con los softwares que se utilizan en las procuradurías.

Es importante analizar el sonido a nivel físico (la acústica), pero también el contexto social del hablante: dónde nació y creció, y qué modismos usa (los adultos mayores dicen palabras que los jóvenes de hoy desconocen).

“Asimismo, se debe considerar que cada lugar tiene un repertorio léxico específico. Si en una grabación se escucha que alguien dice ‘abanico de techo’, de seguro no es chilango (aquí, en la Ciudad de México, se dice ‘ventilador’), sino del norte del país”, indica López Escobedo.

Algunas características lingüísticas están asociadas a ciertas áreas geográficas de México. Por ejemplo, las personas de la costa de Veracruz o de Acapulco aspiran las “s”, debido a lo cual dicen “pehcado”.

“Y desde el punto de vista lingüístico, los yucatecos realizan glotalizaciones de vocales, es decir, producen un sonido vocálico con un punto de articulación muy atrasado, hacia la glotis. En cuanto a los chilangos, tienen cierta entonación y, al contrario de los hablantes de otros estados, pronuncian una ‘s’ más estable”, agrega López Escobedo.

Lista de patrones lingüísticos

El banco de voces que se desarrolla en la UNAM tiene una clasificación por nivel de estudios (primaria, secundaria, preparatoria, licenciatura y posgrado), género (masculino y femenino) y edad (jóvenes, adultos y adultos mayores).

Seccionado también por rasgos lingüísticos, permitirá “cerrar” el conjunto de voces con las que se puede comparar una voz dubitada, así como disminuir el error en la comparación.

López Escobedo y sus colaboradores ya elaboraron y analizan una lista de 36 patrones lingüísticos, como la aspiración de la “s” y el debilitamiento de la “d” a nivel fonético. Su objetivo es determinar si se correlacionan para, de esa manera, acortar la lista y así facilitar el trabajo a peritos que saben de fonética, pero no tienen el oído entrenado de un lingüista.

“La idea es incluir únicamente fenómenos que no necesiten tanta experiencia y sean fáciles de identificar a nivel auditivo, como la aspiración de la ‘s’. Además de establecer las características acústicas de una voz, es fundamental disponer de parámetros sociolingüísticos que permitan llevar a cabo una comparación forense de voz cualitativa cuando las condiciones acústicas de la grabación impidan su análisis automático, o un perfilamiento del hablante.”

Otras aplicaciones

Este banco de voces podría aprovecharse igualmente como población de referencia del español de México, ya que muchas veces, cuando se hace una comparación forense de voz, se utiliza una medida llamada LR (siglas de likelihood ratio), la cual requiere forzosamente conocer la tipicidad de una característica en una población, por ejemplo, qué tan típico es que un mexicano cecee.

Hace unos meses, la voz atribuida a Frida Kahlo en una grabación fue reclamada como suya por varias actrices. En un caso así podría servir para descartar o confirmar que se trata de la voz de alguna de ellas, pero no para atribuírsela a Frida Kahlo, pues para eso se necesitaría una grabación indubitada de la pintora con que compararla.

Además, comparar la voz cantada y hablada de una misma persona es un factor que añade variabilidad en los datos; de ahí que en este corpus se recopilen distintos modos de habla: espontánea, con diferentes entonaciones, leyendo, dando instrucciones, etcétera.

“También podría ser útil en el desarrollo de sintetizadores de voz y en el entrenamiento de sistemas de reconocimiento de voz para aplicaciones tecnológicas de lenguaje en coches y casas inteligentes”, finaliza López Escobedo.

Con información de el universal.