Crean inteligencia artificial para mejorar la interacción tecnológica en español

• Fecha: 2 de agosto, 2021

Crean inteligencia artificial para mejorar la interacción tecnológica en español

Denominado “MarIA”, el sistema promete progresos en los chatbots, búsquedas, las traducciones y subtitulados automáticos en nuestro idioma

Buenos Ares-(Nomyc)-Si alguna vez notaste que la tecnología no es 100% eficiente al usar nuestro idioma, pronto habrá mejoras en las aplicaciones y diversos servicios, ya que la Biblioteca Nacional de España y el Barcelona Supercomputing (BSC) presentaron un nuevo proyecto que promete mejorar el modo en que los sistemas digitales interactúan en idioma español, mediante la herramienta MarIA, un nombre clásico entre quienes hablamos español y que juega con la inclusión de las siglas “IA”, de “inteligencia artificial”.

Para esta iniciativa, los investigadores entrenaron al sistema con casi 60 terabytes de datos de la biblioteca y según informan en Xataka, el trabajo recibió apoyo monetario del Plan de Tecnologías del Lenguaje en España y los responsables de esta iniciativa asegura que este modelo es el más grande y eficiente disponible en esta lengua.

MarIA, que es el nombre del sistema, que está disponible en abierto para el entrenamiento de otros sistemas, que podrán aprovechar los avances conseguidos por este desarrollo, mientas que muchos de los textos y archivos de la Biblioteca Nacional de España no se ofrecen en forma abierta, este proyecto “flexibiliza el acceso a sus sistemas para aquellos profesionales o iniciativas” que buscan ofrecer mejores respuestas en nuestro idioma.

Las aplicaciones de MarIA: el sistema es un conjunto deredes neuronales que fueron entrenadas para comprender las especificidades del español y según los investigadores involucrados, MarIA consigue “trabajar con interdependencias cortas y largas, siendo capaz de entender no sólo los conceptos abstractos sino también el contexto de los mismos”.

Los casi 60 terabytes de información fueron procesados para eliminar los gráficos, los números de páginas, las oraciones duplicadas y las referencias en otros idiomas, entre otros elementos barridos, y luego enviados al ordenador MareNostrum que lo paso a limpio luego de 6.910.000 horas.

En cuanto a los resultados, fueron 201.080.084 de documentos editados que ocupan un total de 570 gigabytes de texto, en ese gran archivo que luego se filtró mediante una tecnología ya probada en idioma inglés, que permite que la IA aprenda el contexto de cada una de las palabras.

En relación a qué sistemas promete mejorar MarIA con su despliegue, los investigadores señalan queel sistema ofrecerá avances en “los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtítulos automáticos”, entre otros.

Los expertos involucrados informaron que luego del despliegue de su ingenio crearán “modelos similares para el portugués, catalán, gallego y también para el español de Hispanoamérica”.

Nomyc-2-8-21