Disponible en abierto MarIA, sistema de IA experto en comprender y escribir la lengua española • ESMARTCITY

MarIA es un conjunto de redes neuronales profundas que han sido entrenadas para comprender y escribir la lengua española a nivel experto. Este sistema de IA, una iniciativa del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) e IBM, ya está disponible en abierto y sin coste para desarrolladores, empresas o entidades.

MarIA, sistema de inteligencia artificial — MarIA está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste.

El sistema de inteligencia artificial MarIA ha sido financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Transformación Digital y del Future Computing Center.

Este modelo ha sido creado en el BSC-CNS y se ha entrenado en el superordenador MareNostrum con archivos de datos de la Biblioteca Nacional de España (BNE). Sus posibles aplicaciones abarcan los correctores o predictores del lenguaje, las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción o subtitulación automática, entre otras.

MarIA es un conjunto de modelos del lenguaje o redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua española y sus mecanismos para expresar el significado y escribir a nivel experto. Consigue trabajar con independencias cortas y largas, y es capaz de entender conceptos abstractos y el contexto de los mismos.

Modelo de la lengua española

Para crear un modelo de la lengua, el primer paso es elaborar un corpus de palabras y frases como base sobre la que entrenar el sistema. En el caso de MarIA se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional.

Posteriormente, se eliminó todo aquello que no fuera texto bien formado y se guardaron los textos en lengua española tal y como es realmente utilizada. Como resultado, el superordenador MareNostrum obtuvo 201.080.084 documentos limpios que ocupaban un total de 570 gigabytes de texto limpio y sin duplicidades.

Este corpus enriquecerá el patrimonio digital del español y del propio archivo de la BNE, así como servirá para múltiples aplicaciones en el futuro, tales como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y el entreno de nuevos modelos.

Una vez creado el corpus, los investigadores del BSC-CNS utilizaron una tecnología de redes neuronales multicapa. Los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas para que aprenda a adivinarlas dado el contexto.

Ampliación del corpus e incorporación de más lenguas

Tras lanzar los modelos generales, el equipo de minería de textos del BSC-CNS trabaja en la ampliación del corpus con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo, publicaciones científicas del Consejo Superior de Investigaciones Científicas (CSIC).

Asimismo, está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.