Disponible en abierto MarIA, sistema de IA experto en comprender y escribir la lengua española

Publicado: 31/8/2021

Disponible en abierto MarIA, un sistema de IA experto en comprender y escribir la lengua española

MarIA es un conjunto de redes neuronales profundas que han sido entrenadas para comprender y escribir la lengua española a nivel experto. Este sistema de IA, una iniciativa del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) e IBM, ya está disponible en abierto y sin coste para desarrolladores, empresas o entidades.

MarIA está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste.

El sistema de inteligencia artificial MarIA ha sido financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Transformación Digital y del Future Computing Center.

Este modelo ha sido creado en el BSC-CNS y se ha entrenado en el superordenador MareNostrum con archivos de datos de la Biblioteca Nacional de España (BNE). Sus posibles aplicaciones abarcan los correctores o predictores del lenguaje, las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción o subtitulación automática, entre otras.

MarIA es un conjunto de modelos del lenguaje o redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua española y sus mecanismos para expresar el significado y escribir a nivel experto. Consigue trabajar con independencias cortas y largas, y es capaz de entender conceptos abstractos y el contexto de los mismos.

Modelo de la lengua española

Para crear un modelo de la lengua, el primer paso es elaborar un corpus de palabras y frases como base sobre la que entrenar el sistema. En el caso de MarIA se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional.

Posteriormente, se eliminó todo aquello que no fuera texto bien formado y se guardaron los textos en lengua española tal y como es realmente utilizada. Como resultado, el superordenador MareNostrum obtuvo 201.080.084 documentos limpios que ocupaban un total de 570 gigabytes de texto limpio y sin duplicidades.

Este corpus enriquecerá el patrimonio digital del español y del propio archivo de la BNE, así como servirá para múltiples aplicaciones en el futuro, tales como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y el entreno de nuevos modelos.

Una vez creado el corpus, los investigadores del BSC-CNS utilizaron una tecnología de redes neuronales multicapa. Los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas para que aprenda a adivinarlas dado el contexto.

Ampliación del corpus e incorporación de más lenguas

Tras lanzar los modelos generales, el equipo de minería de textos del BSC-CNS trabaja en la ampliación del corpus con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo, publicaciones científicas del Consejo Superior de Investigaciones Científicas (CSIC).

Asimismo, está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.

Disponible en abierto MarIA, sistema de IA experto en comprender y escribir la lengua española

Modelo de la lengua española

Ampliación del corpus e incorporación de más lenguas

ARTÍCULOS: Ciudades Inteligentes

Transformación digital hacia el territorio rural inteligente con la conectividad IoT de Vodafone en edificios públicos de municipios de Valladolid

Cartagena: capa a capa hacia la ciudad inteligente del futuro con Libelium como socio tecnológico

El Índice Local de Innovación traza un nuevo mapa del ecosistema innovador en España y analiza su impacto real en los territorios

ENTREVISTAS: Ciudades Inteligentes

Geana Leschko, Manager del Área de Innovación Urbana y Política Pública en TECH friendly

Thomas Dallmeier, CEO de Dallmeier electronic

Carlos Bernad, CEO de Envac Iberia y presidente de Envac EMEA

TV: Ciudades Inteligentes

Reportaje del VI Congreso Ciudades Inteligentes

Jornada de presentación del VI Congreso Ciudades Inteligentes

Smart City Expo World Congress Barcelona 2019

NOTICIAS: Ciudades Inteligentes

En marcha la plataforma 'Descubre Las Rozas' integrada en el gemelo digital Cosmos de la ciudad

El municipio de La Laguna finaliza la instalación de sensores inteligentes en la red de alcantarillado

Finalizan tres proyectos de ciudades inteligentes en Andalucía y otros 18 siguen en marcha