ESMARTCITY

Todo sobre Ciudades Inteligentes

SÍGUENOS:
  • Inicio
  • Ciudades Inteligentes
  • Gobierno / Economía
  • Movilidad
  • Energía
  • Medio Ambiente
  • >Servicios
    • Biblioteca
    • Vídeoteca
    • Comunicaciones
    • >Congresos
      • 6 Congreso Ciudades Inteligentes
      • 5 Congreso Ciudades Inteligentes
      • 4 Congreso Ciudades Inteligentes
      • 3 Congreso Ciudades Inteligentes
      • 2 Congreso Ciudades Inteligentes
      • 1 Congreso Ciudades Inteligentes
  • Guía Empresas
Inicio » Ciudades Inteligentes » Disponible en abierto MarIA, sistema de IA experto en comprender y escribir la lengua española

Disponible en abierto MarIA, sistema de IA experto en comprender y escribir la lengua española

Publicado: 31/08/2021

MarIA es un conjunto de redes neuronales profundas que han sido entrenadas para comprender y escribir la lengua española a nivel experto. Este sistema de IA, una iniciativa del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) e IBM, ya está disponible en abierto y sin coste para desarrolladores, empresas o entidades.

MarIA, sistema de inteligencia artificial
MarIA está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste.

El sistema de inteligencia artificial MarIA ha sido financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Transformación Digital y del Future Computing Center.

Este modelo ha sido creado en el BSC-CNS y se ha entrenado en el superordenador MareNostrum con archivos de datos de la Biblioteca Nacional de España (BNE). Sus posibles aplicaciones abarcan los correctores o predictores del lenguaje, las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción o subtitulación automática, entre otras.

MarIA es un conjunto de modelos del lenguaje o redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua española y sus mecanismos para expresar el significado y escribir a nivel experto. Consigue trabajar con independencias cortas y largas, y es capaz de entender conceptos abstractos y el contexto de los mismos.

Modelo de la lengua española

Para crear un modelo de la lengua, el primer paso es elaborar un corpus de palabras y frases como base sobre la que entrenar el sistema. En el caso de MarIA se utilizaron 59 terabytes del archivo web de la Biblioteca Nacional.

Posteriormente, se eliminó todo aquello que no fuera texto bien formado y se guardaron los textos en lengua española tal y como es realmente utilizada. Como resultado, el superordenador MareNostrum obtuvo 201.080.084 documentos limpios que ocupaban un total de 570 gigabytes de texto limpio y sin duplicidades.

Este corpus enriquecerá el patrimonio digital del español y del propio archivo de la BNE, así como servirá para múltiples aplicaciones en el futuro, tales como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y el entreno de nuevos modelos.

Una vez creado el corpus, los investigadores del BSC-CNS utilizaron una tecnología de redes neuronales multicapa. Los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas para que aprenda a adivinarlas dado el contexto.

Ampliación del corpus e incorporación de más lenguas

Tras lanzar los modelos generales, el equipo de minería de textos del BSC-CNS trabaja en la ampliación del corpus con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo, publicaciones científicas del Consejo Superior de Investigaciones Científicas (CSIC).

Asimismo, está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.

Publicado en: Ciudades Inteligentes Etiquetado como: Big Data, Ciencia de Datos Urbanos, Digitalización, Innovación Social, Inteligencia Artificial, Open Data

Instagram
Newsletter
BUSCADOR
Patrocinio Bronce
  • Dinycon
  • Envac
  • Schréder
  • SEPALO
  • Hikvision
  • Urbiotica
  • Dallmeier
  • Accessibilitas
  • TECH friendly
  • Tradesegur
  • MOVISAT
  • Libelium
  • Pavapark
  • Spaceretail
  • Nexus Geographics
  • Bettair Cities
  • Salvi
Sobre ESMARTCITY

ESMARTCITY es el principal medio de comunicación on-line sobre Ciudades Inteligentes.

Publica diariamente noticias, artículos, entrevistas, TV, etc. y ofrece la información más relevante y actualizada sobre el sector.

AUDITADO POR OJD
COPYRIGHT

©1999-2025 El material de ESMARTCITY es propiedad intelectual de Grupo Tecma Red S.L. y está protegido por ley. No está permitido utilizarlo de ninguna manera sin hacer referencia a la fuente y sin permiso por escrito de Grupo Tecma Red S.L.

SOBRE GRUPO TECMA RED

ESMARTCITY pertenece a Grupo Tecma Red, el grupo editorial español líder en las temáticas de Sostenibilidad, Energía y Nuevas Tecnologías en la Edificación y la Ciudad.

Portales de Grupo Tecma Red:

  • CASADOMO - Todo sobre Edificios Inteligentes
  • CONSTRUIBLE - Todo sobre Construcción Sostenible
  • ESEFICIENCIA - Todo sobre Eficiencia Energética
  • ESMARTCITY - Todo sobre Ciudades Inteligentes
  • SMARTGRIDSINFO - Todo sobre Redes Eléctricas Inteligentes

 Logo Grupo Tecma Red Quiénes somos    Publicidad    Notas de Prensa    Condiciones de uso    Privacidad    Cookies    Contactar