Corpus Anotado Multimodal

Creación de un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la IA.

Proyecto de Corpus Anotado Multimodal

Dirección del proyecto:

El objetivo principal de este proyecto es desarrollar un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la inteligencia artificial, que  compile todos los datasets lingüísticos tanto públicos como privados (no compartidos) disponibles, así como aplicaciones y servicios de empresas.

Este proyecto está en línea con uno de los proyectos tractores definidos en el eje número 1 Base de Conocimiento, en español del PERTE de la Nueva Economía de la Lengua.

Objetivos específicos:

  • Realizar una compilación de los principales datasets lingüísticos disponibles en español, lenguas cooficiales y variedades del español.
  • Incluir y completar corpus multimodales con el fin de compilar y sistematizar la riqueza del lenguaje oral.
  • Analizar, definir y desarrollar aplicaciones prácticas de los corpus lingüisticos multimodales.
  • Estandarizar los datos en términos de accesibilidad, interoperabilidad y reutilización, siguiendo los principios de FAIR (Findable, Accessible, Interoperable, Reusable).
  • Difusión de los resultados del proyecto y la transferencia de conocimiento a la comunidad científica, la industria y otros actores relevantes.