Corpus Anotado Multimodal – Clúster en Humanidades Digitales y Tecnologías del Español

Proyecto de Corpus Anotado Multimodal

Dirección del proyecto:

El objetivo principal de este proyecto es desarrollar un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la inteligencia artificial, que compile todos los datasets lingüísticos tanto públicos como privados (no compartidos) disponibles, así como aplicaciones y servicios de empresas.

Este proyecto está en línea con uno de los proyectos tractores definidos en el eje número 1 Base de Conocimiento, en español del PERTE de la Nueva Economía de la Lengua.

Objetivos específicos:

Realizar una compilación de los principales datasets lingüísticos disponibles en español, lenguas cooficiales y variedades del español.
Incluir y completar corpus multimodales con el fin de compilar y sistematizar la riqueza del lenguaje oral.
Analizar, definir y desarrollar aplicaciones prácticas de los corpus lingüisticos multimodales.
Estandarizar los datos en términos de accesibilidad, interoperabilidad y reutilización, siguiendo los principios de FAIR (Findable, Accessible, Interoperable, Reusable).
Difusión de los resultados del proyecto y la transferencia de conocimiento a la comunidad científica, la industria y otros actores relevantes.