Corpus Anotado Multimodal
Creación de un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la IA.
Proyecto de Corpus Anotado Multimodal
Dirección del proyecto:
El objetivo principal de este proyecto es desarrollar un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la inteligencia artificial, que compile todos los datasets lingüísticos tanto públicos como privados (no compartidos) disponibles, así como aplicaciones y servicios de empresas.
Este proyecto está en línea con uno de los proyectos tractores definidos en el eje número 1 Base de Conocimiento, en español del PERTE de la Nueva Economía de la Lengua.
Objetivos específicos:
- Realizar una compilación de los principales datasets lingüísticos disponibles en español, lenguas cooficiales y variedades del español.
- Incluir y completar corpus multimodales con el fin de compilar y sistematizar la riqueza del lenguaje oral.
- Analizar, definir y desarrollar aplicaciones prácticas de los corpus lingüisticos multimodales.
- Estandarizar los datos en términos de accesibilidad, interoperabilidad y reutilización, siguiendo los principios de FAIR (Findable, Accessible, Interoperable, Reusable).
- Difusión de los resultados del proyecto y la transferencia de conocimiento a la comunidad científica, la industria y otros actores relevantes.