“Es importante compilar, preparar y procesar corpus en castellano y otras lenguas cooficiales para que se puedan desarrollar productos compatibles con nuestras lenguas”
Raquel Lázaro Gutiérrez dirige desde la Universidad de Alcalá el proyecto del Corpus Anotado multimodal que se integra en los proyectos que el Clúster mantiene activos. Se trata de una iniciativa en la que se cuenta con múltiples colaboradores de empresas privadas y que busca desarrollar un corpus anotado multimodal del español, lenguas cooficiales y variedades del español para la inteligencia artificial, que compile todos los datasets lingüísticos tanto públicos como privados (no compartidos) disponibles, así como aplicaciones y servicios de empresas.
¿Qué es un corpus lingüístico y por qué es importante el desarrollo de corpus en español?
Un corpus lingüístico es un conjunto de textos en su sentido más amplio, escritos u orales (incluyendo distintos formatos de audio y vídeo), que se han compilado con propósitos de investigación y desarrollo y se han preparado para permitir su análisis y procesamiento en el marco de diversos proyectos, incluidos aquellos enmarcados en el procesamiento del lenguaje natural.
¿Cómo surgió la idea del proyecto? ¿Qué hitos se busca alcanzar?
La idea fue fruto de las reuniones de los grupos de trabajo del Clúster de Innovación y Talento de la Comunidad de Madrid para las Humanidades Digitales y las Tecnologías del Español. Varios de los grupos de investigación y de las empresas que forman parte del clúster trabajan de manera habitual con corpus lingüísticos. Somos conocedores de las necesidades y carencias actuales y a todos nos parece pertinente e imprescindible contar con un banco de corpus multimodales en el que el castellano y las lenguas cooficiales tengan el protagonismo. En este banco se integrarán, como punto de partida, corpus ya existentes en sus distintos grados de desarrollo. Además, se trabajará en la compilación de nuevos corpus de interés estratégico, en la actualización y el desarrollo de los corpus ya integrados (por ejemplo, en completar su anotación) y en su fairización, para conseguir que estén bien descritos y que sean accesibles, interoperables y reutilizables.
“Somos conocedores de las necesidades y carencias actuales y a todos nos parece pertinente e imprescindible contar con un banco de corpus multimodales en el que el castellano y las lenguas cooficiales tengan el protagonismo”.
¿Cuál es la aplicación práctica de este corpus y su relación con la IA? ¿Cómo va a beneficiar a la sociedad?
Los corpus lingüísticos se utilizan como base para el desarrollo de productos relacionados con la inteligencia artificial, como, por ejemplo, los conversadores artificiales o chatbots como ChatGPT. Es importante compilar, preparar y procesar corpus en castellano y otras lenguas cooficiales para que se puedan desarrollar productos compatibles con nuestras lenguas, que tengan una calidad e incluyan funcionalidades parecidas a aquellos que se han desarrollado con corpus en inglés.
“Los corpus lingüísticos se utilizan como base para el desarrollo de productos relacionados con la inteligencia artificial”.
¿En qué fase se encuentra el proyecto y cómo se va a articular?
En la actualidad contamos con un espacio para albergar los corpus, con algunos de los corpus de los equipos de investigación y de las empresas del clúster y con todo el conocimiento y la experiencia que los miembros del clúster aglutinan, lo que hará posible la ejecución del proyecto. Se sigue trabajando en conseguir fondos para invertir en el desarrollo de las distintas tareas de compilación, actualización, desarrollo y fairización a gran escala.
