{"id":1882,"date":"2024-10-17T07:25:37","date_gmt":"2024-10-17T07:25:37","guid":{"rendered":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/?p=1882"},"modified":"2024-10-17T07:25:37","modified_gmt":"2024-10-17T07:25:37","slug":"es-importante-compilar-preparar-y-procesar-corpus-en-castellano-y-otras-lenguas-cooficiales-para-que-se-puedan-desarrollar-productos-compatibles-con-nuestras-lenguas","status":"publish","type":"post","link":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/2024\/10\/17\/es-importante-compilar-preparar-y-procesar-corpus-en-castellano-y-otras-lenguas-cooficiales-para-que-se-puedan-desarrollar-productos-compatibles-con-nuestras-lenguas\/","title":{"rendered":"\u201cEs importante compilar, preparar y procesar corpus en castellano y otras lenguas cooficiales para que se puedan desarrollar productos compatibles con nuestras lenguas\u201d"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><strong>Raquel L\u00e1zaro Guti\u00e9rrez dirige desde la Universidad de Alcal\u00e1 el proyecto del Corpus Anotado multimodal que se integra en los proyectos que el Cl\u00faster mantiene activos. Se trata de una iniciativa en la que se cuenta con m\u00faltiples colaboradores de empresas privadas y que busca desarrollar un corpus anotado multimodal del espa\u00f1ol, lenguas cooficiales y variedades del espa\u00f1ol para la inteligencia artificial, que compile todos los <em>datasets <\/em>ling\u00fc\u00edsticos tanto p\u00fablicos como privados (no compartidos) disponibles, as\u00ed como aplicaciones y servicios de empresas.<\/strong><\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\"><strong><br>\u00bfQu\u00e9 es un corpus ling\u00fc\u00edstico y por qu\u00e9 es importante el desarrollo de corpus en espa\u00f1ol? <\/strong><\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\">Un corpus ling\u00fc\u00edstico es un conjunto de textos en su sentido m\u00e1s amplio, escritos u orales (incluyendo distintos formatos de audio y v\u00eddeo), que se han compilado con prop\u00f3sitos de investigaci\u00f3n y desarrollo y se han preparado para permitir su an\u00e1lisis y procesamiento en el marco de diversos proyectos, incluidos aquellos enmarcados en el procesamiento del lenguaje natural.<\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\"><strong>\u00bfC\u00f3mo surgi\u00f3 la idea del proyecto? \u00bfQu\u00e9 hitos se busca alcanzar?<\/strong><\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\">La idea fue fruto de las reuniones de los grupos de trabajo del Cl\u00faster de Innovaci\u00f3n y Talento de la Comunidad de Madrid para las Humanidades Digitales y las Tecnolog\u00edas del Espa\u00f1ol. Varios de los grupos de investigaci\u00f3n y de las empresas que forman parte del cl\u00faster trabajan de manera habitual con corpus ling\u00fc\u00edsticos. Somos conocedores de las necesidades y carencias actuales y a todos nos parece pertinente e imprescindible contar con un banco de corpus multimodales en el que el castellano y las lenguas cooficiales tengan el protagonismo. En este banco se integrar\u00e1n, como punto de partida, corpus ya existentes en sus distintos grados de desarrollo. Adem\u00e1s, se trabajar\u00e1 en la compilaci\u00f3n de nuevos corpus de inter\u00e9s estrat\u00e9gico, en la actualizaci\u00f3n y el desarrollo de los corpus ya integrados (por ejemplo, en completar su anotaci\u00f3n) y en su <em>fairizaci\u00f3n<\/em>, para conseguir que est\u00e9n bien descritos y que sean accesibles, interoperables y reutilizables.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"has-text-align-left wp-block-paragraph\"><em>\u201cSomos conocedores de las necesidades y carencias actuales y a todos nos parece pertinente e imprescindible contar con un banco de corpus multimodales en el que el castellano y las lenguas cooficiales tengan el protagonismo\u201d.<\/em><\/p>\n<\/blockquote>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\"><strong>\u00bfCu\u00e1l es la aplicaci\u00f3n pr\u00e1ctica de este corpus y su relaci\u00f3n con la IA? \u00bfC\u00f3mo va a beneficiar a la sociedad?<\/strong><\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\">Los corpus ling\u00fc\u00edsticos se utilizan como base para el desarrollo de productos relacionados con la inteligencia artificial, como, por ejemplo, los conversadores artificiales o <em>chatbots <\/em>como ChatGPT. Es importante compilar, preparar y procesar corpus en castellano y otras lenguas cooficiales para que se puedan desarrollar productos compatibles con nuestras lenguas, que tengan una calidad e incluyan funcionalidades parecidas a aquellos que se han desarrollado con corpus en ingl\u00e9s.<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"has-text-align-left wp-block-paragraph\"><em>\u201cLos corpus ling\u00fc\u00edsticos se utilizan como base para el desarrollo de productos relacionados con la inteligencia artificial\u201d.<\/em><\/p>\n<\/blockquote>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\"><strong>\u00bfEn qu\u00e9 fase se encuentra el proyecto y c\u00f3mo se va a articular?<\/strong><\/p>\n\n\n\n<p class=\"has-text-align-left wp-block-paragraph\">En la actualidad contamos con un espacio para albergar los corpus, con algunos de los corpus de los equipos de investigaci\u00f3n y de las empresas del cl\u00faster y con todo el conocimiento y la experiencia que los miembros del cl\u00faster aglutinan, lo que har\u00e1 posible la ejecuci\u00f3n del proyecto. Se sigue trabajando en conseguir fondos para invertir en el desarrollo de las distintas tareas de compilaci\u00f3n, actualizaci\u00f3n, desarrollo y <em>fairizaci\u00f3n<\/em> a gran escala.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"683\" src=\"https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro-1024x683.jpg\" alt=\"\" class=\"wp-image-1067\" srcset=\"https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro-1024x683.jpg 1024w, https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro-300x200.jpg 300w, https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro-768x512.jpg 768w, https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro.jpg 1500w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>Raquel L\u00e1zaro Guti\u00e9rrez dirige desde la Universidad de Alcal\u00e1 el proyecto del Corpus Anotado multimodal que se integra en los proyectos que el Cl\u00faster mantiene activos. Se trata de una iniciativa en la que se cuenta con m\u00faltiples colaboradores de empresas privadas y que busca desarrollar un corpus anotado multimodal del espa\u00f1ol, lenguas cooficiales y variedades del espa\u00f1ol para la inteligencia artificial, que compile todos los datasets ling\u00fc\u00edsticos tanto p\u00fablicos como privados (no compartidos) disponibles, as\u00ed como aplicaciones y servicios de empresas. \u00bfQu\u00e9 es un corpus ling\u00fc\u00edstico y por qu\u00e9 es importante el desarrollo de corpus en espa\u00f1ol? Un corpus\u2026<\/p>\n","protected":false},"author":1,"featured_media":1067,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-1882","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categoria"],"blocksy_meta":"","acf":[],"jetpack_sharing_enabled":true,"jetpack_featured_media_url":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/wp-content\/uploads\/2023\/10\/dados-madera-letras-paginas-libro.jpg","_links":{"self":[{"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/posts\/1882","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/comments?post=1882"}],"version-history":[{"count":5,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/posts\/1882\/revisions"}],"predecessor-version":[{"id":1893,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/posts\/1882\/revisions\/1893"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/media\/1067"}],"wp:attachment":[{"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/media?parent=1882"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/categories?post=1882"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/citt-humanidadesdigitales.madrimasd.org\/index.php\/wp-json\/wp\/v2\/tags?post=1882"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}