La innovación tecnológica aplicada a la lingüística y sus implicaciones éticas en un sector emergente protagonizan el curso de verano del CIIT en HD y TE
El Clúster de Humanidades Digitales y Tecnologías del Español reúne a importantes figuras de la lingüística computacional en el curso Avances en tecnologías del lenguaje para la sociedad del siglo XXI en los Cursos de Verano de el Escorial.
Los Cursos de Verano de la Universidad Complutense de Madrid (UCM) en San Lorenzo del Escorial acogieron entre el 17 y el 19 de julio de 2024 el curso “Avances en tecnologías del lenguaje para la sociedad del siglo XXI” organizado por el Clúster de Innovación Tecnológica y Talento de Humanidades Digitales y Tecnologías del Español de la Comunidad de Madrid (CIIT en HD y TE) que ha contado con importantes figuras de este ámbito.
El miércoles 17 de junio tuvo lugar la presentación del curso de la mano de Raquel Lázaro Gutiérrez, profesora de la Universidad de Alcalá de Henares y directora del CITT, así como del curso de verano. A continuación, el reconocido experto internacional en Procesamiento del Lenguaje Natural y Lingüística Computacional, Ruslan Mitkov ofreció la magistral ponencia Natural Language Processing in the Artificial Intelligence Era: the Wind of Change is Blowing.
El desarrollo tecnológico al servicio de la lingüística
Se centró especialmente en el uso de la IA generativa, el aprendizaje profundo y los Modelos de lenguaje extenso (LLM). Para ilustrarlo, expuso diferentes casos de estudio, así como herramientas como ChatGPT. Mitkov, profesor de la Universidad de Lancaster, ha sido reconocido por sus logros profesionales y de investigación con el título de Doctor Honoris Causa en la Universidad de Plovdiv (2011), en la Universidad Veliko Tarnovo (2014) y en la Nueva Universidad Búlgara de Sofía (2022).
Por la tarde, Amelia Sanz, vicedecana de Digitalización y Prácticas en la Facultad de Filología de la Universidad Complutense de Madrid (UCM), moderó la mesa redonda Innovación y nuevos mercados para las tecnologías del español. Estuvo acompañada por Cristina Aranda Gutiérrez, CEO en BIG ONION; Nieves Ábalos Serrano, cofundadora y CPO en MONOCEROS, Raquel Richi,n fundadora y CEO en Langoo.io; e Irene Cid Vega, Business Technology Lead en IBM.
El debate estuvo protagonizado por la evolución que está experimentando el mercado español en el campo de la lingüística, así como los perfiles emergentes para las tecnologías del español. No fue casualidad que en esta mesa compuesta enteramente por mujeres se hablara a de la paulatina feminización del ámbito tecnológico. Compartieron sus experiencias y enfoques con una implicada audiencia que se interesó especialmente por la aplicación de la Inteligencia Artificial a la lingüística.
Lenguaje claro, empatía y ética en un entorno en pleno desarrollo
El lenguaje claro abrió la segunda de las jornadas del curso de verano. El jueves 18 de julio, Antonio Martín, CEO en CALAMO y Sara Pistola, investigadora de la Universidad Nacional a Distancia (UNED) ofrecieron sendas ponencias sobre la importancia de la divulgación del lenguaje claro y el uso de las nuevas tecnologías para avanzar en el desarrollo del lenguaje claro, respectivamente.
En primer lugar, en Lenguaje claro: el fin del “siempre se ha hecho así” Martín explicó los inicios del lenguaje claro y su evolución legislativa tanto a nivel nacional e internacional, desde las primeras demandas ciudadanas en Noruega hasta las grandes protestas en España a raíz del fraude de las preferentes en 2014, que supuso un punto de inflexión para que las empresas se comprometieran a implantar políticas de lenguaje claro. Como conclusión, Martín cerró su exposición con la idea de que «el lenguaje claro no es otra cosa que empatía: Conocer al interlocutor para adaptar el mensaje»
Pistola tomó el relevo de algunas de las reflexiones planteadas por Martín en torno a la aplicación de la tecnología en el lenguaje claro. En concreto, hizo un repaso del desarrollo del procesamiento del lenguaje natural (PLN) y su utilidad a la hora de impulsar el lenguaje claro. Finalmente, también destacó el impulso que ha experimentado gracias al desarrollo de modelos de IA generativa y mostró diferentes herramientas que facilitan la preparación o adaptación de textos de ámbitos especializados, como el sistema arText.
Tras un breve descanso, fue el turno de Doaa Samy Khalil Shawer, profesora de la UCM, que además de introducir aspectos de carácter técnico en torno a los paradigmas del lenguaje computacional, como el entrenamiento y la evaluación de modelos, profundizó en importantes consideraciones éticas, sociales y legales con relación al uso de la tecnología y de los datos.
En este sentido, planteó interesantes reflexiones, desde la pertinencia de determinados sesgos en contextos específicos (por ejemplo, el sexo o la edad en investigación sanitaria) a la corriente que demanda una IA verde que tenga en cuenta la huella de carbono en su propio desarrollo para reducir la contaminación que generan los superordenadores debido al elevado consumo energético.
Los corpus Lingüísticos: de la industria a la representación social
Salvador Ros profesor de la UNED moderó una mesa redonda centradas en otro de los temas fundamentales del curso: los corpus lingüísticos. Contó con la presencia de Carlos Milán Figueredo, Sr. Solutions Architect en AWS; Alicia Díaz Sánchez, Sr. Computational Linguist en Minsait; y Guillermo López Gallego, subdirector general de Fomento del Español en el Mundo en el Ministerio de Asuntos Exteriores, Unión Europea y Cooperación de España.
Díaz Sánchez explicó el ciclo del dato en proyectos de procesamiento de lenguaje natural en la aplicación práctica en la industria. Milán Figueredo, destacó la importancia de la calidad de los datos, por encima incluso de la calidad del modelo de IA generativa, y mostró herramientas que permiten generar recursos basados en IA incluso a personas sin formación técnica. Por su parte, López Gallego, habló sobre la importancia de garantizar la representación del español y las lenguas cooficiales en los corpus lingüísticos. En este sentido, hizo hincapié en la relevancia de generar corpus más extensos, bien etiquetados y de mayor calidad para poder diferenciar las variantes del español.
El encargado de cerrar el curso de verano el viernes 19 de julio fue el propio Ros. En Novedades y últimos avances de las tecnologías del lenguaje y la inteligencia artificial hizo un repaso de los principales temas tratados a lo largo de la formación. Así concluyen tres días de experiencias compartidas, nuevos aprendizajes y un largo camino por recorrer en un sector en amplio desarrollo.