Selección de artículos I (Nov 2024)

¡Bienvenidos al primer resumen de artículos de SomosNLP!

Sabemos que es casi imposible mantenerse al día de todos los artículos científicos que van saliendo en los idiomas de la comunidad hispanohablante, así que aquí iniciamos esta serie mensual de resúmenes para compartir contigo una selección de artículos interesantes. Si tienes alguna sugerencia o quieres que comentemos tu trabajo, ¡escríbenos a info@somosnlp.com!

🔍 Desambiguando palabras: ¿Pueden los modelos entender nuestros dobles sentidos?

Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical Analysis

Paper: https://arxiv.org/html/2406.14678v2

Los investigadores han creado un nuevo conjunto de datos llamado SAW-C, lleno de frases en español diseñadas para probar si los modelos lingüísticos pueden distinguir entre diferentes sentidos de una misma palabra. Evalúan modelos basados en BERT y los resultados muestran que aunque capturan parte de la comprensión humana, todavía no alcanzan nuestro nivel. ¡Hay que seguir trabajando en la ambigüedad!

🌐 Traduciendo el quechua: Desafíos y soluciones con LLMs

Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem

Paper: https://arxiv.org/abs/2406.15625

Este estudio explora como mejorar la traducción del quechua sureño al español utilizando modelos de lenguaje grandes. Al agregar información extra como traducciones de morfemas y ejemplos paralelos, descubrieron que aún hay mucho por hacer debido a las variaciones regionales y dialectales. Además, resaltan la importancia de evitar errores y estereotipos al utilizar estos modelos con lenguas indígenas.

📰 Reviviendo periódicos del siglo XIX con LLMs

Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR Correction

Paper: https://arxiv.org/abs/2407.12838

Los autores presentan LatamXIX, un nuevo conjunto de datos de textos de periódicos latinoamericanos del siglo XIX. Los investigadores han utilizado LLMs para corregir errores de OCR en estos textos históricos, preservando los “errores” lingüísticos propios de la época. Una herramienta fascinante para estudiar la evolución del español y sus variaciones históricas.

🤖 BETO necesita clases de morfología: Evaluando su tokenizador

Morphological Evaluation of Subwords Vocabulary Used by BETO Language Model

Paper: https://arxiv.org/abs/2410.02283

Este análisis se centra en el modelo de lenguaje en español BETO y su tokenizador. Los autores investigan si el tokenizador aprende efectivamente las unidades morfológicas del español y descubren que no es así y que trabaja con otras unidades. Identificar estos problemas puede servir para mejorar cómo los modelos lingüísticos procesan nuestro idioma.

🩺 Preguntas médicas con argumentos: Conoce CasiMedicos-Arg

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures

Paper: https://arxiv.org/abs/2410.05235

Se presenta CasiMedicos-Arg, el primer conjunto de datos multilingüe de preguntas y respuestas médicas en español anotado con estructuras argumentativas. Esto proporciona información sobre el razonamiento detrás de las respuestas y contribuye al desarrollo de sistemas de IA más explicables para aplicaciones médicas. ¡Un gran avance para la salud y la tecnología!

🔄 Circuitos universales: El acuerdo sujeto-verbo en inglés y español

On the Similarity of Circuits across Languages: A Case Study on the Subject-Verb Agreement Task

Paper: https://arxiv.org/abs/2410.06496

Los autores estudiaron cómo los modelos de lenguaje manejan el acuerdo sujeto-verbo en inglés y español utilizando el modelo Gemma 2B. Descubrieron que los circuitos utilizados son altamente consistentes entre ambos idiomas. Este hallazgo nos ayuda a entender mejor cómo los modelos procesan estructuras gramaticales en diferentes lenguas.

¡Hasta la próxima!