¡Bienvenidos al primer resumen de artículos de SomosNLP!
Sabemos que es casi imposible mantenerse al día de todos los artículos científicos que van saliendo en los idiomas de la comunidad hispanohablante, así que aquí iniciamos esta serie mensual de resúmenes para compartir contigo una selección de artículos interesantes. Si tienes alguna sugerencia o quieres que comentemos tu trabajo, ¡escríbenos ainfo@somosnlp.com!
🔍 Desambiguando palabras: ¿Pueden los modelos entender nuestros dobles sentidos?
Evaluating Contextualized Representations of (Spanish) Ambiguous Words: A New Lexical Resource and Empirical AnalysisEnlace:https://arxiv.org/html/2406.14678v2
Los investigadores han creado un nuevo conjunto de datos llamado SAW-C, lleno de frases en español diseñadas para probar si los modelos lingüísticos pueden distinguir entre diferentes sentidos de una misma palabra. Evalúan modelos basados en BERT y los resultados muestran que aunque capturan parte de la comprensión humana, todavía no alcanzan nuestro nivel. ¡Hay que seguir trabajando en la ambigüedad!
🌐 Traduciendo el quechua: Desafíos y soluciones con LLMs
Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the ProblemEnlace:https://arxiv.org/abs/2406.15625
Este estudio explora como mejorar la traducción del quechua sureño al español utilizando modelos de lenguaje grandes. Al agregar información extra como traducciones de morfemas y ejemplos paralelos, descubrieron que aún hay mucho por hacer debido a las variaciones regionales y dialectales. Además, resaltan la importancia de evitar errores y estereotipos al utilizar estos modelos con lenguas indígenas.
📰 Reviviendo periódicos del siglo XIX con LLMs
Historical Ink: 19th Century Latin American Spanish Newspaper Corpus with LLM OCR CorrectionEnlace:https://arxiv.org/abs/2407.12838
Los autores presentan LatamXIX, un nuevo conjunto de datos de textos de periódicos latinoamericanos del siglo XIX. Los investigadores han utilizado LLMs para corregir errores de OCR en estos textos históricos, preservando los “errores” lingüísticos propios de la época. Una herramienta fascinante para estudiar la evolución del español y sus variaciones históricas.
🤖 BETO necesita clases de morfología: Evaluando su tokenizador
Morphological Evaluation of Subwords Vocabulary Used by BETO Language ModelEnlace:https://arxiv.org/abs/2410.02283
Este análisis se centra en el modelo de lenguaje en español BETO y su tokenizador. Los autores investigan si el tokenizador aprende efectivamente las unidades morfológicas del español y descubren que no es así y que trabaja con otras unidades. Identificar estos problemas puede servir para mejorar cómo los modelos lingüísticos procesan nuestro idioma.
🩺 Preguntas médicas con argumentos: Conoce CasiMedicos-Arg
CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative StructuresEnlace:https://arxiv.org/abs/2410.05235
Se presenta CasiMedicos-Arg, el primer conjunto de datos multilingüe de preguntas y respuestas médicas en español anotado con estructuras argumentativas. Esto proporciona información sobre el razonamiento detrás de las respuestas y contribuye al desarrollo de sistemas de IA más explicables para aplicaciones médicas. ¡Un gran avance para la salud y la tecnología!
🔄 Circuitos universales: El acuerdo sujeto-verbo en inglés y español
On the Similarity of Circuits across Languages: A Case Study on the Subject-Verb Agreement TaskEnlace:https://arxiv.org/abs/2410.06496
Los autores estudiaron cómo los modelos de lenguaje manejan el acuerdo sujeto-verbo en inglés y español utilizando el modelo Gemma 2B. Descubrieron que los circuitos utilizados son altamente consistentes entre ambos idiomas. Este hallazgo nos ayuda a entender mejor cómo los modelos procesan estructuras gramaticales en diferentes lenguas.
¡Hasta la próxima!