Hackathon SomosNLP 2024: #Somos600M

Vamos a crear un corpus que nos represente a los 600M de personas hispanohablantes y a estandarizar cómo evaluar nuestros LLMs.


Somos 600M de personas hispanohablantes, vamos a darle a nuestro idioma tan extendido y rico una representación justa en el ámbito del PLN. Participa en el Hackathon SomosNLP, una competición internacional online cuyo objetivo principal escrear recursos diversos y abiertos de PLN en español y lenguas cooficiales.

¿Lo mejor? ¡TODO EL MUNDO puede colaborar! 🎉

GIF Hackathon #Somos600M

(English version)

¿Cómo puedes colaborar?

💡 Asiste a las charlas de especialistas

En SomosNLP creemos que formarte también es una manera de colaborar con el futuro del PLN en español. Durante los martes del mes de marzo tendrán lugar diversas keynotes impartidas por profesionales del mundo del Procesamiento del Lenguaje Natural. Estos eventos son gratuitos y están abiertos a todas las personas.

💻 Crea una base de datos y entrena tu propio LLM

Al unirte a este hackathon tendrás la oportunidad de colaborar con la creación de LLMs de calidad e inclusivos en tu lengua. Aplica tus conocimientos para superar los retos de cada etapa de desarrollo de tu LLM: creación del corpus, entrenamiento y evaluación.

Cada equipo participante (1-5 personas) generará un corpus de instrucciones, entrenará su LLM y creará una demo para compartir su gran trabajo con la comunidad.

Desde SomosNLP queremos animarte a participar independientemente de tus conocimientos actuales. Organizaremos talleres prácticos y sesiones de mentoría para que puedan participar tanto grupos de institutos de investigación como grupos de estudiantes de grado, ¡todos los proyectos suman!

🔍 Valida traducciones del inglés al español

¿Hablas español e inglés? Independiente de si sabes de IA nos puedes ayudar a crear el primer ranking público de LLMs en español 🔥

En comunidad vamos a validar las traducciones hechas por la Universidad de Oregón de las bases de datos utilizadas en la famosa Open LLM Leaderboard de Hugging Face. Gracias al apoyo de Argilla y Hugging Face, colaborar es muy sencillo:

  1. Crea una cuenta enHugging Face
  2. Entra en elespacio de anotación
  3. Valida la traducción de un párrafo del inglés al español
  4. Repite el paso 3 cuantas veces quieras y mira cómo subes en el ranking decolaboraciones
  5. Tu nombre aparecerá como parte del equipo que creó las bases de datos
📚 Dona una base de datos

Como sabes, la clave de la IA reside en los datos. Como has visto, la iniciativa #Somos600M está centrada principalmente en la creación y recolección de bases de datos. Así quetanto si tienes un maravilloso corpus como si tienes un montón de documentos, ¡seguro que puedes colaborar!

🤗 Únete al equipo

Puedes colaborar creando contenido, recursos de apoyo (e.g., tutoriales), escribiendo artículos o investigando sobre IA en español.

🔊 Propón una ponencia

Invitamos a personas del ámbito académico o industrial, expertas y apasionadas del campo de la IA y en particular del PLN, a compartir sus conocimientos y avances. ¡Lee los temas sugeridos y mándanos tu propuesta!

🧑‍🏫 Ofrece una mentoría

Comparte tu experiencia y conocimiento apoyando a los equipos participantes a crear bases de datos de calidad y entrenar un buen LLM. Puedes impartir una mentoría puntual o continua. ¡Piensa en tus puntos fuertes y ofrece una mentoría!

🙌 Patrocina este maravilloso evento

SomosNLP es una comunidad sin ánimo de lucro, buscamos donaciones, premios y visibilidad para conseguir nuestros ambiciosos objetivos y crear impacto en el mundo hispanohablante. Toda la ayuda es bienvenida, descubre cómo puedes apoyar nuestra misión ofreciendo visibilidad, vales y donaciones. ¡Contamos contigo!

🚀 Nuestros objetivos

La democratización del PLN en español es nuestro objetivo principal en SomosNLP y creemos que una de las mejores maneras de avanzar hacia este objetivo es impulsando la creación de recursos abiertos de PLN en nuestro idioma.

En las ediciones pasadas contamos en total con más de 1000 participantes de 30 países distintos, superamos las 20.000 visualizaciones de nuestros eventos, aprendimos de 20 ponentes, y desarrollamos 50 proyectos relacionados con los Objetivos de Desarrollo Sostenibles de la ONU, demostrando el potencial del PLN para abordar desafíos sociales. ¡Volvemos a por eso y mucho más! 💪

En esta tercera edición nos sumamos a la revolución de los LLMs y continuamos fijando objetivos de alto impacto:

  1. 🌎 Crear el mayorcorpus de instrucciones de calidad que represente las variedades del español de los 600M de personas hispanohablantesque nos permita entrenar modelos nativos e inclusivos.
  2. ✅ Crear la primeraleaderboard pública de LLMs en españolque nos permita estandarizar cómo evaluar y comparar los diferentes modelos en español y lenguas cooficiales.

¡Únete ya al mayor hackathon open-source de Procesamiento del Lenguaje Natural en español! 🚀

Cartel del Hackathon 2024

👏 Agradecimientos

Muchísimas gracias por vuestro tiempo y por apoyarnos para que nuestra iniciativa llegue más lejos. ¡Vamos a hacer el PLN más inclusivo!

Patrocinios de Oro

Argilla

Hugging Face

Instituto de Ingeniería del Conocimiento

Calamo&Cran

LenguajeNatural.AI

Saturdays AI

Impulse Data & AI Conference

Universidad de Puerto Rico

Yamato

Patrocinios de Comunidad

AlexFocus

Mujeres Tech

Proyecto ILENIA

Sociedad Española para el Procesamiento del Lenguaje Natural

DiverTLes

Women Tech Global Conference

Spain AI

Big Onion

Universidad Nacional de Loja


🤗 ¡Conecta!

Para estar al día de todos los eventos y avances: