Bases de Datos

Lista de bases de datos open-source en español.


Catalonia Independence Corpus
clasificación de sentimientos
Esta base de datos contiene dos corpus en español y catalán que contienen mensajes de Twitter anotados para la detección de opiniones. Cada corpus está anotado con tres posturas\: 'against', 'favor' y 'neutral' (a favor, en contra, neutral) respecto a la independencia de Cataluña.


eHealth-KD
NER (Named Entity Recognition)
Base de datos del challenge eHealth-KD de IberLEF 2020. Está diseñado para la identificación de entidades y relaciones semánticas en documentos sanitarios españoles.


HEAD-QA
preguntas de opción múltiple
HEAD-QA es un conjunto de datos de preguntas de opción múltiple sobre medicina. Las preguntas proceden de exámenes para acceder a un puesto en el sistema sanitario español y suponen un reto incluso para humanos altamente especializados.


Large Spanish Corpus
modelado del lenguaje
pre-entrenamiento
El Large Spanish Corpus es una compilación de 15 corpus españoles sin etiquetar que abarcan desde la Wikipedia hasta las notas del Parlamento Europeo. Cada configuración contiene los datos correspondientes a cada corpus diferente.


Mucho Cine
clasificación de sentimientos
El conjunto de datos de reseñas de Muchocine contiene 3.872 reseñas de películas en español, cada una de ellas con un breve resumen y una calificación en una escala de 1 a 5.


Spanish Billion Words
modelado del lenguaje
pre-entrenamiento
Spanish Billion Words es un corpus no anotado de casi 1.500 millones de palabras, compuesto por diferentes recursos online.


WikiCorpus
modelado del lenguaje
POS (Part of Speech)
El Wikicorpus es un corpus trilingüe (catalán, español, inglés) que contiene grandes partes de la Wikipedia de 2006 y que ha sido enriquecido automáticamente con información lingüística. En su versión actual, contiene más de 750 millones de palabras.


¿Echas en falta alguna base de datos? Te animamos a abrir una PRaquíy contribuir a la lista 🚀