Ir directamente a la navegación principal Ir directamente a la búsqueda Ir directamente al contenido principal

Triplegal-cl: A Multi-jurisdictional Spanish Legal Corpus for Contrastive Training of Dense Retrieval Models

Título traducido de la contribución: Triplegal-cl: Un corpus legal español multijurisdiccional para el entrenamiento contrastivo de modelos de recuperación densa

Producción científica: Contribución a una revistaArtículo

Resumen

La recuperación densa de casos jurídicos en español requiere un conjunto de datos estructurado para entrenar modelos bi-encoder. Sin embargo, la mayoría de los recursos jurídicos en español se han diseñado para clasificación o extracción de entidades y no proporcionan datos de entrenamiento orientados a recuperación densa. En este trabajo presentamos TripLegal-CL, un corpus multijurisdiccional de 592.382 instancias contrastivas estructurado para aprendizaje contrastivo, generado a partir de 148.637 documentos jurídicos públicos mediante un modelo LLM. Sobre esta base, para comprobar la utilidad del recurso, ajustamos modelos multilingues bi-encoder mediante aprendizaje contrastivo a partir del corpus generado y los comparamos con sus versiones de línea base. Los modelos ajustados obtuvieron mejoras de hasta +18,2 puntos porcentuales en Acc@1 y +15,3 puntos porcentuales en MAP@100. Estos resultados confirman que el corpus resulta eficaz como datos de entrenamiento para el ajuste fino contrastivo de recuperadores densos en el dominio legal.
Título traducido de la contribuciónTriplegal-cl: Un corpus legal español multijurisdiccional para el entrenamiento contrastivo de modelos de recuperación densa
Idioma originalInglés estadounidense
Páginas (desde-hasta)1-12
Número de páginas12
PublicaciónProcesamiento de Lenguaje Natural
Volumen76
N.º76
DOI
EstadoPublicada - 30 mar. 2026

Palabras clave

  • Contrastive learning
  • Bi-encoder models
  • Spanish legal corpus
  • Dense retrieval

Areas de Conocimiento del CACES

  • 316A Desarrollo y análisis de software y aplicaciones

Huella

Profundice en los temas de investigación de 'Triplegal-cl: Un corpus legal español multijurisdiccional para el entrenamiento contrastivo de modelos de recuperación densa'. En conjunto forman una huella única.

Citar esto