Resumen
La recuperación densa de casos jurídicos en español requiere un conjunto de datos estructurado para entrenar modelos bi-encoder. Sin embargo, la mayoría de los recursos jurídicos en español se han diseñado para clasificación o extracción de entidades y no proporcionan datos de entrenamiento orientados a recuperación densa. En este trabajo presentamos TripLegal-CL, un corpus multijurisdiccional de 592.382 instancias contrastivas estructurado para aprendizaje contrastivo, generado a partir de 148.637 documentos jurídicos públicos mediante un modelo LLM. Sobre esta base, para comprobar la utilidad del recurso, ajustamos modelos multilingues bi-encoder mediante aprendizaje contrastivo a partir del corpus generado y los comparamos con sus versiones de línea base. Los modelos ajustados obtuvieron mejoras de hasta +18,2 puntos porcentuales en Acc@1 y +15,3 puntos porcentuales en MAP@100. Estos resultados confirman que el corpus resulta eficaz como datos de entrenamiento para el ajuste fino contrastivo de recuperadores densos en el dominio legal.
| Título traducido de la contribución | Triplegal-cl: Un corpus legal español multijurisdiccional para el entrenamiento contrastivo de modelos de recuperación densa |
|---|---|
| Idioma original | Inglés estadounidense |
| Páginas (desde-hasta) | 1-12 |
| Número de páginas | 12 |
| Publicación | Procesamiento de Lenguaje Natural |
| Volumen | 76 |
| N.º | 76 |
| DOI | |
| Estado | Publicada - 30 mar. 2026 |
Palabras clave
- Contrastive learning
- Bi-encoder models
- Spanish legal corpus
- Dense retrieval
Areas de Conocimiento del CACES
- 316A Desarrollo y análisis de software y aplicaciones
Huella
Profundice en los temas de investigación de 'Triplegal-cl: Un corpus legal español multijurisdiccional para el entrenamiento contrastivo de modelos de recuperación densa'. En conjunto forman una huella única.Citar esto
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver