Logo

TangoIA

Rendimiento

Resultados de Benchmarks

Evaluación del modelo Tango-70b en comparación con otros modelos de lenguaje

Comparación con otros modelos en la-leaderboard

ModeloPromedioAQuASBelebele SpaClinDiagnosESClinTreatESCOPA_esCrows Pairs SpanishEsCoLAFake News ESHumorQAMGSM_esNoticIAOffendESOpenBookQA_esPAWS-X_esRagQuASSpaLawExTELEIAWNLI ESXL-Sum_esXNLI_esXQuAD_esxStoryCloze_esPrecision
Tango-70b59.9075.7892.0065.7263.4389.6055.9671.7976.5725.4932.400.8672.6434.8070.9579.8751.2661.9077.4619.7152.3775.1674.72bfloat4
google/gemma-2-9b-it33.6285.9386.2283.1981.4278.8017.9634.5262.9445.10034.1164.529.3327.6088.0130.5335.7252.11024.2862.2935.01bfloat16
google/gemma-2-9b32.9783.0283.2677.7780.9368.8013.5928.7916.0045.104.800.2366.3312.0024.7086.795.8835.724.23029.7675.3347.98float32
meta-llama/Meta-Llama-3.1-8B-Instruct30.2385.3183.5681.7573.4072.006.0324.2460.1437.25028.7157.0012.0033.2088.6219.3321.4332.39025.3069.9435.54bfloat16
Qwen/Qwen2.5-7B27.6185.3784.8979.2581.9062.008.8120.7242.6645.105.203.9367.0310.6729.6090.4319.3314.2940.85025.3080.0538.19bfloat16
meta-llama/Meta-Llama-3.1-8B27.0483.0274.5280.7181.2162.00011.5319.5845.101.602.6066.2313.0730.1090.695.8801.41028.8674.3841.63bfloat16
utter-project/EuroLLM-9B25.8783.1067.7072.2474.5270.403.2518.297.3442.483.600.1970.2617.0731.0083.115.8814.297.04027.7176.9244.01bfloat16
BSC-LT/salamandra-7b-instruct25.1384.1357.3380.3882.0362.0010.677.688.740019.3867.8314.9319.5088.7818.2121.439.86024.2858.3130.38bfloat16
utter-project/EuroLLM-9B-Instruct24.4684.8169.7880.9077.7672.4011.2024.5738.1126.80026.8061.9113.6026.1090.7913.7321.4329.58024.8258.4833.69bfloat16
CohereForAI/aya-expanse-8b24.3083.4577.7878.8872.2468.009.2115.5319.58000.4662.238.5333.9089.0213.7350.0038.03015.7977.9834.08float16
BSC-LT/salamandra-7b24.0481.9322.0774.6878.1162.805.3721.4619.5845.102.400.1757.2710.4018.6087.785.88015.49026.1569.2146.92

Notas:

  • Promedio General: Media no ponderada de todas las métricas válidas de todas las 23 tareas evaluadas (46 valores totales)
  • Los resultados de otros modelos provienen de la-leaderboard
  • Tango-70b supera significativamente al segundo mejor modelo (google/gemma-2-9b-it con 33.62) por 26.28 puntos porcentuales
  • Tabla scrollable: Desplázate horizontalmente para ver todas las 23 tareas de evaluación
  • Tango-70b destaca especialmente en: Belebele Spa (92.00), COPA_es (89.60), RagQuAS (79.87), WNLI ES (77.46), EsCoLA (71.79) y XQuAD_es (75.16)

Reproducir los resultados

📁 Repositorio: sandbox-ai/tango-evals

  1. Crear y activar un virtual-env de Python ≥ 3.9:

    python -m venv .venv source .venv/bin/activate
  2. Instalar dependencias y el harness en modo editable:

    pip install -r requirements.txt pip install -e .
  3. Loguearse en Hugging Face:

    huggingface-cli login
  4. Ejecutar el script de evaluación:

    chmod +x run_laleaderboard_es.sh ./run_laleaderboard_es.sh
  5. Ejecutar el script de agregación de resultados:

    python aggregate_laleaderboard_es_acc.py

El script aggregate_laleaderboard_es_acc.py lee todos los archivos results_*.json en tango-evals/ y calcula:

  • Media de métricas de accuracy únicamente
  • Media de todas las métricas (primera métrica de cada tarea)