Descripción
Proyecto integral de automatización que aprovecha los Modelos de Lenguaje Grandes (LLMs) para evaluar exámenes de certificación SAS. Esta iniciativa resultó en la creación de un leaderboard competitivo y el fine-tuning de un modelo Llama 3.3 70B utilizando la tecnología DeepResearch de Claude, cubriendo todos los temas incluidos en el examen de certificación SAS.
Tecnologías utilizadas
- Modelos de Lenguaje Grandes (LLMs)
- Llama 3.3 70B
- Claude DeepResearch
- Hugging Face
- SAS (Statistical Analysis System)
- Machine Learning
- Fine-tuning de modelos
- Sistemas de evaluación automatizada
Características principales
- Evaluación Automatizada de Exámenes: Sistema basado en LLM para evaluar conocimientos de certificación SAS
- Leaderboard Competitivo: Sistema de ranking en tiempo real para el rendimiento en exámenes
- Modelo Fine-tuneado: Modelo personalizado Llama 3.3 70B entrenado en temas SAS completos
- Integración DeepResearch: Utilizó DeepResearch de Claude para cobertura exhaustiva de temas
- Cobertura Integral: Incluye todos los temas del examen de certificación SAS
- Métricas de Rendimiento: Análisis detallado y mecanismos de puntuación
Resultados del Proyecto
- Automatización exitosa del proceso de evaluación de exámenes SAS
- Creación de un sistema de leaderboard transparente para evaluación competitiva
- Desarrollo de un modelo especializado fine-tuneado para consultas relacionadas con SAS
- Base de conocimiento integral que cubre todos los temas de certificación SAS