Miguel García López
Data Scientist & AI Engineer
- Email: migue8gl@gmail.com
- Phone: 611 47 31 01
- Location: Granada, España
- LinkedIn: miguel-garcía-lópez-b5bb69273
- GitHub: Migue8gl
Perfil
Data Scientist con varios años de experiencia construyendo modelos de clasificación en producción (F1 hasta 0.95), pipelines ETL a escala y sistemas de búsqueda semántica sobre +500K documentos. Especializado en NLP (fine-tuning de transformers, RAG) y modelado predictivo con ML clásico (Scikit-Learn, XGBoost), Deep Learning (PyTorch) y análisis de datos con Pandas. Enfoque en análisis exploratorio, feature engineering, validación estadística e impacto de negocio.
Experiencia
Data Scientist & AI Engineer
GPU Solutions · Granada, España
Feb 2025 – presente
- Entrenamiento de un clasificador de prompt injection sobre dataset curado a partir de múltiples fuentes públicas y aumentado con LLM: +90% en accuracy y F1, con +10% de mejora vs. LLM con prompt especializado, inferencia en CPU en milisegundos. Demo comparativa con Streamlit.
- Fine-tuning de Gemma con QLoRA sobre documentación técnica, evaluando con ROUGE, BLEU y BERTScore. +18% ROUGE-L y +22% BERTScore F1 vs. modelo base, validado con evaluación humana en QA.
- Sistemas RAG escalables sobre +500K documentos en Qdrant (Azure). Agentes conversacionales con LangGraph evaluados con Phoenix (observabilidad) y LLM-as-judge, con score personalizado basado en flujo de nodos, ejecución de herramientas y calidad de respuestas (85% coherencia).
- Pipelines de scraping multiproceso para extracción diaria de datos públicos (HTML, PDF): aceleración ~10x vs. enfoque secuencial.
- Visión por computadora clásica (OpenCV) para eliminación de líneas de recorte en imágenes destinadas a software de visualización 3D.
- Despliegue con Docker, Kubernetes y SLURM. Interfaces con React (frontend) y FastAPI (backend).
Data Scientist
EDUCA EDTECH · Granada, España
May 2024 – Feb 2025
- Clasificación jerárquica de texto (+100 categorías) con DistilBERT: F1 0.95 (nivel alto) / 0.80 (granular). Comparación con FastText: métricas equivalentes con mayor eficiencia en inferencia.
- Modelo XGBoost de predicción de conversión de cupones, usado por el equipo comercial para optimizar campañas y flujo de conversión de la plataforma.
- Búsqueda semántica híbrida (embeddings + BM25) en Pinecone sobre +1.000 categorías. Clustering jerárquico por densidad + LLM para consolidación automática de taxonomías.
- Pipelines ETL con Airflow (varios GB/día), despliegue de modelos con FastAPI. Validación estadística rigurosa: Wilcoxon, intervalos de confianza, validación cruzada estratificada.
- Diseño de esquemas de base de datos normalizados para integridad y eficiencia en consultas analíticas.
Desarrollador de Software
EDUCA EDTECH · Granada, España
Feb 2023 – May 2024
- Desarrollo full-stack con PHP (Symfony), Bootstrap y APIs RESTful (OpenAPI/Swagger). Gestión ágil con Jira y Git.
Educación
Universidad de Granada
Máster en Ciencia de Datos · Granada, España
2024 – 2025
Universidad de Granada
Grado en Ingeniería Informática · Granada, España
2019 – 2024
Habilidades Técnicas
Modelado & ML: Scikit-Learn, XGBoost, PyTorch, HuggingFace Transformers, clasificación, regresión, clustering, feature engineering, validación cruzada, tests estadísticos
NLP & LLMs: Fine-tuning (QLoRA/PEFT), RAG, LangGraph, embeddings, búsqueda semántica, evaluación ROUGE/BLEU/BERTScore
Datos & Infra: Pandas, Polars, NumPy, SQL, Matplotlib, Seaborn, Airflow, Docker, Kubernetes, SLURM, GCP, Azure, FastAPI, Pinecone, Qdrant
Lenguajes: Python, SQL, C++, PHP, JavaScript
Proyectos
Metaheurísticas para Selección de Características
Trabajo de Fin de Grado, 2024
Comparación de Algoritmos Genéticos, PSO y evolutivos novedosos sobre +10 datasets de alta dimensión. Reducciones del 80% en features con pérdida de accuracy <5%, validado con tests no paramétricos.
Información Adicional
Idiomas: Español (nativo), Inglés (B2 – competencia profesional)
Certificaciones: LangGraph · DeepLearning.AI — LLMOps · NVIDIA — CUDA with Python