ISSN: 0300-8932 Factor de impacto 2024 4,9
Pruebas corregidas Pruebas preliminares

Viaje al corazón de las palabras
Inteligencia artificial (IA): …y otra de cal

https://doi.org/10.1016/j.recesp.2025.08.016
The English version of this article will be available soon

Opciones

El UMSLE (United States Medical Licensing Examination) es un examen nacional obligatorio que debe aprobar todo graduado en medicina para poder especializarse o ejercer la medicina en los Estados Unidos. Más o menos equivalente, pues, al examen MIR (médico interno residente) en España o al ENARM (examen nacional de aspirantes a residencias médicas) en México. Como les contaba aquí mismo hace dos años1, un grupo de investigadores de Microsoft y OpenAI pidieron a un programa de IA generativa, ChatGPT (o GePeTo), que respondiera un examen UMSLE oficial y sus resultados fueron espectaculares: sin ningún tipo de capacitación ni entrenamiento específicos en tareas médicas, GePeTo superó en más de 20 puntos la nota de corte necesaria para aprobar el examen.

Es bien sabido, no obstante, que los modelos masivos de lenguaje natural como GePeTo funcionan mucho mejor cuando trabajan en inglés (que es su lengua primordial de entrenamiento: se calcula que más del 93% del conjunto de entrenamiento de GPT-3 estaba compuesto por textos escritos en inglés). Enfrentado al examen MIR del año 2023, por ejemplo, GePeTo solo fue capaz de obtener un mediocre 51,4% de aciertos.

En el ámbito de la IA generativa, no obstante, la evolución está siendo rapidísima, y desde el año pasado tenemos ya un chatbot (eso sí, específicamente entrenado para afrontar el examen MIR español) capaz de obtener resultados aún más espectaculares que los logrados por GePeTo en el UMSLE estadounidense. Se trata de MIRI, quien no solo superó el examen MIR 2025 del Ministerio de Sanidad, sino que lo hizo con un porcentaje récord de aciertos: 195 respuestas acertadas (95,59%) sobre las 204 que finalmente se dieron como válidas. Muy por encima, pues, del médico humano que obtuvo la primera plaza: Óleg Logúnov, ruso afincado en Valencia, con 174 preguntas acertadas.

Tomo el dato de un artículo reciente2 publicado por un grupo de la Universidad de Alcalá. Comparan en él más de veinte modelos masivos de lenguaje natural (AWS Nova Lite, AWS Nova Micro, AWS Nova Pro, Claude Haiku 3.5, Claude Haiku 3.5 New, Claude Sonet 3.5, Deepseek Chat, Deepseek Reasoner, Gemini 1.5 Flash, Gemini 1.5 Flash-BB, Gemini 1.5 Pro, Gemini 2.0 Flash, GPT-3.5 Turbo, GPT-4 Turbo, GPT-4o, GPT-4o Mini, Grok 2, Grok Beta, Grok Vision Beta, Llama 3.2 1B Instruct, Llama 3.2 3B Instruct, MIRI Pro, o1 y o1-mini) enfrentados a situaciones clínicas complejas: los exámenes MIR de las convocatorias de 2024 y 2025, con énfasis en su capacidad de razonamiento clínico, interpretación de imágenes y cálculos epidemiológicos. El examen, como es sabido, consta de 210 preguntas de opción múltiple que abarcan diversos ámbitos médicos, e incorpora casos prácticos, interpretación de imágenes (25 preguntas) y análisis de datos de laboratorio.

Los más flojos resultaron ser los modelos Llama: Llama 3.2 3B Instruct, por ejemplo, obtuvo apenas un 43,14% de aciertos (88/210) en el examen MIR 2025. Pero me interesa destacar que varios modelos igualaron o superaron ampliamente el porcentaje de acierto del mejor candidato humano: el 88,5% en 2024 y el 78,57% en 2025. Grok Vision Beta obtuvo sendos porcentajes del 87,80 y el 85,29%; GPT-4 Turbo, del 89,27 y el 86,27%; Claude Sonet 3.5, del 92,68 y el 88,73%; Deepseek Reasoner, del 94,15 y el 93,63%. El mejor de todos, no obstante, resultó ser una IA entrenada en España: MIRI Pro, con unos resultados deslumbrantes del 97,56% en 2024 (200/205 respuestas acertadas) y del 95,59% en 2025 (195/204 respuestas acertadas).

MIRI, presentada en verano de 2024 por PROMIR (la plataforma de aprendizaje en línea de Editorial Médica Panamericana), es un chatbot diseñado específicamente para preparar el examen MIR en España, cuya única y exclusiva fuente de conocimiento son los contenidos de dicha editorial, todo el material didáctico de PROMIR y una base de datos integrada por más de 35.000 preguntas, incluidas las que planteó el Ministerio de Sanidad en las dieciséis últimas convocatorias del examen MIR. Los alumnos se sirven de MIRI como una profesora o preparadora particular que resuelve dudas, explica los errores cometidos y fomenta el razonamiento clínico; y lo hace en formatos muy variados: resúmenes de temas, tablas comparativas, esquemas, tarjetas de memoria (flashcards), algoritmos, mapas mentales y reglas mnemotécnicas, entre otros.

Fernando A. Navarro

Consejo Editorial, Revista Española de Cardiología

Obras de referencia recomendadas:

BIBLIOGRAFÍA
[1]
F.A. Navarro.
Inteligencia artificial y lenguaje médico (y IV).
Rev Esp Cardiol., (2024), 77 pp. 279-280
[2]
C. Luengo Vera, I. Ferro Picon, M.T. Del Val Nunez, et al.
Evaluating large language models on the Spanish medical intern resident (MIR) examination 2024/2025: A comparative analysis of clinical reasoning and knowledge application.
¿Es usted profesional sanitario apto para prescribir o dispensar medicamentos?