Autores: Sánchez Ortega P, Cruz Zavaleta B I, Hernández González Yenin, Rosales Gracia Sandra
Introducción: Los modelos de lenguaje basados en inteligencia artificial, como ChatGPT, han mostrado un rendimiento destacado en exámenes médicos internacionales, especialmente en el USMLE. Sin embargo, presentan limitaciones como la generación de respuestas erróneas o “alucinaciones”. En Mexico, el Examen Nacional de Aspirantes a Residencias Medicas (ENARM) es una de las pruebas más importantes para médicos generales, y hasta la fecha no existían estudios sobre el desempeño de ChatGPT en este contexto.
Objetivo: Evaluar el desempeño de ChatGPT en la resolución de preguntas del ENARM, determinando el porcentaje de aciertos, las diferencias según especialidad y los errores más frecuentes.
Materiales y métodos: Se diseño un estudio observacional, descriptivo, transversal y prospectivo. Se utilizaron 1,300 preguntas tipo ENARM (966 de Exarmed y 356 de Proedumed), todas con clave oficial confirmada, excluyendo reactivos visuales o con errores. Se utilizo ChatGPT en su versión GPT-5. El análisis incluyo estadística descriptiva con cálculo de proporciones y porcentajes de aciertos, clasificando por especialidad médica. La definición operacional de la variable desempeño de ChatGPT fue el total de las respuestas correctas a las preguntas tipo ENARM expresadas en un porcentaje.
Resultados: De 1,322 preguntas iniciales, se analizaron 1,300. ChatGPT respondio? correctamente 1,131 (87%) y fallo? en 169 (13%), se obtuvieron mejores resultados en Exarmed (88.9% de aciertos) frente a Proedumed (81.7%). Por especialidades, alcanzo? 100% de e?xito en anestesiologi?a, gene?tica, geriatri?a y ginecologi?a; el desempeño ma?s bajo fue en ortopedia (68.9%).
Conclusiones: ChatGPT (GPT-5) demostro? un desempen?o sobresaliente en preguntas del ENARM, superando en muchos casos los promedios de aspirantes humanos. No obstante, sus limitaciones —como el 13% de respuestas erro?neas y la variabilidad segu?n especialidad— obligan a usarlo con cautela.
Palabras clave: ENARM ChatGPT Modelos de lenguaje grandes.
2026-01-29 | 6 visitas | Evalua este artículo 0 valoraciones
Vol. 39 Núm.2. Julio-Diciembre 2025 Pags. 60-66 Rev. Esc. Med. Dr. J. Sierra 2025; 39(2)