El Dr. Adam Rodman, quien es experto en medicina interna del Centro Médico Beth Israel Deaconess de Boston, esperaba con confianza que los chatbots creados para utilizar Inteligencia Artificial (IA) ayudarían a los médicos al diagnóstico de enfermedades. Él estaba equivocado. En cambio, en un estudio que el Dr. Rodman ayudó a diseñar, los médicos a los que se les proporcionó ChatGPT-4 de OpenAI junto con los recursos convencionales obtuvieron resultados apenas mejores que los médicos que no tenían acceso al bot. Y, cabe aclarar que, para sorpresa de los investigadores, el popular “ChatGPT” por sí solo superó a los médicos. A continuación, todos los detalles en cuanto a este inherente tema.
Dr. AI: diagnóstico de enfermedades y ChatGPT
“Me quedé en shock”, comentó el Dr. Rodman.
El chatbot, de OpenAI, obtuvo una puntuación media del 90% al diagnosticar una enfermedad a partir de un informe de caso y explicar su razonamiento. Los médicos a los que se les asignó aleatoriamente usar el chatbot obtuvieron una puntuación media del 76%. Los que fueron asignados aleatoriamente a no utilizarlo obtuvieron una puntuación media del 74%.
Según se informa, el estudio mostró más que solo el rendimiento superior del chatbot.
Reveló la creencia a veces inquebrantable de los médicos en el diagnóstico que hicieron, incluso cuando un chatbot potencialmente sugiere uno mejor.
El estudio demostró que, aunque los médicos están expuestos a las herramientas de Inteligencia Artificial para su trabajo, pocos saben cómo aprovechar las capacidades de los chatbots. Como resultado, no lograron aprovechar la capacidad de los sistemas de IA para resolver problemas de diagnóstico complejos y ofrecer explicaciones para sus diagnósticos.
Los sistemas de IA deberían ser “extensiones del médico”, señaló el Dr. Rodman, ofreciendo segundas opiniones valiosas sobre los diagnósticos.
Pero al parecer, todavía queda mucho camino por recorrer antes de que ese potencial se haga realidad.
Historial de casos, futuro de casos
Para ser más precisos, el experimento involucró a 50 médicos, una mezcla de residentes y médicos asistentes reclutados a través de algunos grandes sistemas hospitalarios estadounidenses, y fue publicado el mes pasado en la revista JAMA Network Open.
Cabe aclarar que, a los sujetos de prueba se les dieron 6 historias clínicas y se les calificó según su capacidad para sugerir diagnósticos y explicar por qué los favorecían o descartaban. Sus calificaciones también incluían la capacidad de acertar en el diagnóstico final.
Los evaluadores eran expertos médicos que sólo veían las respuestas de los participantes, sin saber si eran de un médico con ChatGPT, de un médico sin él o de ChatGPT solo.
Vale la pena destacar que, los casos clínicos utilizados en el estudio se basaron en pacientes reales y forman parte de un conjunto de 105 casos que los investigadores han usado desde los años 90. Los casos nunca se publicaron intencionalmente para que los estudiantes de medicina y otros profesionales pudieran llevar a cabo pruebas con ellos sin ningún conocimiento previo. Eso también significó que ChatGPT no pudo entrenarse con ellos.
Pero, para ilustrar en qué consistía el estudio, los investigadores publicaron uno de los 6 casos en los que se evaluó a los médicos, junto con las respuestas a las preguntas de la prueba sobre ese caso de un médico que obtuvo una puntuación alta y de otro que obtuvo una puntuación baja.
El caso experimental se refería a un paciente de 76 años que sufría fuertes dolores en la zona lumbar, los glúteos y también en las pantorrillas al caminar. El dolor comenzó unos días después de que le hubieran realizado una angioplastia con balón para ensanchar una arteria coronaria. Había recibido tratamiento con heparina, un anticoagulante, durante 48 horas después del procedimiento.
El hombre se quejaba de que tenía fiebre y estaba cansado. Su cardiólogo le había hecho unos análisis de laboratorio que indicaban una nueva aparición de anemia y así mismo, una acumulación de nitrógeno y otros productos de desecho renal en la sangre. Cabe aclarar que el hombre se había sometido a una cirugía de bypass por una enfermedad cardíaca una década antes.
La viñeta del caso continuó incluyendo detalles del examen físico del hombre y luego proporcionó los resultados de sus pruebas de laboratorio.
Es de resaltar que, el diagnóstico correcto fue embolia de colesterol, una enfermedad en la que fragmentos de colesterol se desprenden de la placa en las arterias y bloquean los vasos sanguíneos.
Se pidió a los participantes que indicaran 3 diagnósticos posibles y las pruebas que respaldaban cada uno de ellos. Igualmente se les solicitó que indicaran, para cada diagnóstico posible, los hallazgos que no lo respaldaban o que eran esperados pero no estaban presentes.
Del mismo modo, a los participantes también se les pidió que proporcionaran un diagnóstico final y luego que mencionaran hasta 3 pasos adicionales que seguirían en su proceso de diagnóstico.
Al igual que el diagnóstico del caso publicado, los diagnósticos de los otros 5 casos del estudio no fueron fáciles de determinar, pero tampoco fueron tan raros como para ser casi inauditos. Sin embargo, en promedio, los médicos obtuvieron peores resultados que el chatbot.
¿Qué estaba pasando?, se preguntaron los investigadores. Y es que, la respuesta parece depender de cuestiones como; cómo los médicos llegan a un diagnóstico y cómo utilizan una herramienta como la IA.
El médico en la máquina
Ante todo esto; ¿Cómo entonces diagnostican los médicos a los pacientes?
El problema, señaló el Dr. Andrew Lea, un historiador de medicina del Brigham and Women’s Hospital que no participó en el estudio, es que “realmente no sabemos cómo piensan los médicos”.
Al describir cómo llegaron a un diagnóstico, los médicos decían: “intuición o basado en mi experiencia”, comentó el Dr. Lea.
Ese tipo de vaguedad ha sido un verdadero desafío para los investigadores durante décadas mientras intentaban crear programas de computadora que pudieran pensar como un médico.
La búsqueda comenzó hace aproximadamente 70 años
“Desde que existen las computadoras, ha habido personas que han intentado usarlas para hacer diagnósticos”, mencionó el Dr. Lea.
Vale la pena señalar que uno de los intentos más ambiciosos comenzó en la década de 1970 en la Universidad de Pittsburgh. Allí, los científicos informáticos reclutaron al Dr. Jack Myers, presidente del departamento de medicina interna de la facultad de medicina, que era conocido como un “experto en diagnóstico”. Tenía memoria fotográfica y pasaba 20 horas a la semana en la biblioteca médica, tratando de aprender todo lo que se sabía en medicina.
El Dr. Myers recibió detalles médicos de los casos y explicó su razonamiento mientras reflexionaba sobre los diagnósticos. Los científicos informáticos convirtieron sus cadenas lógicas en código. El programa resultante, denominado INTERNIST-1, incluía más de 500 enfermedades y cerca de 3.500 síntomas de enfermedades.
Para probarlo, los investigadores le proporcionaron casos del New England Journal of Medicine.
“La computadora funcionó muy bien. Su desempeño probablemente fue mejor que el que podría lograr un humano”, dijo el Dr. Rodman.
Sin embargo, INTERNIST-1 nunca despegó. Era difícil de usar, requería más de una hora para obtener la información necesaria para hacer un diagnóstico. Y, como señalaron sus creadores, “la forma actual del programa no es lo suficientemente confiable para aplicaciones clínicas”.
Cabe aclarar que, la investigación continuó. A mediados de los años 90, había alrededor de media docena de programas informáticos que intentaban llevar a cabo diagnósticos médicos. Ninguno llegó a utilizarse de forma generalizada.
“No se trata sólo de que tenga que ser fácil de usar, sino que los médicos tienen que confiar en él”, afirmó el Dr. Rodman.
Y con la incertidumbre sobre cómo piensan los médicos, los expertos comenzaron a preguntarse si deberían preocuparse. ¿Qué importancia tiene tratar de diseñar programas informáticos que hagan diagnósticos de la misma forma que lo hacen los humanos?
“Hubo discusiones sobre hasta qué punto un programa de computadora debería imitar el razonamiento humano. ¿Por qué no aprovechamos las ventajas de la computadora?” dijo el Dr. Lea.
Puede que la computadora no sea capaz de proporcionar una explicación clara de su proceso de decisión, pero ¿importa eso si el diagnóstico es correcto?
Lo cierto es que, la conversación cambió con la llegada de grandes modelos de lenguaje como ChatGPT de OpenAI. No intentan expresamente replicar el pensamiento de un médico; sus capacidades de diagnóstico provienen de su capacidad para pronosticar el lenguaje.
“La interfaz de chat es la aplicación estrella. Podemos introducir una caja entera en la computadora. Hace un par de años, las computadoras no entendían el lenguaje”, comentó el Dr. Jonathan H. Chen, médico y científico informático de Stanford, uno de los autores del nuevo estudio.
Pero es probable que cuantiosos médicos no estén aprovechando su potencial.
Registros reales de mensajes
Ahora bien, después de su sorpresa inicial ante los resultados del nuevo estudio, el Dr. Rodman decidió investigar un poco más los datos y observar los registros reales de mensajes entre los médicos y ChatGPT. Los médicos deben haber visto los diagnósticos y el razonamiento del chatbot, así que ¿por qué a quienes lo usaron no les fue mejor?
Resulta que, con frecuencia, los médicos no se dejaban convencer por el chatbot cuando este señalaba algo que no coincidía con sus diagnósticos, sino que tendían a aferrarse a su propia idea del diagnóstico correcto.
Eso tiene sentido, señaló Laura Zwaan, quien estudia razonamiento clínico y error diagnóstico en el Centro Médico Erasmus de Rotterdam y no participó en el estudio.
“La gente generalmente se muestra demasiado confiada cuando cree que tiene razón”, afirmó.
Pero, si hay algo más que señalar es que, había otro problema: muchos de los médicos no sabían cómo usar un chatbot en todo su potencial.
El Dr. Chen comentó que notó que cuando revisaba los registros de chat de los médicos, “los usaban como un motor de búsqueda de preguntas específicas: ‘¿La cirrosis es un factor de riesgo para el cáncer? ¿Cuáles son los posibles diagnósticos para el dolor ocular?’”.
“Solo una fracción de los médicos se dio cuenta de que podían copiar y pegar literalmente todo el historial del caso en el chatbot y simplemente pedirle que diera una respuesta completa a toda la pregunta”, añadió el Dr. Chen.
“Solo una fracción de los médicos vieron realmente las respuestas sorprendentemente inteligentes y completas que el chatbot era capaz de producir”.