El uso del sistema de chat basado en el modelo de lenguaje por Inteligencia Artificial (IA) sigue desatando comentarios por sus aciertos o imprecisiones en la generación de contenidos y por el eventual desempleo que podría impulsar a nivel global. Cuando se emplea el ChatGPT en asuntos más riesgosos, como la salud y la vida de los pacientes, sus desatinos pueden resultar desastrosos.
Con la noticia de que el programa de ChatGPT «aprobó» con éxito el examen de licencia médica de EE UU, el doctor Josh Tamayo-Sarver, MD, PhD tenía curiosidad por saber cómo funcionaría en una situación médica del mundo real. Como defensor de aprovechar la inteligencia artificial para mejorar la calidad y la eficiencia de la atención médica, quiso ver cómo la versión actual de ChatGPT podría servir como herramienta en su práctica.
“Después de mis turnos clínicos regulares en el departamento de emergencias organicé mis notas de Historial de enfermedad actual para 35 a 40 pacientes. Básicamente, mi narrativa médica detallada del historial médico de cada persona y los síntomas que los llevaron al departamento de emergencias. Y los introduje en ChatGPT”, escribió el experto para Inflect Health, web especializada en medicina, atención y prestación de servicios de salud publicado en Medium.
El mensaje específico que usó fue «¿Cuáles son los diagnósticos diferenciales para este paciente que se presenta en el departamento de emergencias (inserté aquí las notas del HPI del paciente)?».
Los resultados fueron fascinantes, pero también bastante inquietantes, afirmó Tamayo-Sarver. “El chatbot de OpenAI hizo un trabajo decente al mostrar diagnósticos comunes que no me gustaría perder. Siempre y cuando todo lo que dije fuera preciso y muy detallado”.
Los aciertos y desaciertos del ChatGPT en la salud
“Diagnosticar correctamente a un paciente con lesión en el codo, por ejemplo, requería unas 200 palabras. Identificar la fractura por estallido de la pared orbital de otro paciente tomó las 600 palabras completas de mi HPI en ellos” comentó el médico de urgencias. Sin embargo, para aproximadamente la mitad de mis pacientes, ChatGPT sugirió seis diagnósticos posibles. Mientras el diagnóstico «correcto», o al menos el diagnóstico que el doctor creía correcto después de una evaluación y prueba completas, estaba entre los seis que sugirió ChatGPT.
“Nada mal -confió el especialista-, pero una tasa de éxito del 50 % en el contexto de una sala de emergencias no es tan buena”.
El peor desempeño de ChatGPT en el historial de salud ocurrió con una paciente de 21 años que ingresó a la sala de emergencias con dolor abdominal en el cuadrante inferior derecho, precisó. “Ingresé su HPI en ChatGPT, que instantáneamente regresó con un diagnóstico diferencial de apendicitis o un quiste ovárico, entre otras posibilidades”. Pero ChatGPT pasó por alto un diagnóstico algo importante con esta mujer, destaca Josh Tamayo-Sarver en su relato.
“Tuvo un embarazo ectópico. Esto significa que se desarrolla un feto malformado en la trompa de Falopio de una mujer, y no en su útero. Si se diagnostica demasiado tarde, puede ser fatal y causar la muerte por hemorragia interna. Afortunadamente para mi paciente, pudimos llevarla al quirófano para que recibiera tratamiento inmediato”, narró.
«En particular -añadio-, cuando me vio en la sala de emergencias, la paciente ni siquiera sabía que estaba embarazada. Este no es un escenario atípico y, a menudo, solo surge después de algunas preguntas: ¿hay alguna posibilidad de que estés embarazada?”. A veces, un paciente responderá con algo como: «No puede ser».
Los riesgos de pasar por alto informaciones valiosas
Pero al revisar el diagnóstico de ChatGPT, no noté nada en su respuesta que sugiriera que mi paciente estaba embarazada. Ni siquiera sabía preguntar, contó el médico. “Mi temor es que innumerables personas ya están usando ChatGPT para diagnosticarse médicamente a sí mismos. En lugar de ver a un médico. Si mi paciente en este caso hubiera hecho eso, la respuesta de ChatGPT podría haberla matado o haber impactado severamente su salud”.
Tamayo-Sarver dijo además que “ChatGPT también diagnosticó erróneamente a varios otros pacientes que tenían condiciones potencialmente mortales. Sugirió correctamente que uno de ellos tenía un tumor cerebral, pero pasó por alto a otros dos que también tenían tumores. Diagnosticó a otro paciente con dolor en el torso como si tuviera un cálculo renal, pero pasó por alto que el paciente en realidad tenía una ruptura aórtica. Y posteriormente murió en nuestra mesa de operaciones”.
En resumen, ChatGPT funcionó bastante bien como herramienta de diagnóstico cuando le di información perfecta y el paciente tenía una presentación clásica, asentó. Es probable que esta sea la razón por la que ChatGPT «aprobó» las viñetas del caso en el examen de licencia médica. No porque sea “inteligente”, sino porque los casos clásicos del examen tienen una respuesta determinista que ya existe en su base de datos.
ChatGPT presenta rápidamente las respuestas en un formato de lenguaje natural (esa es la parte realmente impresionante). Pero debajo hay un proceso de recuperación de conocimientos similar a la Búsqueda de Google. Y la mayoría de los casos reales de pacientes no son clásicos, argumentó el experto.
El peso de la historia médica y el diálogo con el paciente
“Mi experimento ilustró cómo la gran mayoría de cualquier encuentro médico consiste en descubrir la narrativa correcta del paciente”, resaltó. “Si alguien viene a mi sala de emergencias diciendo que le duele la muñeca, pero no debido a un accidente reciente. Podría ser una reacción psicosomática después de que el nieto del paciente se cayera. O podría deberse a una enfermedad de transmisión sexual, o algo completamente diferente. El arte de la medicina consiste en extraer toda la información necesaria para crear la narrativa adecuada”.
¿Podría ChatGPT seguir funcionando en el abordaje de la salud, como asistente médico. Leyendo automáticamente las notas de mis pacientes durante el tratamiento y sugiriendo diferenciales? Posiblemente. Pero mi temor es que esto podría traer resultados aún peores, señaló.
“Si las notas de mis pacientes no incluyen una pregunta que aún no he hecho, el resultado de ChatGPT me animará a seguir omitiendo esa pregunta. Como con mi joven paciente que no sabía que estaba embarazada. Si no se me hubiera ocurrido de inmediato un posible embarazo ectópico, ChatGPT habría seguido haciendo cumplir esa omisión. Solo reflejándome las cosas que pensé que eran obvias, validando con entusiasmo mi parcialidad”. Nada de esto sugiere que la IA no tenga un lugar potencialmente útil en la medicina, porque lo tiene, sostuvo.
Como médico, estoy limitado por la cantidad de pacientes que puedo tratar personalmente. Espero ver aproximadamente 10.000 pacientes en mi vida, cada uno de ellos con una masa corporal única, presión arterial, antecedentes familiares, etc. Una gran variedad de características que rastrearé en mi modelo mental. Cada ser humano tiene innumerables variables relevantes para su salud. Pero como médico que trabaja con una ventana de sesión limitada, me concentro en los diversos factores que tienden a ser los más importantes históricamente, dijo.
En peligro la vida
Este es el espacio donde la IA puede prosperar, procesando incansablemente estas innumerables características de todos los pacientes que he tratado. Y de todos los demás pacientes tratados por todos los demás médicos, brindándonos información profunda y amplia. IA puede ayudar a hacer esto eventualmente, pero primero necesitará ingerir millones de datos de pacientes que incluyen esas muchas características. Las cosas que hicieron los pacientes (como tomar un medicamento específico) y el resultado.
Mientras tanto, necesitamos urgentemente una visión mucho más realista de Silicon Valley y del público en general de lo que la IA puede hacer ahora. Y sus muchas limitaciones, a menudo peligrosas. Debemos tener mucho cuidado para evitar expectativas infladas con programas como ChatGPT, porque en el contexto de la salud humana, literalmente pueden poner en peligro la vida, aseguró.