El chatbot de inteligencia artificial desarrollado por OpenAI se ha convertido en un recurso popular para obtener respuestas rápidas a preguntas de todo tipo. También, según el uso y los objetivos, en una herramienta de cuidado. Investigadores del Brigham and Women’s Hospital intentaron evaluar la coherencia con la que ChatGPT proporciona recomendaciones para el tratamiento del cáncer. Los hallazgos pusieron a pensar a expertos, usuarios de la herramienta y a sus programadores.
Los resultados del equipo, publicados en JAMA Oncology, muestran que en un tercio de los casos, ChatGPT proporcionó una recomendación inapropiada (o «no concordante»). Este saldo debe alertar sobre la necesidad de tomar en cuenta las limitaciones de la tecnología antes de tomar decisiones.
«Los pacientes deben sentirse libres para informarse sobre sus afecciones médicas, pero siempre deben hablar con un médico. Los recursos en Internet no deben aceptarse al pie de la letra», señaló Danielle Bitterman, oncóloga radioterápica, investigadora e instructora en la Escuela Harvard Medical.
La autora del estudio comentó que las respuestas de ChatGPT pueden sonar muy parecidas a las de un humano y pueden ser bastante convincentes. «Pero cuando se trata de la toma de decisiones clínicas, existen muchas sutilezas para la situación única de cada paciente. Una respuesta correcta puede tener muchos matices, algo que no necesariamente el ChatGPT u otro modelo de lenguaje puede ponderar”, asentó.
En la toma de decisiones médicas puede influir muchos factores. Bitterman y sus colegas optaron por evaluar hasta qué punto las recomendaciones de ChatGPT se alineaban con las Directrices de la Red Nacional Integral del Cáncer (NCCN en inglés) que utilizan los médicos estadounidenses. Se centraron en los tres cánceres más comunes (mama, próstata y pulmón) y solicitaron a ChatGPT que proporcionara un enfoque de tratamiento para cada cáncer, según la gravedad de la enfermedad.
Recomendaciones de ChatGPT sobre cáncer
Igualmente, investigadores de Mass General Brigham, Sloan Kettering y Boston Children’s Hospital pusieron a prueba ChatGPT recopilando 104 indicaciones diferentes y pidiendo al chatbot recomendaciones sobre tratamientos. Harvard Gazzette reseño que casi todas las respuestas (98%) incluyeron al menos un enfoque de tratamiento que coincidía con las pautas de la NCCN. Sin embargo, los investigadores encontraron que el 34% de estas respuestas incluían una o más recomendaciones no concordantes y difíciles de detectar.
Una recomendación de tratamiento no concordante se definió como aquella que era parcialmente correcta. Por ejemplo, para un cáncer de mama localmente avanzado, una recomendación de cirugía sola, sin mencionar otra modalidad de terapia. En particular, se produjo un acuerdo total en solo el 62% de los casos, lo que subraya tanto la complejidad de las pautas de la NCCN como el grado en que los resultados de ChatGPT podrían ser vagos o difíciles de interpretar.
Los investigadores determinaron que casi el 13% de las respuestas fueron «alucinadas», parecían reales pero eran completamente inexactas o no estaban relacionadas con la indicación. Este tipo de desinformación puede establecer incorrectamente expectativas de los pacientes sobre el tratamiento y potencialmente afectar la relación médico-paciente.
«Es muy preocupante. Podrían generar información errónea y decisiones potencialmente dañinas para los pacientes», afirmó Harvey Castro, médico de urgencias y experto en inteligencia artificial en Coppell, Texas. «Por ejemplo, un paciente con cáncer de pulmón avanzado puede recibir una recomendación para un tratamiento no reconocido por las directrices de la NCCN. Esto podría provocar retrasos en recibir la atención adecuada», dijo.
¿Información correcta o incorrecta?
Danielle Bitterman sostiene que el «ChatGPT y muchos de los grandes modelos de lenguaje similares están entrenados principalmente para funcionar como chatbots, pero no para proporcionar información objetivamente correcta y de manera confiable».
«El modelo habla con fluidez e imita el lenguaje humano, pero no diferencia la información correcta de la incorrecta», apuntó.
Asimismo confió que al leer las respuestas, le sorprendió cómo las opciones de tratamiento correctas se mezclaban perfectamente con las incorrectas. Sin embargo, que casi todas las respuestas tuviesen información correcta muestra el potencial futuro de los modelos para comunicar información en colaboración con los aportes de los médicos.
La limitación clave del estudio fue que los investigadores evaluaron solo un LLM en una «instantánea en el tiempo». Creen que de los hallazgos resaltan preocupaciones legítimas y la necesidad de investigaciones futuras. Para este estudio se utilizó ChatGPT 3.5, pero OpenAI lanzó un modelo más nuevo, GPT 4, una vez concluida la investigación.