Los consejos de salud de los chatbots de IA suelen ser erróneos, según un estudio
Un estudio en Nature Medicine confirma que la IA no supera a Google en diagnósticos médicos y falla al interpretar síntomas incompletos de pacientes reales
Por: Teddy Rosenbluth
Un nuevo estudio publicado el lunes ofrece una mirada aleccionadora sobre si los chatbots, que se han convertido rápidamente en una importante fuente de información de salud, en efecto, son buenos a la hora de proporcionar consejos médicos al público.
El experimento reveló que los chatbots de inteligencia artificial no eran mejores que Google —de por sí una fuente defectuosa de información de salud— a la hora de guiar a los usuarios hacia los diagnósticos correctos o ayudarlos a determinar lo que debían hacer a continuación. Y la tecnología planteaba riesgos únicos, ya que a veces presentaba información falsa o cambiaba drásticamente sus consejos en función de ligeros cambios en la formulación de las preguntas.
TE PUEDE INTERESAR: Darle las gracias a ChatGPT es costoso. Pero quizá valga la pena
Ninguno de los modelos evaluados en el experimento estaba “listo para su despliegue en la atención directa al paciente”, concluyeron los investigadores en el artículo de Nature Medicine, que es el primer estudio aleatorizado de este tipo.
En los tres años transcurridos desde que los chatbots de IA se pusieron a disposición del público, el tema de salud ha sido uno de los más consultados por los usuarios.
Algunos médicos atienden de manera regular a pacientes que han consultado un modelo de IA para obtener una primera opinión. Las encuestas han revelado que casi 1 de cada 6 adultos utiliza chatbots para buscar información sobre salud al menos una vez al mes. Las principales empresas de IA, como Amazon y OpenAI, han lanzado productos destinados específicamente a responder a las preguntas de salud de los usuarios.
Estas herramientas han despertado entusiasmo por una buena razón: Los modelos han aprobado exámenes de licencias médicas y han superado a los médicos en problemas de diagnóstico difíciles.
Sin embargo, Adam Mahdi, profesor del Oxford Internet Institute y autor principal del nuevo estudio, sospechaba que las preguntas médicas limpias y directas no eran un buen indicador de lo bien que funcionaban para los pacientes reales.
“La medicina no es así”, explicó. “La medicina es caótica, incompleta, estocástica”.
Así que él y sus colegas organizaron un experimento. A más de 1200 participantes británicos, la mayoría sin formación médica, se les dio un escenario médico detallado, con síntomas, detalles generales del estilo de vida e historial médico. Los investigadores dijeron a los participantes que chatearan con el bot para averiguar los pasos a seguir, como llamar a una ambulancia o autotratarse en casa. Probaron chatbots disponibles en el mercado, como ChatGPT de OpenAI y Llama de Meta.
Los investigadores descubrieron que los participantes elegían el curso de acción “correcto” —predeterminado por un panel de médicos— menos de la mitad de las veces. Los usuarios identificaron las afecciones correctas, como cálculos biliares o hemorragia subaracnoidea, alrededor del 34 por ciento de las veces.
No fueron mejores que el grupo de control, a cuyos miembros se les dijo que realizaran la misma tarea utilizando cualquier método de investigación que utilizaran normalmente en casa, sobre todo Google.
El experimento no es una visión perfecta de la forma en que los chatbots responden a las preguntas médicas en el mundo real. Los usuarios del experimento preguntaron sobre contextos inventados, que pueden ser distintos de cómo interactuarían con los chatbots sobre su propia salud, dijo Ethan Goh, que dirige la Red de Investigación y Evaluación Científica de la IA en la Universidad de Stanford.
Además, dado que las empresas de IA lanzan con frecuencia nuevas versiones de los modelos, es probable que los chatbots que los participantes utilizaron hace un año durante el experimento sean distintos de los modelos con los que los usuarios interactúan hoy en día. Un portavoz de OpenAI afirmó que los modelos con los que funciona ChatGPT en la actualidad son significativamente mejores para responder a las preguntas sobre salud que el modelo probado en el estudio, que ya se eliminó. Citaron datos internos que mostraban que muchos modelos nuevos eran mucho menos propensos a cometer errores comunes, incluidas las alucinaciones y los errores en situaciones potencialmente urgentes. Meta no respondió a la solicitud de comentarios.
No obstante, el estudio sigue arrojando luz sobre cómo pueden salir mal los encuentros con los chatbots.
Cuando los investigadores analizaron los encuentros con los chatbots, descubrieron que, casi la mitad de las veces, los errores parecían deberse a errores del usuario. Los participantes no introdujeron suficiente información o los síntomas más relevantes, y los chatbots tuvieron que dar consejos con una imagen incompleta del problema.
Un modelo sugirió a un usuario que los “fuertes dolores de estómago” que duraban una hora podían deberse a una indigestión. No obstante, el participante no había incluido detalles sobre la gravedad, la localización y la frecuencia del dolor, que quizá habrían orientado al bot hacia el diagnóstico correcto: cálculos biliares.
En cambio, cuando los investigadores introdujeron el escenario médico completo directamente en los chatbots, estos diagnosticaron correctamente el problema el 94 por ciento de las veces.
Una parte importante de lo que los médicos aprenden en la facultad de medicina es a reconocer qué detalles son relevantes y cuáles hay que descartar.
“Hay mucha magia cognitiva y experiencia para averiguar qué elementos del caso son importantes que se introducen en el bot”, comentó Robert Wachter, jefe del departamento de medicina de la Universidad de California en San Francisco, que estudia la IA en la atención médica.
Andrew Bean, estudiante de posgrado en Oxford y autor principal del artículo, aseguró que la carga de elaborar la pregunta perfecta no debería recaer necesariamente en los usuarios. Dijo que los chatbots deberían hacer preguntas de seguimiento, del mismo modo que los médicos recaban información de los pacientes.
“¿Es realmente responsabilidad del usuario saber qué síntomas destacar, o es en parte responsabilidad del modelo saber qué preguntar?”, preguntó.
Esta es un área que las empresas tecnológicas están trabajando para mejorar. Por ejemplo, los modelos actuales de ChatGPT tienen casi seis veces más probabilidades de hacer una pregunta de seguimiento que la versión anterior, según los datos facilitados por un portavoz de OpenAI.
Incluso cuando los investigadores teclearon directamente el contexto médico, descubrieron que los chatbots tenían dificultades para distinguir correctamente cuándo un conjunto de síntomas requería atención médica inmediata o no urgente. Danielle Bitterman, que estudia las interacciones entre el paciente y la IA en el Mass General Brigham, dijo que esto quizá se debe a que los modelos se entrenan sobre todo con libros de texto médicos e informes de casos, pero tienen mucha menos experiencia con la toma de decisiones libre que los médicos aprenden con la experiencia.
En varias ocasiones, los chatbots también devolvieron información confabulada. En un caso, un modelo indicó a un participante que llamara a un teléfono de emergencias que no tenía suficientes dígitos para ser un número de teléfono real.
Los investigadores también descubrieron otro problema: Incluso ligeras variaciones en la forma en que los participantes describían sus síntomas o planteaban las preguntas cambiaban significativamente los consejos del bot.
TE PUEDE INTERESAR: Amor en línea, cuando las estafas se camuflan de romance
Por ejemplo, dos de los participantes en el estudio tenían la misma información de partida —un fuerte dolor de cabeza, sensibilidad a la luz y rigidez en el cuello—, pero describieron el problema a los chatbots de forma ligeramente distinta.
En un caso, el chatbot lo trató como un problema menor que no requería atención médica inmediata.
En la otra respuesta, el chatbot consideró que los síntomas eran señal de un problema de salud grave y dijo al usuario que acudiera a urgencias.
“Palabras muy pequeñas marcan diferencias muy grandes”, concluyó Bean.
c.2026 The New York Times Company