¿Es buena idea usar los chatbots de IA para buscar consejos médicos? Un estudio advierte sobre sus riesgos
Según una nueva investigación, aún existe una gran brecha entre lo que prometen los modelos de lenguaje (LLM) y su utilidad real para los pacientes que los usan con el propósito de buscar información sobre sus síntomas
Este nueva investigación liderada por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, precisa que los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), que están basados en inteligencia artificial y entrenados para procesar y comprender el lenguaje natural a una gran enorme, entrañan un riesgo para aquellas personas que buscan un asesoramiento sobre temas de salud, debido a tienden a dar información inexacta e inconsistente.
En un comunicado publicado en sitio web del Oxford Internet Institute se describe que “ el mayor estudio con usuarios sobre modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) destinados a ayudar al público general en la toma de decisiones médicas ha determinado que estos presentan riesgos para las personas que buscan asesoramiento médico, debido a su tendencia a ofrecer información inexacta e inconsistente”.
TE PUEDE INTERESAR: ChatGPT Health asistirá la atención médica de los usuarios... aunque hay posibles riesgos
De acuerdo a los resultados de la investigación se publicaron en la revista científica Nature Medicine, aún existe una gran brecha entre lo que prometen los modelos de lenguaje (LLM) y su utilidad real para los pacientes que los usan con el propósito de buscar información sobre sus síntomas.
Existe “una brecha significativa entre la promesa de los modelos de lenguaje de gran tamaño (LLM) y su utilidad real para quienes buscan consejo médico”, indica el Oxford Internet Institute, quien añade explicando que si bien “estos modelos ahora destacan en pruebas estandarizadas de conocimientos médicos, suponen riesgos para los usuarios reales que buscan ayuda para comprender y manejar sus propios síntomas médicos”.
Por su parte, en un comunicado publicado por el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford se hace referencia a que “millones de personas recurren ahora a chatbots de inteligencia artificial para obtener respuestas sobre su salud, pero un importante estudio reciente advierte que esta confianza puede estar mal depositada”; y añade que “los modelos de lenguaje de gran tamaño (LLM) apoyan a personas reales en la toma de decisiones médicas concluye que estos sistemas pueden ofrecer consejos inexactos, inconsistentes y potencialmente peligrosos cuando los usuarios buscan ayuda para interpretar sus propios síntomas”.
“Aunque estos modelos ahora destacan en pruebas estandarizadas de conocimientos médicos, suponen riesgos para los usuarios reales que buscan ayuda para comprender sus propios síntomas médicos”.
En los últimos tiempos, varios proveedores de salud a nivel mundial proponen a los LLM como potenciales herramientas para llevar acabo evaluaciones entorno a la salud y “gestionar” sus afecciones antes de ir a ver a un médico.
DIFERENCIA ENTRE LOS MÉTODOS TRADICIONALES Y LOS CHATBOTS
Para analizar la capacidad de esta herramienta de inteligencia artificial, los autores Andrew M. Bean, Rebecca Elizabeth Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera-Gómez, Sara Hincapié M, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher y Adam Mahdi; hicieron una evaluación para poder identificar si los LLM podían ayudar a las personas a poder determinar con precisión sus afecciones médicas, tales como un resfriado común, anemia o cálculos biliares y a tomar la decisión sobre si acudir al médico de cabecera o al hospital
“Los participantes utilizaron modelos de lenguaje de gran tamaño (LLM) para identificar e investigar problemas de salud y decidir el curso de acción adecuado, como acudir a un médico de atención primaria o ir al hospital, a partir de la información proporcionada en una serie de escenarios médicos específicos elaborados por médicos” detalla el Oxford Internet Institute, quien prosigue explicando que “quienes usaron LLM no tomaron mejores decisiones que los participantes que recurrieron a métodos tradicionales, como las búsquedas en línea o su propio criterio”.
TE PUEDE INTERESAR: Los consejos de salud de los chatbots de IA suelen ser erróneos, según un estudio
La investigación mostró a los autores una fractura “en la comunicación en ambos sentidos”. Además, las personas que participaron en este nuevo estudio “a menudo no sabían qué información necesitaban los LLM para ofrecer un asesoramiento preciso, y las respuestas que recibían combinaban con frecuencia recomendaciones acertadas y erróneas, lo que dificultaba identificar el mejor curso de acción”, precisa el Oxford Internet Institute.
Así también, los autores descubrieron que con los métodos actuales de evaluación de los LLM “no reflejan la complejidad de la interacción con usuarios humanos”, resalta el Oxford Internet Institute y añada “al igual que los ensayos clínicos de nuevos medicamentos, los sistemas basados en LLM deberían probarse en el mundo real antes de su despliegue”.
En opinión de la doctora Rebecca Payne, quien es médica de atención primaria y responsable clínica principal del estudio, becaria doctoral Clarendon-Reuben del Departamento Nuffield de Ciencias de la Salud en Atención Primaria y profesora clínica sénior en la Universidad de Bangor, “estos hallazgos ponen de relieve la dificultad de construir sistemas de IA que puedan apoyar de forma genuina a las personas en ámbitos sensibles y de alto riesgo como la salud”.
Por lo que, añade Payne “a pesar de toda la expectación, la IA simplemente no está lista para asumir el papel del médico”, concluyendo que “los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje de gran tamaño sobre sus síntomas puede ser peligroso, ya que puede ofrecer diagnósticos incorrectos y no reconocer cuándo se necesita ayuda urgente”.
MÁS DE MIL PERSONAS PARTICIPARON EN EL ESTUDIO
Para esta nueva investigación los autores realizaron “un ensayo aleatorizado” que contó con la participación en línea de alrededor de 1,300 personas, a quienes se les solicitó que identificaran “posibles afecciones de salud y recomendar el curso de acción más adecuado a partir de escenarios médicos personales”.
“Los escenarios detallados, elaborados por médicos, iban desde el caso de un joven que desarrolla un fuerte dolor de cabeza después de una noche de fiesta con amigos, hasta el de una madre primeriza que se siente constantemente sin aliento y agotada”, indica el Oxford Internet Institute.
De acuerdo con el el Oxford Internet Institute, “un grupo utilizó un modelo de lenguaje de gran tamaño (LLM) para apoyar su toma de decisiones, mientras que un grupo de control recurrió a otras fuentes tradicionales de información”.
“Posteriormente, los investigadores evaluaron con qué precisión los participantes identificaban los problemas médicos probables y el siguiente paso más apropiado, como acudir a un médico de atención primaria o ir a urgencias (A&E)”, indica el el Oxford Internet Institute.
“También compararon estos resultados con los de las estrategias estándar de evaluación de los LLM, que no implican usuarios humanos reales. El contraste fue notable: modelos que obtuvieron buenos resultados en pruebas de referencia fallaron cuando interactuaron con personas reales” concluye el Oxford Internet Institute.
HALLARON TRES TIPOS DE DESAFÍOS
1. Con frecuencia los usuarios no sabían qué información debían de proporcionar al LLM.
2. Las respuestas otorgadas por los LLM fueron muy diferentes “ante ligeras variaciones en la forma de las preguntas”.
3. Con frecuencia los LLM proporcionaron “una mezcla de información correcta e incorrecta que a los usuarios les resultaba difícil distinguir”.
En este sentido, describe Andrew Bean, quien es el autor principal del estudio e investigador doctoral del Oxford Internet Institute “diseñar evaluaciones sólidas para los modelos de lenguaje de gran tamaño es clave para comprender cómo podemos aprovechar esta nueva tecnología”.
“En este estudio mostramos que la interacción con seres humanos supone un reto incluso para los LLM más avanzados. Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más seguros y útiles”, añade Bean.
En tanto que para el doctor Adam Mahdi, profesor asociado del Reasoning with Machines Lab (OxRML) del Oxford Internet Institute “la desconexión entre las puntuaciones en pruebas de referencia y el desempeño en el mundo real debería ser una llamada de atención para los desarrolladores de IA y los reguladores”.
“Nuestro trabajo reciente sobre la validez de constructo en los benchmarks muestra que muchas evaluaciones no miden realmente lo que dicen medir, y este estudio demuestra exactamente por qué eso importa. No podemos confiar únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para el uso público. Así como exigimos ensayos clínicos para nuevos medicamentos, los sistemas de IA necesitan pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo como la atención sanitaria” concluye Mahdi.
Con información de la Agencia de Noticias EFE, el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford.