¿Qué tan bien pueden los chatbots de IA imitar a los médicos en un entorno de tratamiento?

¿Qué tan bien pueden los chatbots de IA imitar a los médicos en un entorno de tratamiento?

Dr. Scott Gottlieb es médico y se desempeñó como el 23.º comisionado de la Administración de Alimentos y Medicamentos de Estados Unidos. Es colaborador de CNBC y es miembro de las juntas directivas de Pfizer y de varias otras empresas emergentes en el ámbito de la salud y la tecnología. También es socio de la firma de capital de riesgo New Enterprise Associates. Shani Benezra es investigadora asociada sénior en el American Enterprise Institute y ex productora asociada de Face the Nation de CBS News.

Muchos consumidores y proveedores médicos están recurriendo a chatbots, que funcionan con grandes modelos de lenguaje, para responder preguntas médicas e informar sobre opciones de tratamiento. Decidimos ver si existían diferencias importantes entre las principales plataformas en lo que respecta a su aptitud clínica.

Para obtener una licencia médica en los Estados Unidos, los aspirantes a médicos deben superar con éxito tres etapas del Examen de Licencia Médica de los Estados Unidos (USMLE), siendo la tercera y última etapa considerada ampliamente como la más difícil. Requiere que los candidatos respondan correctamente alrededor del 60% de las preguntas y, históricamente, la puntuación promedio para aprobar rondaba el 75%.

Cuando sometimos a los principales modelos de lenguaje grande (LLM) al mismo examen del Paso 3, su desempeño fue notablemente superior, logrando puntajes que superaron significativamente a muchos médicos.

Pero había algunas diferencias claras entre los modelos.

El examen USMLE Step 3, que generalmente se realiza después del primer año de residencia, mide si los graduados en medicina pueden aplicar su conocimiento de la ciencia clínica a la práctica médica no supervisada. Evalúa la capacidad de un nuevo médico para gestionar la atención al paciente en una amplia gama de disciplinas médicas e incluye preguntas de opción múltiple y simulaciones de casos por computadora.

Aislamos 50 preguntas de la prueba de muestra USMLE Paso 3 de 2023 para evaluar la competencia clínica de cinco modelos lingüísticos grandes diferentes, alimentando el mismo conjunto de preguntas a cada una de estas plataformas: ChatGPT, Claude, Google Géminis, Grok y Llama.

Otros estudios He evaluado estos modelos por su competencia médicaSin embargo, hasta donde sabemos, esta es la primera vez que se comparan estas cinco plataformas líderes en una evaluación directa. Estos resultados podrían brindarles a los consumidores y proveedores algunas ideas sobre hacia dónde deberían dirigirse.

Así es como puntuaron:

  • ChatGPT-4o (Open AI): 49/50 preguntas correctas (98 %)
  • Claude 3.5 (Antrópico) — 45/50 (90%)
  • Gemini Advanced (Google): 43/50 (86 %)
  • Grok (xAI): 42/50 (84 %)
  • HuggingChat (Llama) — 33/50 (66%)

En nuestro experimento, ChatGPT-4o de OpenAI resultó ser el mejor, con una puntuación del 98 %. Proporcionó análisis médicos detallados y empleó un lenguaje que recordaba al de un profesional médico. No solo brindó respuestas con un razonamiento extenso, sino que también contextualizó su proceso de toma de decisiones y explicó por qué las respuestas alternativas eran menos adecuadas.

Claude, de Anthropic, quedó en segundo lugar con una puntuación del 90 %. Ofrecía respuestas más parecidas a las humanas, con un lenguaje más simple y una estructura de viñetas que podría resultar más accesible para los pacientes. Gemini, que obtuvo una puntuación del 86 %, ofreció respuestas que no eran tan exhaustivas como las de ChatGPT o Claude, lo que dificultaba el desciframiento de su razonamiento, pero sus respuestas eran concisas y directas.

Grok, el chatbot de xAI de Elon Musk, obtuvo un respetable 84%, pero no proporcionó un razonamiento descriptivo durante nuestro análisis, lo que dificulta comprender cómo llegó a sus respuestas. Mientras que HuggingChat, un sitio web de código abierto creado a partir de Metas Llama — obtuvo la puntuación más baja, un 66%; no obstante, mostró un buen razonamiento para las preguntas que respondió correctamente, proporcionando respuestas concisas y enlaces a fuentes.

Una pregunta que la mayoría de los modelos respondieron mal se refería a una mujer de 75 años con una hipotética enfermedad cardíaca. La pregunta preguntaba a los médicos cuál era el siguiente paso más adecuado como parte de su evaluación. Claude fue el único modelo que generó la respuesta correcta.

Otra pregunta notable se centró en un paciente de 20 años que presentaba síntomas de una infección de transmisión sexual. En ella se preguntaba a los médicos cuál de las cinco opciones era el siguiente paso apropiado como parte de su evaluación. ChatGPT determinó correctamente que el paciente debía programarse para una prueba serológica del VIH en tres meses, pero el modelo fue más allá y recomendó un examen de seguimiento en una semana para asegurarse de que los síntomas del paciente se habían resuelto y de que los antibióticos cubrían su cepa de infección. Para nosotros, la respuesta destacó la capacidad del modelo para un razonamiento más amplio, que se expande más allá de las opciones binarias presentadas por el examen.

Estos modelos no fueron diseñados para el razonamiento médico; son productos del sector de la tecnología de consumo, diseñados para realizar tareas como la traducción de idiomas y la generación de contenido. A pesar de sus orígenes no médicos, han demostrado una sorprendente aptitud para el razonamiento clínico.

Se están construyendo plataformas más nuevas específicamente para resolver problemas médicos. Google presentó recientemente Med-Geminiuna versión refinada de sus modelos Gemini anteriores, optimizada para aplicaciones médicas y equipada con capacidades de búsqueda basadas en web para mejorar el razonamiento clínico.

A medida que estos modelos evolucionen, su habilidad para analizar datos médicos complejos, diagnosticar enfermedades y recomendar tratamientos se agudizará. Pueden ofrecer un nivel de precisión y consistencia que los proveedores humanos, limitados por la fatiga y el error, a veces podrían tener dificultades para igualar, y abrir el camino a un futuro en el que los portales de tratamiento puedan ser impulsados ​​por máquinas, en lugar de médicos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *