Las enfermedades cardiovasculares son la principal causa de mortalidad en el mundo. La detección y el tratamiento tempranos de los síntomas son cruciales para mejorar los resultados. Aproximadamente el 70% de los pacientes buscan información de salud utilizando motores de búsqueda antes de consultar a profesionales de la medicina1. En noviembre de 2022 se lanzó el Chat generative pretrained transformer (ChatGPT), un modelo de lenguaje de inteligencia artificial (IA) basado en el diálogo, y atrajo una gran atención en la comunidad científica2. El 8 de febrero de 2023 se lanzó Bing-Chat de Microsoft, un chatbot de IA que proporciona asistencia conversacional basada en GPT-4, con acceso a búsquedas en Internet en tiempo real (WSa-GPT)3. WSa-GPT utiliza lenguaje natural y algoritmos de aprendizaje profundo para proporcionar respuestas en forma de conversaciones naturales. Aunque se ha observado que los chatbots como ChatGPT proporcionan respuestas muy exactas a preguntas básicas relativas a la prevención de las enfermedades cardiovasculares4 y a preguntas de los pacientes y que es capaz de redactar informes de alta5, es necesario evaluar su seguridad a la hora de prestar ayuda a los pacientes que lo consultan. El objetivo de esta simulación fue evaluar de manera cualitativa la viabilidad y la exactitud de un chatbot WSa-GPT para proporcionar ayuda en el ámbito de la cardiología en trastornos cardiovasculares frecuentes e importantes.
Este estudio se llevó a cabo durante la semana del 13 al 17 de febrero, poco después del lanzamiento de este chatbot WSa-GPT. Se probaron diversas opciones de entrada hasta que encontramos una que actuaba efectivamente como asistente de salud. Utilizando una conversación de estilo libre y basándose en experiencias reales, un cardiólogo simuló 14 pacientes que abarcaban síntomas cardiovasculares comunes e importantes, así como situaciones de urgencia o banales (tabla 1). Se grabaron las conversaciones y 2 cardiólogos independientes evaluaron (como «apropiado» o «inapropiado») si la anamnesis era completa y pertinente (correspondía a los síntomas y las respuestas y obtenía información pertinente sobre antecedentes médicos, síntomas y factores de riesgo en concordancia con las guías clínicas). Los 2 cardiólogos independientes evaluaron también si la decisión final era o no segura para el paciente y si las respuestas eran claras y fáciles de comprender. Las discrepancias se resolvieron con la intervención de un tercer cardiólogo independiente. Al no tratarse de pacientes reales, no es necesaria la aprobación de ética de investigación.
Características de los pacientes, decisión y evaluación
Enfermedad simulada | Edad | Sexo | Decisión | Decisión correcta/segura | Anamnesis adecuada | Claridad | |||||
---|---|---|---|---|---|---|---|---|---|---|---|
R1 | R2 | R3 | R1 | R2 | R3 | R1 | R2 | ||||
Síncope debido a taquicardia ventricular en un paciente con síndrome de Brugada | 36 | M | Acudir a SU | A | A | ND | A | A | ND | A | A |
Taquicardia supraventricular paroxística con buena tolerancia a medicación | 20 | M | Acudir a SU | A | A | ND | A | A | ND | A | A |
Estenosis aórtica grave sintomática | 67 | M | Evaluación sin carácter de urgencia | A | A | ND | I | I | ND | I | I |
Infarto de miocardio con elevación del segmento ST | 45 | M | Llamar a SU | A | A | ND | I | I | ND | A | A |
Dolor torácico no isquémico | 35 | F | Atención primaria | A | A | ND | A | A | ND | A | A |
Descompensación de insuficiencia cardiaca | 82 | M | Acudir a SU | A | A | ND | I | I | ND | A | A |
Angina estable | 54 | M | Evaluación preferente | A | A | ND | A | A | ND | A | A |
Hipotensión | 104 | F | Evaluación preferente | A | I | A | A | A | ND | A | A |
Hipertensión leve | 62 | F | Evaluación sin carácter de urgencia | A | A | ND | A | A | ND | A | A |
Síncope de mecanismo neurológico | 24 | F | Evaluación sin carácter de emergencia | A | A | ND | A | I | A | A | A |
Infarto agudo de miocardio sin elevación del segmento ST | 76 | M | Acudir a SU | A | A | ND | A | A | ND | A | A |
Disección de aorta | 56 | M | Llamar a SU | A | A | ND | I | I | ND | A | A |
Angina de Prinzmetal | 40 | M | Llamar a SU | A | A | ND | A | A | ND | A | A |
Flutter auricular | 83 | F | Evaluación preferente | A | A | ND | A | A | ND | A | A |
A: apropiado; F: sexo femenino; I: inapropiado; M: sexo masculino; ND: no disponible; R1: revisor 1; R2: revisor 2; R3: revisor 3; SU: servicio de urgencias.
Los pacientes simulados eran predominantemente varones (64,3%), con una mediana [intervalo intercuartílico] de edad de 54 [36-73] años. Se llegó a una decisión tras una mediana de 23 [18-29] mensajes. Las respuestas de WSa-GPT a todos los casos simulados (100%) se evaluaron como «apropiadas» para una decisión final correcta y segura. Además, 13 casos (93%) se consideraron «apropiados» por lo que respecta a la claridad y la facilidad de comprensión y 10 (71%) fueron «apropiados» en cuanto a la anamnesis (tabla 1). El tercer cardiólogo resolvió 2 discrepancias como respuestas apropiadas. Todas las conversaciones simuladas se encuentran en los vídeos 1-14 del material adicional.
En este estudio exploratorio se observó que el chatbot WSa-GPT proporcionó recomendaciones claras y apropiadas para toda una gama de trastornos de salud cardiovascular simulados. Aunque la anamnesis se consideró inapropiada en 5 casos (p. ej., en los casos 3 y 6 no se planteó ninguna pregunta acerca de la nicturia, el aumento de peso o la disnea paroxística nocturna), la recomendación final fue apropiada. Estos resultados respaldan los datos anteriores que indicaban el potencial de los chatbots interactivos basados en IA para la asistencia en el ámbito de la cardiología4. Estos chatbots pueden proporcionar respuestas inmediatas y exactas a preguntas relativas a la salud, con lo que se reduciría la carga de trabajo de los profesionales sanitarios5,6. Por ejemplo, la conversación entre el paciente y el chatbot podría transmitirse en forma de mensajes electrónicos, lo que permitiría al médico llevar a cabo una evaluación clínica inicial antes de la llegada del paciente al servicio de urgencias. La aplicación de estos chatbots basados en IA podría aportar ahorros de costes de la atención sanitaria y brindar apoyo a los pacientes en zonas remotas con poco acceso a médicos de atención primaria.
Hay que tener en cuenta varias limitaciones. Primero, la interacción entre paciente y chatbot se simuló en vez de utilizar a pacientes reales que solicitaran asesoramiento médico. Sin embargo, no parece ético retrasar la consulta de un paciente con un profesional de la salud simplemente para evaluar la seguridad de un chatbot basado en IA. Además, la conversación en estilo libre utilizada en la simulación podría llevar a un sesgo en la evaluación de la herramienta. Segundo, el tamaño de la muestra es muy pequeño. La razón es que, cuando se lanzó, el chatbot Bing de Microsoft estaba limitado a 11 mensajes en 1 semana. Aunque simulamos los motivos más frecuentes para acudir al servicio de urgencias por dolor torácico agudo, no se simularon ni evaluaron otras enfermedades posibles pero menos frecuentes (p. ej., miocarditis, neumotórax, síndrome de Boerhaave), por lo que la decisión apropiada de WSa-GPT no puede extrapolarse a esas situaciones. Tercero, cuando se utilizó el mismo prompt original 3 meses después de concebir el estudio, las conversaciones ya no eran reproducibles. Bing Chat sufrió varios cambios que hicieron que se centrara más en búsquedas en Internet asistidas. Los estudios futuros deberán centrarse no solo en la viabilidad y la exactitud cualitativas de los chatbots basados en IA, sino también en la reproducibilidad de los resultados. Cuarto, aunque los cardiólogos que realizaron la simulación de pacientes y los cardiólogos que evaluaron las respuestas eran distintos, es posible que se haya introducido un pequeño sesgo. Quinto, el 64% de los pacientes simulados eran varones, todos ellos caucásicos; se necesitan nuevas investigaciones para evaluar la seguridad y la efectividad del chatbot WSa-GPT en diferentes pacientes y trastornos crónicos, así como su papel para respaldar a los profesionales de la salud en la atención personalizada. Sexto, no se midió la duración de las conversaciones, pero se desarrollaron de forma natural, sin que hubiera un retraso significativo que pudiera influir en la experiencia del diálogo. Y séptimo, estos resultados prometedores tienen la limitación del uso de un prompt del chatbot personalizado, y es posible que no sea reproducible en otros contextos.
En conclusión, 2 cardiólogos independientes valoraron que el chatbot WSa-GPT proporcionó una recomendación apropiada y clara respecto a la urgencia de solicitar una evaluación médica en persona en 14 casos de pacientes simulados. Sin embargo, los resultados no fueron reproducibles en una fecha posterior debido a los varios cambios introducidos en el motor del chatbot WSa-GPT, lo cual limita la aplicabilidad de esta herramienta. La reproducibilidad de los resultados será un criterio esencial en las evaluaciones de futuros chatbots basados en IA y en GPT4 por lo que respecta a su viabilidad y la aplicación en entornos hospitalarios y prehospitalarios.
FINANCIACIÓNNinguna.
CONTRIBUCIÓN DE LOS AUTORESTodos los autores han contribuido de manera significativa en: a) la concepción y el diseño, la obtención de datos o su análisis e interpretación; b) la redacción del artículo o la revisión crítica en cuanto a su contenido intelectual; c) la aprobación final de la versión a publicar, y d) la aceptación de la responsabilidad de todos los aspectos del artículo, así como de investigar y resolver cualquier posible cuestión relativa a la exactitud y la veracidad de cualquier parte del trabajo.
CONFLICTO DE INTERESESJ. Sanchis es editor jefe de Rev Esp Cardiol. Se ha seguido el procedimiento editorial establecido por la Revista para garantizar un tratamiento imparcial del manuscrito. P. López-Ayala ha recibido subvenciones de investigación de la Swiss Heart Foundation (FF20079 y FF21103) y honorarios por conferencias de Quidel, pagados a su centro, sin relación con el trabajo presentado. J. Boeddinghaus ha recibido subvenciones de investigación de la Universidad de Basilea, el Hospital Universitario de Basilea, la División de Medicina Interna, Swiss Academy of Medical Sciences, la Gottfried and Julia Bangerter-Rhyner Foundation y la Swiss National Science Foundation (P500PM_206636) y honorarios por conferencias de Siemens, Roche Diagnostics, Ortho Clinical Diagnostics y Quidel Corporation. C. Mueller ha recibido subvenciones de investigación de la Swiss National Science Foundation, la Swiss Heart Foundation, el KTI, la Unión Europea, la Universidad de Basilea, el Hospital Universitario de Basilea, Abbott, Astra Zeneca, Beckman Coulter, BRAHMS, Idorsia, Novartis, Ortho Clinical Diagnostics, Quidel, Roche, Siemens, Singulex y Sphingotec, así como honorarios por conferencias y consultoría de AstraZeneca, Bayer, Boehringer Ingelheim, BMS, Daiichi Sankyo, Idorsia, Osler, Novartis, Roche, Sanofi, Siemens y Singulex, todos ellos pagados a su centro. Los demás autores no tienen nada que declarar.
Se puede consultar material adicional a este artículo en su versión electrónica disponible en https://doi.org/10.1016/j.recesp.2023.06.009