Palabras clave
INTRODUCCIÓN
La práctica clínica habitual en la angina inestable (AI) no siempre está basada en la mejor evidencia. En diversos lugares del mundo se han descrito altas tasas de inadecuación de la atención sanitaria a dicho problema clínico1,2. En España, un reciente estudio en el que se utilizaron datos de un registro nacional de AI mostraba que hay un bajo uso de medicamentos y procedimientos invasivos (angiografía coronaria [AC] en el 32%)3. Las guías de práctica clínica basadas en la evidencia (GPC) se perfilan como un método útil para mejorar la calidad de la asistencia sanitaria4, a pesar de que la evidencia muestra que la diseminación pasiva de las guías no siempre es suficiente5. Por ello, en los últimos 10 años se han hecho grandes esfuerzos internacionales para desarrollar guías para una amplia gama de enfermedades y condiciones6.
Las estrategias de implantación de guías han tenido un moderado efecto en la mejora de la adecuación de la asistencia sanitaria7. La atención sanitaria inadecuada para la AI en España podría ser mejorada; pero, por desgracia, hasta el momento no hay una estrategia nacional coordinada para el desarrollo, la implantación y la evaluación de GPC basadas en una metodología rigurosa y homogénea8. Los planificadores de estrategias de implantación nacional o regional necesitan las mejores evidencias procedentes de evaluaciones rigurosas. No obstante, en la actualidad no se dispone de ensayos clínicos controlados por grupos para evaluar las estrategias de implantación de GPC llevados a cabo en el sistema sanitario público español y sólo se dispone de algunos estudios prospectivos9-11. Es más, la mayor parte de la evidencia que se maneja al respecto proviene de lugares muy diferentes de España en múltiples aspectos (Estados Unidos, el Reino Unido o Canadá).
El objetivo principal de nuestro estudio fue comparar la efectividad de 2 estrategias diferentes para implantar una GPC en la AI, aplicadas a equipos de cardiólogos e internistas. Escogimos intervenciones que fueran factibles en la vida real de un hospital del sistema sanitario público español y que, a la vez, dispusieran de ciertas evidencias empíricas de éxito en estudios publicados previamente5. Se comparó una estrategia multifactorial, consistente en una serie de sesiones formativas interactivas junto con procesos de consenso local, con una estrategia de diseminación pasiva (un seminario único en el que la guía en cuestión era presentada al grupo control). La justificación de la intervención en el grupo control admite implícitamente que la diseminación pasiva de una guía consiste en que las personas cambian de actitud por su simple presentación y, además, es la forma habitual de introducir un nuevo conocimiento en un equipo. La estrategia multifactorial, por su parte, propone que los médicos, para cambiar su práctica clínica necesariamente han de reconocer primero «las necesidades», el «qué», el «cuándo» y el «cómo» (sesiones interactivas formativas), además de sentirse cómodos con la nueva práctica (adaptación local y sentir la GPC como propia).
Nuestra hipótesis era que la estrategia multifactorial era más efectiva que la de control. Se aleatorizó a grupos de médicos (clusters) en vez de a médicos individuales para prevenir que los pacientes intervenidos y los controles fueran manejados de una misma manera, lo que diluiría el efecto de la intervención.
Este estudio es parte del proyecto CAMBIE, que proponía un intento global de mejora de la calidad asistencial a través del desarrollo e implantación de GPC basadas en la evidencia y del seguimiento de sus resultados12.
PACIENTES Y MÉTODO
Participantes
El estudio fue llevado a cabo en los servicios de cardiología y medicina interna de 3 hospitales universitarios de Sevilla (España). Los médicos, agrupados según un mismo lugar de trabajo (equipos) de un mismo servicio, fueron aleatorizados para ser asignados al grupo de intervención o al grupo control. Todos los miembros de la plantilla de médicos se consideraron elegibles para el estudio. Se pidió el consentimiento previo para el estudio a los jefes de servicio de cardiología y medicina interna de cada hospital. Asimismo, el estudio obtuvo permiso de los comités de ética de cada centro para su realización. Los episodios de AI atendidos por los diferentes equipos fueron identificados en las bases de datos mediante varios códigos de diagnóstico principal de los informes de alta (AI, angina progresiva, angina de reposo, angina de reciente comienzo o angina postinfarto, que eran los criterios aceptados en la definición de Braunwald en el momento en que se administró la intervención). Se excluyeron todos los episodios en los que el médico responsable no estuviera claramente identificado, los episodios isquémicos no anginosos, las valvulopatías aórticas significativas, las anginas de Prinzmetal, los dolores torácicos anginosos con movimiento de enzimas cardíacas, los pacientes con domicilio fuera del área hospitalaria correspondiente o los fallecidos durante el período de hospitalización.
Intervenciones
Se implantó una GPC basada en la evidencia para la AI, desarrollada por la Agencia de Evaluación de Tecnologías Sanitarias de Andalucía (AETSA), que había realizado una revisión bibliográfica sistemática y un panel de expertos (método RAND)13,14. Las recomendaciones de la guía fueron adaptadas a la peculiaridad local de los centros (p. ej., a la disponibilidad de AC)15. En el grupo de intervención se realizaron 3 sesiones de 45 min cada una por separado con los médicos de cada uno de los equipos intervenidos. Las sesiones constaban de un contenido mixto (proceso de consenso local y sesiones formativas interactivas)16,17. En la primera de las sesiones se presentó un borrador de la guía, se invitó a los médicos a discutir las recomendaciones incluidas en ella y se les pidió que dieran sus opiniones al respecto. Se tuvieron en cuenta sus comentarios acerca de las barreras para la implantación de la guía para modificar algunas de las recomendaciones de la versión final de la guía. Con estas medidas lo que se pretendía era que los médicos intervenidos sintieran la guía como propia. La segunda y tercera sesiones tuvieron lugar una vez publicada ya la guía. Diversos casos representativos de AI inadecuadamente atendidos por cada equipo intervenido fueron revisados y reorientados a tenor de las recomendaciones de la guía. En las sesiones se puso especial énfasis en enseñar a los médicos el uso de la guía, así como en aclarar interpretaciones de las recomendaciones que resultaran dudosas. Nos centramos principalmente en las recomendaciones de uso de la AC y las pruebas de esfuerzo. En el grupo control se realizó una única sesión formativa de 30 min de duración para presentar la guía a los equipos control. La guía fue presentada a todos los equipos por el mismo investigador. A cada participante se le entregó un ejemplar de la guía en su lugar de trabajo. La guía incluía un tríptico de bolsillo que contenía los algoritmos de toma de decisiones sobre el uso de AC y pruebas de estrés.
Desenlaces
El desenlace primario que se midió fue la proporción de episodios de AI atendidos por cada equipo con uso apropiado de AC y pruebas de estrés. Cada episodio de AI fue considerado como adecuado cuando la decisión del médico se adaptaba a la recomendación correspondiente de la guía para ambos componentes mencionados. Para valorar la adhesión del médico a la guía se desarrollaron criterios en los que se tuvieron en cuenta variables relevantes para la toma de decisiones mencionadas en las recomendaciones. Más información acerca de los escenarios clínicos que se tuvieron en cuenta y cómo se valoró la adecuación de las actuaciones de los médicos para el desenlace primario está disponible en: www.redeguias.org/public_articulos/anexoREC.pdf
Entre los desenlaces secundarios se midió la proporción de episodios de AI en los que se midió la fracción de eyección (FE) del ventrículo izquierdo. Esta medición fue considerada válida si el dato aparecía en la historia clínica como obtenido durante el ingreso en curso o en cualquier momento en los 6 meses previos.
Diseño del estudio y cálculo del tamaño muestral
Se trata de un ensayo clínico aleatorizado por grupos, antes-después, pragmático. Este diseño es el considerado como óptimo para la investigación de implantación18. La aleatorización por equipos, estratificada por hospitales y por especialidades, fue realizada por el investigador principal del estudio mediante una tabla de números aleatorios. Los participantes en el estudio fueron ciegos para sus objetivos y diseño, lo que se intentó conseguir mediante 3 pasos: a) retrasando el tiempo que mediaba entre la intervención y la selección de pacientes con un tiempo de lavado de 3 meses; b) evitando hacerles saber cuándo comenzaba la selección de la muestra, y c) recogiendo los datos de las historias clínicas al final del período de selección, con lo que se evitaba una sobreobservación del proceso clínico. Debido a que el propio equipo de investigación trabajaba en los escenarios del estudio, se consideró que los equipos donde éstos trabajaban formaban parte del grupo de intervención (asignación forzosa). Para el cálculo del tamaño muestral estimamos, desde un estudio previo, una tasa de adecuación del 60%, tanto para la AC como para las pruebas de estrés (Briones E, comunicación personal). Una detección del 15% de cambio en la adecuación de uso de la AC fue considerada como relevante. Para un número fijo de 10 grupos elegibles, un estadístico estimó un número total de 872 episodios de AI necesarios para detectar dicha diferencia con un poder estadístico del 80%, asumiendo un valor de alfa de 0,05. El índice de correlación usado fue del 0,05. El tamaño muestral fue seleccionado de forma proporcional al tamaño del equipo. Para calcular el poder para el análisis en el cluster se estimó, a través de los datos basales de los 10 clusters, que la varianza del desenlace primario en el grupo era 101,4. Usamos un nivel de significación del 0,05 (bilateral), por lo que el poder para detectar una diferencia de 20 en las medias del desenlace primario entre grupos fue del 87,5%, mientras que fue del 57,5% para una diferencia de 1519.
Recogida de datos
La selección de episodios de AI para el período post-intervención comenzó 3 meses después de que se realizara la intervención, de septiembre de 1998 a junio de 1999. La selección de los episodios preintervención se realizó entre enero y octubre de 1997.
Se obtuvieron datos detallados demográficos y clínicos de cada uno de los episodios a partir de la revisión retrospectiva de las historias clínicas, en julio de 1999. Un equipo de extractores, ciego para los objetivos y el diseño del estudio, fue entrenado para la recolección de datos. Los desenlaces de cada episodio fueron evaluados con los mismos criterios por un investigador ciego para el estatus de intervención del médico. Los episodios dudosos fueron resueltos por consenso entre los evaluadores. La actitud de los médicos frente a las guías fue investigada en una muestra de médicos antes de la intervención mediante una encuesta validada de 13 ítems traducida del cuestionario CPP-1820.
Métodos estadísticos
Se estudió a los mismos médicos de cada equipo antes y después de la intervención. Para comparar el cambio medio de adecuación (antes-después) entre los equipos intervenidos y los de control se usó la prueba de la t de Student, tanto para el desenlace primario como para el secundario. Hicimos un análisis por intención de tratar de forma pragmática para todos los médicos del estudio, independientemente de que asistieran o no a todas las sesiones formativas. Los análisis fueron realizados con SPSS (versión 9.0) y SAS (versión 8.2).
RESULTADOS
Se incluyó en el estudio a todos los equipos elegibles. Uno de ellos (una unidad coronaria) abandonó el estudio porque durante su desarrollo se realizó un cambio en la organización del flujo de pacientes dentro del hospital correspondiente (los pacientes no eran dados de alta directamente a su domicilio sino a una planta de cardiología o de medicina interna), lo cual implicaba una tasa más baja de selección para dicha unidad. Un porcentaje > 85% de los médicos acudió a las sesiones de formación. El método de extracción de datos fue considerado fiable21. En la figura 1 se muestra el flujo de participantes en el estudio y el proceso de aleatorización. Las diferencias en el número de episodios seleccionados entre el grupo control y el de intervención se explicaron por los cambios introducidos en el flujo de pacientes entre especialidades del hospital durante el ensayo. Este disbalance fue respetado para evitar un período de selección más dilatado y para poder observar los 2 grupos del estudio de forma simultánea. No se observaron diferencias significativas en las características clínicas de los episodios de AI entre los grupos del estudio (tabla 1). La mayoría de los médicos demostró una buena actitud ante las guías (tabla 2).
Fig. 1. Proceso de aleatorización y diagrama de flujo del progreso de los equipos y los médicos en el ensayo (fase postintervención). M.: medicina; Cardiol.: cardiólogos. episod: episodios; med.: médicos.
Desenlace primario
Se analizó un total de 1.734 episodios. Globalmente, la adecuación de uso de la AC y de las pruebas de estrés en cada equipo antes de la intervención fue muy baja (adecuación media del 33 ± 10%). La más baja de estas tasas se observó en 2 de los equipos del grupo intervenido (alrededor del 24%). La estrategia de implantación multifactorial en comparación con la pasiva se asoció con una mejora absoluta en la adecuación de uso de AC y de las pruebas de estrés (11%; intervalo de confianza [IC] del 95%, 0,85-21,1; p = 0,03), lo que representa una mejora relativa de alrededor del 130% (tabla 3).
Desenlaces secundarios
Los datos basales mostraban que la tasa media de evaluación de la FE en episodios de AI era del 57 ± 17,1%. Ambas estrategias de implantación fueron igualmente efectivas para aumentar el número de episodios en los que se evaluaba la FE (cambio medio en ambos grupos de alrededor del 12%). Para la diferencia entre las 2 estrategias, la intervención no superó al control, con una mejora absoluta de 1,1% (IC del 95%, -15,9 a 18,1; p = 0,88) (tabla 4).
DISCUSIÓN
Estos resultados han mostrado que las sesiones formativas interactivas, así como el proceso de consenso local administrado a equipos de médicos, puede mejorar la adecuación de uso de la AC y de las pruebas de estrés en un 11%. Los resultados están en concordancia con los obtenidos en una revisión sistemática de sesiones formativas17 en las que tanto los seminarios como los talleres llevados a cabo se consideraba que causaban cambios moderadamente relevantes en la práctica profesional. En la revisión sistemática no se detectaron, en general, beneficios para las sesiones didácticas.
Los procesos locales de consenso pueden ayudar a los profesionales involucrados en la toma de decisiones a considerar las circunstancias que pueden afectarles directamente, incrementando así su sensación de pertenencia y compromiso para adherirse a la decisión acordada22. Actualmente hay evidencias poco aclaratorias acerca de la efectividad de los procesos locales de consenso23. No estaba planificado en este trabajo estudiar qué componente de la intervención multifactorial fue el más activo.
En nuestro estudio se obtuvo un cambio relevante acerca de la evaluación de la FE prácticamente igual en los 2 grupos. Es probable que este efecto se debia a la contaminación de los efectos de la intervención entre los 2 grupos. A pesar de que los médicos de cada equipo no conocían que estaban formando parte de un estudio, la comunicación entre miembros de diferentes equipos de un hospital es un hecho frecuente. Esta comunicación podría haber llevado a que los médicos de los equipos del grupo control tuvieran un mayor interés por adoptar las recomendaciones de la guía. La contaminación de los efectos de una intervención es un problema bien conocido asociado con algunos ensayos clínicos aleatorizados por grupos24.
Para el desenlace primario, la decisión de incluir o no al equipo 0 tenía implicaciones directas en la significación estadística obtenida. Finalmente se decidió comunicar los resultados sin los datos de ese equipo por considerar que ello no comprometía el análisis por intención de tratar, ya que con sólo 3 episodios de AI registrados no es suficiente para estimar de una manera precisa el rendimiento del equipo.
Otro hallazgo interesante fue la actitud positiva que en general se detectó en los médicos frente a las guías. Esto quiere decir que una buena actitud frente a las guías no es suficiente para cambiar la práctica profesional. Los hallazgos coinciden con los de una revisión sistemática y hacen hincapié en la necesidad de introducir cambios en la formación, organización y estructura de un sistema sanitario para modificar el comportamiento clínico de los médicos25.
Fortalezas
En nuestro estudio, como en algunos otros realizados en España (CAM11), se midieron los cambios en la adecuación de uso de los tratamientos y procedimientos diagnósticos, y no sólo tasa de su utilización, que es una mejor manera de evaluar cambios en la calidad de los cuidados administrados.
Hasta donde conocemos, éste es el primer estudio en el que se investiga la mejora de la calidad asistencial en España realizado con la metodología rigurosa de un ensayo clínico aleatorizado por grupos. Aunque los estudios antes-después (ya sean controlados o no) son apropiados para los proyectos locales de mejora de la calidad, los datos generalizables sólo pueden ser obtenidos a partir de ensayos clínicos controlados26. En el estudio CAM, con diseño antes-después, se midió el efecto de una intervención formativa simple que proporcionó un cambio absoluto del 8% en la adecuación de uso de la prueba de isquemia, un resultado similar al nuestro11. Sin embargo, el cambio absoluto obtenido en el estudio CAM podría deberse a una sobrestimación, principalmente porque su diseño no permitió controlar los cambios súbitos o las tendencias seculares, lo que hace difícil atribuir el efecto observado a la intervención26. En este sentido, el efecto absoluto obtenido en nuestro estudio es más realista; diseños aleatorizados permiten que todos los factores relevantes (conocidos o no) para el desenlace sean distribuidos por igual en ambos grupos, control y de intervención. De esa forma, las diferencias en el efecto obtenido tras la intervención pueden ser mejor atribuidas a la intervención que a otros factores (como la autoselección de participantes del estudio CAM)26.
El estudio fue llevado a cabo en hospitales públicos con docencia y, según nuestro punto de vista, los resultados son generalizables, al menos a hospitales similares del resto del territorio español. La preparación de las sesiones formativas no requirió grandes recursos y cualquier servicio de medicina interna o cardiología podría administrar la intervención, siempre que se disponga de una guía fiable.
Hay otros 2 estudios prospectivos de implantación en España con una aproximación diferente respecto del nuestro. El primero es la implantación de un programa de mejora de la calidad en el infarto agudo de miocardio en el que se utilizan auditoría y retroalimentación, así como recordatorios en el informe de alta generados por ordenador9. Se comunica un rango de mejora absoluta del 5-46% dependiendo del indicador, y se consiguen para todos los indicadores el sorprendente éxito del 100% de pacientes correctamente tratados. Estos resultados podrían considerarse como fuera de lo común si tenemos en cuenta los datos comunicados en una revisión sistemática reciente de la efectividad de las estrategias de implantación de las guías, donde la auditoría y la retroalimentación mostraron una mediana de efecto del +7% (rango, +1,3 a 16%), los sistemas de recordatorios del +14% (rango, -1 a +34%) y los multifactoriales (estrategias mixtas) del +6% (rango, -4 a +17,4%)27.
Otro estudio que se centró en un programa formativo dirigido a pacientes y familiares sugirió que dicho programa podría ser efectivo para mejorar la tasa de adopción de medidas de prevención secundaria tras un infarto de miocardio. Esta estrategia es prometedora, pero no es comparable con nuestro estudio porque la diana de la intervención eran los pacientes, y nosotros nos centramos en los profesionales. Además, la falta de grupo control y la alta proporción de pérdidas durante el seguimiento limitan la generabilidad de sus resultados10.
Limitaciones
Nuestro estudio tiene algunas limitaciones. Los resultados deben ser interpretados en el contexto del defecto de usar una guía local no refrendada por la sociedad científica nacional de cardiología. Esto podría haber reducido la credibilidad de la guía entre los profesionales intervenidos y explicar, en parte el pequeño efecto obtenido en algunos equipos. Más aún, durante el período de intervención se estaban produciendo avances relevantes en la clasificación y la aproximación clínica a los síndromes coronarios agudos. Algunos participantes, conscientes de este nuevo conocimiento, podrían haber considerado que la guía no estaba actualizada y, por esta razón, que no era útil.
Los grupos de estudio no fueron similares basalmente para el desenlace primario. Dos equipos del grupo intervenido mostraron los peores índices de adecuación y los mayores cambios en la adecuación tras la intervención. Este efecto es frecuente en la investigación sobre la mejora de la calidad, donde los que tienen una peor adecuación se benefician más de la intervención26. Otro problema es que algunos de los investigadores estaban incluidos en el estudio como participantes (por tanto, no eran ciegos para sus objetivos y métodos), motivo por el que los equipos (3 en total) donde ellos trabajaban fueron asignados al grupo intervenido. Dos de estos 3 equipos obtuvieron los mejores beneficios tras la intervención, lo cual podría ser debido a que tenían las peores tasas basales de adecuación, pero también por el hecho de que la práctica de los investigadores estuviera mejor adaptada a la guía, al efecto que la nueva práctica de estos investigadores podría ejercer en sus compañeros, o a ambas circunstancias a la vez. El ajuste por las covariables en el grupo (especialidad, adecuación basal, comorbilidad) no fue posible dado el bajo número de grupos con los que se contaba.
Estos problemas habituales y las dificultades metodológicas son amenazas para la validez interna de nuestro estudio, aunque las circunstancias que causaron estas limitaciones representan el mundo real de la investigación sobre mejora de la calidad en España y, en ese sentido, los resultados son valiosos para extraer algunas enseñanzas y conclusiones.
CONCLUSIONES
Nuestros resultados aportan evidencias sobre el hecho de que las sesiones formativas interactivas y el proceso de consenso local administrado a equipos de médicos pueden mejorar la adecuación de uso de la AC y las pruebas de estrés. La evaluación de la FE fue mejorada de una forma relevante con las estrategias de implantación en ambos grupos prácticamente por igual. Incluso con una baja tasa de adecuación basal, las actitudes de los médicos frente a las guías no fueron negativas.
Implicaciones para los clínicos, los gestores y los planificadores sanitarios
Para poder mejorar la práctica clínica se necesita implantar activamente la mejor evidencia científica de que se disponga. Éste es un complejo proceso, difícil de alcanzar y no siempre factible de una forma intuitiva basada sólo en convicciones personales sobre qué intervenciones podrían cambiar la práctica clínica28. De todas formas, se dispone de evidencias que pueden ayudar a guiarnos en tales decisiones7,27. Estas evidencias, unidas con los mejores estándares globales, permiten prever un futuro optimista para la investigación de la mejora de la calidad. Por fortuna, las sociedades científicas están comprometidas en la producción de guías globales y comparten recursos para aumentar su credibilidad y calidad29.
En este estudio se ha intentado concienciar a los profesionales acerca de la necesidad de realizar en España proyectos de investigación de mejora de la calidad con un buen diseño metodológico y correctamente ejecutados, con el fin de apoyar de forma válida las decisiones en el ámbito de la atención sanitaria, tanto en el ámbito regional como nacional.
AGRADECIMIENTOS
A los doctores Burgos, Carneado, Cruz, Grilo, Pastor, Pérez Cano y Rivera, jefes de los servicios donde se realizó el estudio. A Jacques Lemelin por su incondicional apoyo que ha hecho posible la realización de este artículo. A Lorenzo Moja por sus comentarios a versiones iniciales de este artículo.
Otros miembros del estudio CAMBIE son: Rafael Cotos, Ernesto Gómez Gras y Reyes Álvarez (que realizó el estudio de actitudes frente a las guías).
Este estudio fue financiado por el Fondo de Investigaciones Sanitarias. PI: 96/1226; PI: 00/0667; PI:. SAS, Beca. 96/105. European Community FEDER FUNDS. Programa Redes Temáticas FIS-G03/90. España.
Este trabajo ha sido galardonado por la SADEMI con el Premio Dr. López Laguna 2005.
Correspondencia: Dr. A. Romero.
Servicio de Medicina Interna. Hospital Universitario Valme.
Ctra. Cádiz-Bellavista, km 548,9. 41014 Sevilla. España.
Correo electrónico: albertoromeroalonso@hotmail.com