Palabras clave
INTRODUCCION
Con cerca de 15 millones de referencias, Medline, la base de datos biomédica creada y mantenida por la Biblioteca Nacional de Medicina de Estados Unidos, es una de las más completas del mundo1. En buena medida su éxito es atribuible a PubMed, su popular interfaz de acceso libre y gratuito2. Su enorme volumen, que se duplica cada 5 años, hace necesario el recurso a herramientas específicas para la recuperación de información (estrategias de búsqueda). Algunas estrategias o determinadas partes de ella pueden servir a propósitos generales, y entonces se habla de «filtros». Su uso permite ahorrar tiempo en la construcción de las búsquedas e incrementa su reproducibilidad, además de alcanzar una mayor efectividad, habida cuenta de ciertas limitaciones de la indización de PubMed3.
La aparición del paradigma conocido como «medicina basada en la evidencia»4,5 ha estimulado el desarrollo de los métodos para la identificación de referencias en las bases de datos biomédicas y ha impulsado la construcción de filtros de búsqueda llamados metodológicos. Su nombre deriva de que están orientados hacia la identificación de estudios con una alta validez interna6, sobre todo ensayos clínicos aleatorizados o revisiones sistemáticas, entre otros3. Dada su utilidad, algunos de ellos incluso se han incorporado a PubMed, a través de la opción «Clinical queries»1.
Hasta el momento no se ha abordado la construcción de filtros geográficos, esto es, orientados a la identificación de información con una ubicación geográfica específica, a pesar de que las opciones actuales de PubMed no permiten identificar fácilmente el origen geográfico de la población estudiada. Las principales alternativas disponibles son la entrada en el cajón de búsqueda del criterio de restricción «Spain», ya sea como término libre, como filiación del primer autor o como lugar de publicación, y la restricción por el idioma español. Todas ellas se han revelado de forma independiente insuficientes para este propósito. Si las restricciones por idioma o por lugar de publicación ignoran las numerosas publicaciones españolas en revistas internacionales, el uso de búsquedas centradas en la filiación de los autores presenta la limitación de que ese campo de PubMed recoge sólo la filiación del primer firmante. Además, se ha observado que no resulta particularmente eficaz, sobre todo debido a la falta de estandarización, lo que se traduce en una gran variabilidad en la información contenida en este campo, e incluso es frecuente que, al coincidir el país en el que se publica la revista y el de filiación del autor, este último termina por ser eliminado7-10.
Por ello, nos propusimos los siguientes objetivos: a) construir un filtro geográfico para la identificación en PubMed de estudios en los que haya participado población española, y b) evaluar su rendimiento de acuerdo con estándares metodológicos aceptados y respecto a criterios simples de búsqueda geográfica.
MÉTODOS
Construcción del filtro geográfico
Para la construcción del filtro geográfico se ha seguido un procedimiento de segunda generación, según la terminología propuesta por Jenkins3, caracterizado porque su construcción se basa en: a) la aplicación de conocimiento experto de la estructura de la base de datos (PubMed) y del tesauro o vocabulario controlado (MeSH), y b) la validación de la estrategia obtenida, mediante su comparación con un patrón de referencia3.
Para la identificación de los términos relevantes se revisaron las estrategias de búsqueda utilizadas por otros autores para identificar estudios realizados en España, en su mayoría estudios bibliométricos orientados a la evaluación de la producción científica española. Se contactó con los autores para la obtención de las estrategias de búsqueda originales11-17. A partir de los elementos identificados, la estructura sintáctica del filtro y sus términos se definieron en 3 bloques: a) el término «España» en los principales idiomas usados en PubMed (inglés, español, alemán, francés, italiano); b) topónimos correspondientes a comunidades autónomas, provincias y sus capitales y otros de interés especial, excluidos los que pudieran corresponder a otros países, y c) acrónimos oficiales de los servicios de salud autonómicos.
Se especificó la búsqueda de los términos del primer bloque como texto libre o como filiación ([ad]). El motor de búsqueda de PubMed aplica al texto libre un proceso de mapeo automático de términos que localiza equivalencias de forma consecutiva en tablas de términos MeSH, revistas y autores, por este orden, y en el que no está incluido el campo de filiación1. Los demás bloques se aplicaron únicamente al campo de filiación. Los términos se truncaron para permitir la recuperación de gentilicios. Los distintos bloques se asociaron con el conector OR (anexo 1).
Evaluación del rendimiento del filtro
La evaluación del rendimiento del filtro geográfico se realizó mediante su comparación con una búsqueda manual (patrón de referencia) en una muestra de validación ad hoc3.
Identificación de la muestra y búsqueda manual
Para la obtención de la muestra se seleccionaron todas las referencias indizadas en PubMed bajo la palabra clave (MeSH) correspondiente a «infarto de miocardio» («myocardial infarction»), que en España supuso 39.400 muertes sólo en el año 2002 y cuya incidencia se encuentra en aumento en nuestro medio18,19. Se seleccionaron sólo estudios clínicos (Limits: «Clinical Trials») y opciones por defecto (activación de «Explode» y desactivación de «Restrict to Major Subject Headings»). El formato seleccionado fue «Medline», que detalla entre 20 y 30 características para cada referencia en función de la información que proporcione la publicación (título, resumen, autores, filiación y términos MeSH, entre otros)1. Las muestras de validación se exportaron y gestionaron utilizando el programa Reference Manager 1020 para garantizar que el procedimiento fuera auditable.
Dos revisores (JM, JMV) llevaron a cabo la clasificación manual de las referencias de la muestra de validación («pertinentes» frente a «no pertinentes») a partir de la siguiente definición operativa: se consideraron «pertinentes» todas las referencias en las que: a) se indicaba específicamente que el estudio se había realizado en España; b) se mencionaba la población española como tal, c) el estudio había sido realizado por investigadores adscritos a centros de investigación españoles. Las referencias relacionadas con estudios multicéntricos (internacionales o no) en los que participara población española se consideraron también pertinentes. Todas las referencias que no cumplían ninguno de los criterios anteriores se consideraron «no pertinentes». En caso de duda, cuando la información sobre la filiación de los autores, el lugar de intervención o la población era insuficiente, se identificaba, además, el texto completo del artículo para su evaluación. En algunos casos fue necesario identificar otros estudios realizados por los mismos autores u otras referencias externas a la muestra para poder clasificarlas como «pertinentes».
Esta clasificación se comparó con la obtenida tras la aplicación del filtro a la muestra (mediante el conector «AND»). Se incluyeron todas las referencias que se encontraban en PubMed desde su inicio, en 1966, hasta la fecha de realización de las búsquedas electrónicas, el 1 de agosto de 2005.
Estrategia simple
Para evaluar la utilidad relativa del filtro se comparó su rendimiento con el de una estrategia mucho más sencilla. De forma intuitiva, cabría suponer que ésta correspondería a la utilización del término libre «Spain». Se trata en realidad de un término ineficiente que podría incrementar artificialmente la bondad relativa del filtro geográfico21 y se seleccionó la estrategia «Spain[ad]», que recupera un volumen de referencias prácticamente 3 veces mayor1.
Análisis
La evaluación de las búsquedas en PubMed guarda una estrecha similitud operacional con el estudio del rendimiento de las pruebas diagnósticas, en el que también se aplican los conceptos de sensibilidad (proporción de artículos pertinentes en la muestra de validación que son recuperados por el filtro) y especificidad (proporción de artículos no pertinentes en la muestra de validación que no son recuperados por el filtro) (fig. 1)22,23. Se calcularon estos índices para la aplicación del filtro geográfico y de la estrategia simple en la muestra de validación.
Fig. 1. Índices para la evaluación del rendimiento de filtros y estrategias de búsqueda.
Se comprobó la estabilidad de estas estimaciones mediante un análisis de sensibilidad en una segunda muestra de validación, independiente de la anterior. Se escogió una enfermedad diferenciada, pero también de elevada importancia sanitaria, y se seleccionaron ensayos clínicos indizados en PubMed bajo el término MeSH correspondiente a la enfermedad pulmonar obstructiva crónica («Pulmonary Disease, Chronic Obstructive»).
RESULTADOS
La aplicación del criterio Spain[ad] al total de la base de datos proporcionó 109.344 referencias. La aplicación del filtro proporcionó 59.142 referencias adicionales para un total de 168.486 referencias (un incremento del 54,1%). El bloque «España» y sus traducciones (texto libre y campo [ad]) proporcionaron 141.961 (84,3%) referencias, el correspondiente a otros topónimos proporcionó 26.499 referencias no incluidas entre las anteriores (15,7%) y el correspondiente a los servicios de salud otras 26 (0,1%).
Bajo el término MeSH «Myocardial Infarction» se encontraron indizadas 7.312 referencias correspondientes a estudios clínicos, todas ellas distintas excepto 2 que correspondían al mismo documento, indizado en una ocasión como ensayo clínico y en otra como revisión. La revisión manual de estas referencias clasificó 84 (1,15%) como pertinentes y 7.228 como no pertinentes (98,85%). Poco más de la mitad de todas ellas se publicó en español y en revistas españolas. Siete de las referencias pertinentes correspondieron a estudios internacionales en los que se incluyó a población española (tabla 1).
El filtro geográfico recuperó 75 referencias, 74 (98,67%) de ellas clasificadas como pertinentes en la búsqueda manual. La única referencia recuperada que no correspondía a un estudio realizado en España fue obtenida debido a un error de indización de PubMed. En el resumen, su filiación correspondía al hospital milanés «Niguarda Ca'Granda», incorrectamente indizado como «Niguarda Ca'Granada», pero que está correctamente transcrito en la publicación original24. Por separado, el bloque «Spain» y sus traducciones (texto libre y campo [ad]) permitieron recuperar 53 referencias pertinentes (70,67%), el bloque correspondiente a comunidades, provincias y ciudades, 64 (86,47%), y el bloque de servicios de salud, ninguna. De todas ellas, 31 (41,90%) fueron recuperadas exclusivamente por uno de los 3 bloques, mayoritariamente por el de topónimos (n = 21; 67,74%), seguido del bloque «Spain» (n = 10; 32,26%). Las 43 restantes (58,2%) fueron recuperadas simultáneamente por más de un bloque.
El filtro geográfico no fue capaz de recuperar 10 referencias pertinentes, en 2 casos por causas atribuibles a una insuficiente definición de los términos del filtro (topónimos no incluidos en la estrategia): en una se mencionaba «Catalonia» en el resumen como el lugar en el que se realiza el estudio25, y en otra se menciona en el campo filiación del autor un hospital ubicado en Cartagena26. Las 8 restantes carecían de información suficiente, la mayoría de ellas (n = 6) publicadas entre 1970 y 1990, para las que sólo se disponía de la referencia (título, autores y publicación). Todas ellas se habían clasificado en la revisión manual como pertinentes sólo después de la búsqueda secundaria de los datos del estudio y/o la filiación de los autores a través de otras referencias externas a la muestra de validación.
En conjunto, el filtro demostró una sensibilidad del 88,10% y una especificidad del 99,99% (tabla 2). La estrategia simple «Spain[ad]», en cambio, recuperó tan sólo 38 referencias pertinentes, con unos valores de sensibilidad del 45,8% y de especificidad del 100% (tabla 2). La bondad de la estimación del rendimiento del filtro geográfico en la segunda muestra de validación (478 referencias) incluso resultó óptima (sensibilidad y especificidad del 100%).
Al finalizar, se informó de todos los errores de indización identificados a la Biblioteca Nacional de Medicina de Estados Unidos.
DISCUSION
Se ha construido un filtro geográfico de uso sencillo para la identificación de estudios realizados en España en la base de datos Medline (PubMed). La evaluación de su rendimiento ha demostrado que tiene una especificidad excelente y que ha alcanzado una sensibilidad muy elevada, superior a la de un criterio de búsqueda simple.
Fortalezas y debilidades del procedimiento de evaluación
Las inconsistencias en la indización y la presencia de errores de transcripción afectan a la recuperación de las referencias en Medline27-31. El procedimiento de validación del filtro se ha diseñado precisamente teniendo en cuenta las limitaciones de la indización y superando las limitaciones inherentes a los métodos empleados hasta el momento, basados en la realización de una búsqueda manual en una única muestra de validación ad hoc, habitualmente definida a partir de las referencias publicadas en revistas seleccionadas3. Esta práctica es controvertida por la arbitrariedad que introduce esta selección, pero especialmente porque utiliza una referencia externa a la base de datos, de forma que los errores de indización afectan a la estimación del rendimiento del filtro32. Tomando un caso extremo, una referencia que no se haya incluido en la base de datos no podrá ser recuperada por el filtro evaluado, ni por ningún otro, por lo que no parece razonable atribuir esta limitación a la estrategia de búsqueda. El procedimiento de evaluación ha tomado la muestra de validación directamente de PubMed, lo que permite, ade más, que el procedimiento de búsqueda manual sea fácilmente reproducible, algo que en cualquier caso garantiza la disponibilidad de las muestras de validación en un archivo de Reference Manager. La construcción de una muestra suplementaria no relacionada con la anterior y basada en una entidad clínica diferenciada para evaluar la estabilidad de la evaluación del rendimiento del filtro también incrementa la confianza en la estimación.
Debe señalarse que por el momento no hay estándares para la selección de filtros de comparación o de muestras de evaluación o validación de filtros. La estrategia simple fue seleccionada por tratarse de una estrategia intuitiva, que triplica el rendimiento de una estrategia más sencilla (Spain como texto libre), y por ser la más descrita en la literatura científica, mientras que la interpretabilidad de los resultados ha guiado la selección de las muestras de validación.
Fortalezas y debilidades del filtro propuesto
Los términos se han incluido a partir de un procedimiento sistemático basado en la definición de criterios explícitos: geográficos, con localizaciones geográficas de tamaño decreciente, lingüísticos, con idiomas que cubren un porcentaje superior al 99,99% de la producción científica española33, y administrativos, con la inclusión de los diversos servicios de salud. Esta misma característica hizo que no se pudiera recuperar electrónicamente 2 referencias pertinentes, cuyo criterio de localización no coincidía con ninguno de los criterios predefinidos. Ambos términos se han incorporado al filtro con posterioridad (anexo 1) y a buen seguro se irán enriqueciendo con las propias aportaciones y sugerencias de los usuarios.
El filtro geográfico propuesto incluye un bloque con el nombre de los servicios de salud autonómicos que, tras ser analizado, no incrementó pero tampoco disminuyó la sensibilidad ni la especificidad en las muestras utilizadas. Atendiendo a su efecto neutro, su pequeño tamaño, el hecho de que cuando se emplea este bloque por separado permite la identificación de 1.519 referencias hasta la fecha de estudio y la experiencia previa de los autores con estos términos, se ha considerado conveniente mantener su inclusión. La construcción modular del filtro permite, en cualquier caso, que dicha parte se pueda eliminar sin dificultad, si así se desea.
Las bases de datos tienden hacia una mayor normalización de los datos y han mejorado su indización con el tiempo. Ello puede suponer que mejore el rendimiento de algunas búsquedas más sencillas que, en cualquier caso, están ya insertadas en el filtro actual.
Las estrategias de búsqueda alternativas basadas en criterios de idioma o de lugar de publicación, si bien son útiles en estudios bibliométricos, tienen escasa aplicabilidad al objetivo de identificar estudios realizados en la población española. Acotar las búsquedas a las entradas en español obviaría la enorme producción española en inglés (66.855 documentos, sólo en el período 1994-200233). Inversamente, más de la mitad de todas las referencias contenidas en PubMed en español corresponden a publicaciones de fuera de España, que en su gran mayoría presentan estudios realizados en el continente americano.
Cada vez con mayor fuerza, los investigadores publican sus resultados en revistas internacionales (en el presente estudio, en más del 45% de los casos)27. Paralelamente, algunas de las revistas que se publican en España tienen un marcado carácter internacional, como Methods and Findings in Experimental and Clinical Pharmacology o Test. Otras, que tuvieron en origen un carácter local, aspiran cada vez más a su reconocimiento como revista internacional, como la propia Revista española de Cardiología, en la que se ha publicado más de un tercio de todos los estudios. En cualquier caso, parece claro que el idioma y el lugar de publicación no son fiables para la identificación de estudios realizados en España.
Aplicaciones del filtro geográfico
Sin duda, una de las aplicaciones más útiles de este filtro geográfico es la de permitir identificar los estudios con una mayor validez externa para la aplicación de las observaciones a la población española, entendida como generabilidad o semejanza proximal6,34-36. Es bien sabido que la generabilidad de los hallazgos depende de aspectos muy diversos de los estudios, que incluyen desde las características clínicas, sociodemográficas e incluso genéticas de la propia población estudiada hasta aspectos relacionados con el proceso de atención, como los estilos de práctica clínica y los cuidados y tratamientos complementarios administrados6. Si los anteriormente indicados podrían ser de especial relevancia en estudios relacionados con el riesgo cardiovascular (piénsese, p. ej., en la controvertida aplicación de las diferentes tablas y ecuaciones obtenidas en distintas poblaciones), otros aspectos, como los legislativos o los relacionados con la organización de los servicios sanitarios, podrían ser aún más relevantes en estudios sobre el abandono del hábito tabáquico37 (legislación y modelos sociales de comportamiento) o que evalúen la efectividad de una intervención domiciliaria (accesibilidad y modelo de atención)38. Tanto en uno como otro caso, la ubicación geográfica de un estudio se puede considerar como una variable indirecta (proxy) de muchas de estas variables y puede ser de gran utilidad para la evaluación de su validez externa.
Específicamente, la disponibilidad de un filtro geográfico de elevada sensibilidad y especificidad para la identificación en PubMed de estudios realizados en la población española abre la puerta a su aplicación sistemática en la práctica clínica. Su aplicación permitirá identificar de forma rápida y fiable información pertinente sobre los efectos de los procedimientos y tratamientos en condiciones más próximas a las de su uso real. Esta información también es especialmente pertinente para la definición de trayectorias clínicas, que despiertan un creciente y justificado interés y en las que la consideración de las peculiaridades asistenciales locales son determinantes para una implementación efectiva39-42. Desde el punto de vista cognitivo, la recuperación de información pertinente facilita el aprendizaje, así como la mejora de la práctica clínica tras la aplicación de la nueva información43,44.
Tal vez por ello, sorprende la falta de apartados específicos en las guías de práctica clínica en los que se sintetice la información disponible sobre el uso de los procedimientos diagnósticos y terapéuticos en el propio medio en el que se quiere aplicar45,46 y en el que filtros geográficos como el que aquí se ha presentado pueden tener un papel destacado38. Esta contextualización de la información, antes que contradecir los postulados de la medicina basada en la evidencia, los reafirma, pues la consideración de la validez externa de la información identificada no es si no el paso inmediato a su aplicación a la práctica clínica4.
Finalmente, este filtro geográfico brinda una herramienta útil para aplicaciones bibliométricas, hasta el momento centradas predominantemente en la base de datos del Institute of Scientific Information de Philadelphia (ISI) y que de esta manera se podrían complementar a través de PubMed15,33. De hecho, una publicación reciente describe el uso independiente de un filtro geográfico similar al presentado en nuestro artículo para este fin47.
CONCLUSIONES
Se dispone de un filtro eficiente para la identificación de estudios realizados en la población española en PubMed, cuyo aplicación permite hallar las referencias con mayor validez externa para la práctica clínica en España y que, empleado de forma sistemática, puede ser de gran utilidad en la elaboración de guías de práctica y en la definición de trayectorias clínicas.
AGRADECIMIENTOS
Los autores quieren agradecer al Centro Cochrane Iberoamericano la orientación recibida sobre la estructura del filtro, a los Dres. Alberto Miguel-Dasit y Luis Martí-Bonmatí habernos facilitado generosamente la estrategia de búsqueda diseñada por ellos y a Olatz Garín sus valiosos comentarios.
Full English text available from: www.revespcardiol.org
Una versión previa de este trabajo fue presentada en la XXIII Reunión de la Sociedad Española de Epidemiología. Este estudio ha sido financiado parcialmente por el Instituto de Salud Carlos III (Red de Investigación Cooperativa en Investigación de Resultados y Servicios Sanitarios [IRYSS] G03/202 y Exp N.o 3000118).
Véase editorial en págs. 1221-4
Correspondencia:
Dr. J.M. Valderas Martínez.
Unidad de Investigación en Servicios Sanitarios. Institut Municipal d'Investigació Mèdica (IMIM).
Dr. Aiguader, 88. Edifici PRBB. 08003 Barcelona. España.
Correo electrónico: jmvalderas@imim.es
Recibido el 29 de agosto de 2005. Aceptado para su publicación el 2 de agosto de 2006.