Medidas del rendimiento de modelos de predicción y marcadores pronósticos: evaluación de las predicciones y clasificaciones

doi:10.1016/j.recesp.2011.04.017

Los modelos de predicción están adquiriendo cada vez mayor importancia en medicina y en cardiología. En la actualidad, hay un interés específico que se centra en las formas de mejorar los modelos con el empleo de nuevos marcadores pronósticos. Nuestro objetivo es describir las semejanzas y diferencias entre las distintas medidas del rendimiento de los modelos de predicción. Hemos analizado los datos de 3.264 individuos para predecir el riesgo de enfermedad coronaria a 10 años, según la edad, la presión arterial sistólica, la diabetes y el tabaquismo. Estudiamos específicamente el valor incremental de la adición a este modelo del colesterol unido a lipoproteínas de alta densidad.

Resaltamos que es preciso separar la evaluación de las predicciones en las que las medidas de rendimiento tradicionales, como el área bajo la curva receiver operating characteristic y la calibración, resultan útiles de la evaluación de las clasificaciones, para las que disponemos actualmente de otros parámetros estadísticos, como el net reclassification index y el beneficio neto.

Palabras clave

Predicción

Clasificación

Modelo de regresión

Análisis de decisión

Introducción

Los modelos de predicción están adquiriendo una importancia creciente en la literatura médica. Actualmente disponemos de muchos modelos para la predicción de un diagnóstico (la presencia de una enfermedad) o un pronóstico (p. ej., la incidencia de enfermedad coronaria [EC]). La cuantificación del riesgo cardiovascular se realiza generalmente mediante ecuaciones de riesgo o gráficos de puntuación del riesgo que se han desarrollado a partir de estudios de cohorte amplios1. Las técnicas de modelización incluyen el modelo de riesgos proporcionales de Cox y el modelo paramétrico de Weibull2.

Las funciones de riesgo de Framingham son uno de los ejemplos mejor conocidos de estos modelos de predicción1, 3 y han sido esenciales para individualizar las decisiones de tratamiento preventivo, por ejemplo sobre el uso del tratamiento con estatinas. Ahora el interés específico se centra en cómo se puede mejorar la predicción del riesgo con el empleo de los nuevos marcadores4 identificados gracias a los avances tecnológicos en la investigación básica, incluidas la genómica, la proteómica y las técnicas de imagen no invasivas. Estos marcadores parecen prometedores para aproximarse a la medicina personalizada. Una cuestión importante es cómo evaluar la utilidad de un nuevo marcador para la toma de mejores decisiones, como dirigir el tratamiento con estatinas a los pacientes de mayor riesgo5.

Una condición básica que debe cumplir un nuevo marcador es la significación estadística, que generalmente se define mediante un valor de p bilateral<0,05. Sin embargo, la significación estadística no implica trascendencia clínica o utilidad del marcador. De hecho, un biomarcador con una relación débil con el resultado de interés puede mostrar una asociación estadísticamente significativa si se examina un tamaño muestral suficientemente grande.

Nuestro objetivo en este artículo es describir las semejanzas y diferencias entre las distintas medidas del rendimiento de los modelos de predicción. Nos centramos específicamente en las medidas destinadas a cuantificar la mejora del rendimiento predictivo con la adición de un marcador a un modelo de predicción existente.

Métodos y resultadosPacientes

El Framingham Heart Study se inició en 1948 con una cohorte de 5.209 individuos. En 1971, 5.124 participantes (hijos de los individuos de la cohorte inicial y de sus cónyuges) fueron incluidos en el Framingham Offspring Study. De ellos, 3.951 participantes de entre 30 y 74 años de edad acudieron al cuarto ciclo de exámenes de la cohorte del Framingham Offspring entre 1987 y 1992.

Según se ha descrito anteriormente, excluimos a los participantes con una EC conocida o de los que no se disponía de datos de los factores de riesgo estándar, con lo que quedaron 3.264 de los 3.951 para el presente análisis5. Los participantes estuvieron en seguimiento durante 10 años para identificar la aparición de EC (incluidos infarto de miocardio, angina de pecho, insuficiencia cardiaca y muerte por EC). En total, 183 individuos contrajeron una EC (5,6%). Estos datos constituyen un ejemplo que permite ilustrar los conceptos, más que llevar a cabo un análisis exhaustivo.

Análisis

Se elaboraron modelos de riesgos proporcionales de Cox con sexo, diabetes mellitus y tabaquismo como factores predictivos dicotómicos y edad, presión arterial sistólica y colesterol total como factores predictivos continuos. Las razones de riesgos fueron estadísticamente significativas para todos estos factores predictivos. La adición a este modelo del colesterol unido a lipoproteínas de alta densidad (cHDL) como factor predictivo continuo fue altamente significativa (razón de riesgos=0,65; p<0,001)5.

Analizamos con mayor detalle la mejora del rendimiento del modelo como consecuencia de la inclusión del cHDL, mediante la comparación de dos conjuntos de predicciones de la probabilidad de riesgo de EC a 10 años: un conjunto de predicciones basadas en un modelo de riesgos proporcionales de Cox sin la inclusión del cHDL y un conjunto de predicciones basadas en un modelo con la inclusión del cHDL.

Medidas del rendimiento respecto a la calidad de las prediccionesDiscriminación

Una medida clave de un modelo de predicción es su capacidad de diferenciar a los individuos que sufrirán el evento de interés de los que no; en nuestro caso, la aparición de EC frente a la ausencia de EC a los 10 años de seguimiento6. El área bajo la curva (AUC) receiver operating characteristic (ROC) es la medida más utilizada para cuantificar la capacidad de discriminación (Tabla 1).

Tabla 1. Algunas medidas del rendimiento de los modelos de predicción: la evaluación de las predicciones se ha realizado con medidas distintas de las de la evaluación de la mejor clasificación con un marcador

Aspecto	Medida	Características
Evaluación de las predicciones
Discriminación	AUC o estadístico c	AUC o c es un parámetro estadístico de orden de jerarquía; la interpretación consiste en la probabilidad de clasificación correcta para un par de pacientes con y sin el resultado evaluado
Calibración	Valor de intersección y pendiente de un modelo de recalibrado	Valor de intersección (a/b=1), que refleja la calibración en general, o la diferencia entre la media de predicciones y la media de resultados.
Calibración		Pendiente de recalibración (b), que refleja la media del efecto de los factores predictivos en el resultado
Evaluación de las clasificaciones
Clasificación	Índice de Youden	Suma de sensibilidad y especificidad – 1
Utilidad clínica	BN y DCA	Fracción neta de los positivos verdaderos ganados mediante la toma de decisiones basada en las predicciones para un único umbral (BN) o para una gama de umbrales (DCA)
Evaluación del valor incremental con un marcador
Aumento de la discriminación	Delta de AUC	El aumento de la discriminación suele ser una cifra pequeña
Reclasificación	NRI	Fracción neta de reclasificaciones en el sentido correcto mediante la toma de decisiones basadas en las predicciones realizadas con un marcador en comparación con las decisiones tomadas sin el marcador
Utilidad clínica	Diferencia en BN y DCA; NRI ponderado	Fracción neta de positivos verdaderos ganados con la toma de decisiones basada en predicciones realizadas con un marcador en comparación con las decisiones tomadas sin el marcador para un único umbral (BN) o en una gama de umbrales (DCA); ponderaciones según las consecuencias de las decisiones (BN y NRI ponderado)

AUC: área bajo la curva ROC; BN: beneficio neto; DCA: análisis de curva de decisión; NRI: net reclassification index; ROC: receiver operating characteristic.

La curva ROC representa gráficamente la relación entre la sensibilidad (la tasa de positivos verdaderos, o sea, la probabilidad de EC en los clasificados como positivos) y 1 menos la especificidad (la tasa de falsos positivos, o sea, la probabilidad de ausencia de EC en los clasificados como negativos). Se calculan pares de valores de sensibilidad y especificidad para todos los posibles valores de corte para las probabilidades predichas del riesgo de EC a 10 años. Con un valor de corte bajo como el del riesgo del 0,1%, la sensibilidad es alta, pero la especificidad es mala. Un valor de corte del 5,6% corresponde a la incidencia de la EC (a veces se denomina «prevalencia»). A ese valor de corte, el modelo sin las lipoproteínas de alta densidad (HDL) tenía una sensibilidad del 74% y una especificidad del 65% (Figura 1). El modelo con las HDL daba mejores resultados a ese valor de corte (sensibilidad, 78%; especificidad, 66%). Un valor de corte más alto, como el del 20%, implicaba una sensibilidad inferior, pero con mayor especificidad (Figura 1).

Figura 1. Curvas receiver operating characteristic para los modelos de predicción del riesgo de enfermedad coronaria a 10 años, basadas en 3.264 individuos. Las áreas fueron de 0,762 frente a 0,774 para el modelo sin las lipoproteínas de alta densidad y el modelo con las lipoproteínas de alta densidad, respectivamente. Se muestran dos valores de corte: 5,6% es la media de incidencia de enfermedad coronaria a 10 años, y 20% es un valor de corte clínicamente relevante para definir a individuos con riesgo alto.

El AUC es igual a la probabilidad de que, entre dos individuos dados (uno que sufre una EC en el seguimiento de 10 años y otro que no), el modelo asigne una probabilidad de EC más alta al primero de ellos. El AUC para el modelo sin las HDL en comparación con el modelo con HDL fue de 0,762 (intervalo de confianza [IC] del 95%, 0,73-0,794) frente a 0,774 (0,742-0,806). Esta diferencia de 0,012 es difícil de interpretar, pero la mayoría de los investigadores podrían considerarla pequeña.

Calibración

Otra dimensión importante en la calidad de las predicciones es la calibración, es decir, la coincidencia entre las probabilidades predichas y las frecuencias observadas del evento de interés6. Por ejemplo, en los individuos para los que se predice un riesgo del 5% del evento de interés, en promedio, 5/100 deberían presentar el evento en cuestión. Una forma de estudiar el calibrado es representar gráficamente una función de los eventos observados frente a las probabilidades predichas, por ejemplo con el empleo de una curva loess (Figura 2)6. En el caso ideal2, se obtiene una línea a 45°, con una pendiente de 1 y un punto de intersección de 0. La pendiente y el punto de intersección pueden calcularse en un modelo de regresión que tiene en cuenta una transformación de las probabilidades predichas como único factor predictivo del resultado. En nuestro caso, observamos una calibración casi perfecta del modelo logístico para la EC a 10 años, con el logit de las probabilidades previstas obtenidas a partir del modelo de Cox (Figura 2).

Figura 2. Gráficos de validación para el modelo sin las lipoproteínas de alta densidad y con las lipoproteínas de alta densidad para la predicción de la enfermedad coronaria en 10 años de seguimiento. El «valor de intersección» hace referencia a la calibración general, y la «pendiente» se refiere a la pendiente de calibración para las predicciones. «C (ROC)» se refiere al área bajo la curva receiver operating characteristic. La línea ideal de 45° tiene un valor de intersección de 0 y una pendiente de 1. Los triángulos indican los resultados para los quintiles de las predicciones, con intervalos de confianza del 95%. Las puntas en la parte inferior indican las predicciones para los individuos con y sin enfermedad coronaria. EC: enfermedad coronaria; HDL: lipoproteínas de alta densidad; ROC: receiver operating characteristic.

Evaluación gráfica de la calidad de las predicciones

En la Figura 2 mostramos también las distribuciones de las probabilidades predichas en los individuos con y sin EC para visualizar la discriminación7. Hay un considerable solapamiento entre estas distribuciones, lo cual ilustra el significado de los valores de AUC de 0,76 y 0,77. Las medidas que resume este gráfico pueden abreviarse como a, b y c: a indica el valor de intersección, la calibración en general; b, la pendiente de recalibración y c, el AUC2.

Determinación del valor de corte para la clasificación

La curva ROC tiene en cuenta todos los valores de corte consecutivos para definir un grupo de riesgo elevado frente a un grupo de riesgo bajo. Hay diversas maneras de determinar un valor de corte óptimo. Comentaremos un enfoque basado en los datos y un enfoque de análisis de decisión (o «basado en utilidad»).

Valor de corte basado en los datos

Una medida bien conocida para clasificar el rendimiento es el índice de Youden, que se define como la sensibilidad + especificidad − 18. El índice de Youden es máximo en el ángulo superior izquierdo de la curva ROC. Por consiguiente, podríamos buscar el valor de corte correspondiente a ese punto. Es interesante señalar que el punto situado en el ángulo superior izquierdo corresponde al uso de la incidencia del resultado como valor de corte para la probabilidad predicha, si el modelo de predicción está bien calibrado y la curva ROC es cóncava9. En nuestro caso, este valor de corte es de 183/3.264=5,6% (Figura 1).

Valor de corte de análisis de decisión

El análisis de decisión toma el contexto clínico como punto de partida. Se considera formalmente la utilidad, o satisfacción relativa, de la consecuencia de una clasificación verdadera o falsa10. En el caso de la prevención de la EC, un valor de corte ampliamente aceptado para definir un grupo de alto riesgo es el del 20%. Formalmente, este valor de corte del 20% implica que la utilidad de las clasificaciones falsas positivas es 4 veces inferior a la de las clasificaciones positivas verdaderas, es decir, (100 – 20)/207. Una clasificación falsa positiva implica un sobretratamiento: un individuo que no sufrirá una EC en 10 años es tratado, por ejemplo, con estatinas. El daño se pondera como 4 veces menos importante que el beneficio de una clasificación positiva verdadera (un individuo que sufrirá una EC en 10 años es tratado con estatinas). Expresado en una fórmula, la probabilidad del valor de corte es igual al cociente entre daño (D) y beneficio (B):

Un valor de corte del 50% (probabilidad=1) implica un cociente D:B de 1:1; un valor de corte del 20% (probabilidades=1/4) implica un cociente de 1:4. Un valor de corte del 5,6% maximiza la suma de sensibilidad y especificidad, pero implica que consideramos los falsos positivos casi 20 veces menos importantes que los positivos verdaderos (0,056/0,944).

Medidas del rendimiento respecto a la calidad de las clasificacionesCurvas receiver operating characteristic con 1 valor de corte

En vez de considerar todos los posibles valores de corte en las curvas ROC, podemos construir también curvas ROC utilizando un solo valor de corte basado en los datos (Figura 3A) o basado en un análisis de decisión (Figura 3B). Las AUC son de 0,696 y 0,719 para el valor de corte del 5,6% y de 0,55 y 0,579 para el valor de corte del 20% en los modelos sin las HDL y con las HDL, respectivamente. Es interesante señalar que el aumento del AUC con la adición al modelo de predicción de las HDL se ha incrementado ahora (pasando de 0,012 para todos los valores de corte a 0,023 y 0,029 para los valores de corte del 5,6 y el 20%, respectivamente).

Figura 3. Curvas receiver operating characteristic con valores de corte únicos del 5,6 (A) y el 20% (B). El área bajo las curvas receiver operating characteristic es de 0,696 y 0,719 para el valor de corte del 5,6% y de 0,55 y 0,579 para el valor de corte del 20%, en el modelo con las lipoproteínas de alta densidad y sin las lipoproteínas de alta densidad, respectivamente.

Reclasificación

Cook ha reconocido que el valor incremental de un marcador se expresa como los cambios que se producen en la clasificación del riesgo cuando se consideran las probabilidades predichas del marcador en el modelo predictivo11. Por ejemplo, tener en cuenta las HDL conduce a una reclasificación del 9,8% de los individuos con el empleo del valor de corte del 5,6%. Esta cifra próxima al 10% tiene más impacto que el aumento de 0,01 del AUC para todos los valores de corte o que el aumento de 0,02 con el uso del valor de corte del 5,6%.

Reclasificación neta

Pencina et al5 han señalado que no deberíamos tener tan en cuenta la reclasificación en todos los pacientes, sino centrarnos en la reclasificación en el sentido correcto, es decir, un clasificación en un riesgo superior en los individuos con EC y en un riesgo inferior en los individuos sin EC. Con el empleo del valor de corte del 5,6%, esta reclasificación neta es de 7/183 (3,8%) para los individuos con EC, y de 24/3.081 (0,8%) para los individuos sin EC (Tabla 2). La suma de estas cifras corresponde al índice de reclasificación neta (net reclassification index [NRI]): 4,6% (IC del 95%, 0,6-8,6%). Para el valor de corte del 20%, NRI=5,8% (1,4-10,3%).

Tabla 2. Reclasificación en 3.264 individuos con o sin un evento de enfermedad coronaria en un plazo de 10 años de seguimiento

	Modelo sin las HDL	Modelo con las HDL
		≤ 5,6%	> 5,6%
Ausencia de EC (n=3.081)	≤ 5,6%	1.872	142 a
	> 5,6%	166 b	901
EC (n=183)	≤ 5,6%	38	10 b
	> 5,6%	3 a	132

EC: enfermedad coronaria; HDL: lipoproteínas de alta densidad.

a Reclasificaciones en sentido erróneo.

b Reclasificaciones en sentido correcto.

Beneficio neto

Ya en 1884, Peirce12 afirmó que la calidad de las clasificaciones puede expresarse mediante la suma ponderada de las clasificaciones positivas verdaderas: el beneficio neto (BN). El BN compensa las clasificaciones falsas positivas dándoles una ponderación w:

donde VP es el número de clasificaciones positivas verdaderas, FP es el número de clasificaciones falsas positivas y N, el número total de individuos.

Si w=1, FP y VP se ponderan por igual. Como se ha comentado antes, esto implica una probabilidad de 1:1 para el cociente D:B. De hecho, w es el cociente D:B. Así pues, un cociente D:B de 1:4 implica un valor de corte del 2% y una ponderación de 0,25 para las clasificaciones FP respecto a las clasificaciones VP, y un valor de corte del 5,6% implica w=0,056/0,944=0,059.

Teniendo en cuenta las cifras indicadas en la Tabla 2, el BN en el modelo sin las HDL se calcula de la siguiente forma: VP=3+132=135; FP=166+901=1.067; w=0,056/0,944=0,059, y N=3.264. Esto lleva a un BN de (135 – 0,059×1.067)/3.264=2,21%. Para el modelo con las HDL, el BN es superior: (142 – 0,059×1.043)/3.264=2,47%. El aumento de las clasificaciones VP es de 10 – 3=7, y la disminución de las clasificaciones FP es de 166 – 142=24. Esto explica el aumento del BN de (7+0,059×24)/3.264=0,26%. Esta cifra puede interpretarse como un aumento neto de las clasificaciones positivas verdaderas, es decir, se identifican 2,6 eventos de EC verdaderos más por cada 1.000 individuos con el mismo número de clasificaciones FP13. Esto equivale a decir que es preciso determinar las HDL en 1/0,26%=385 individuos para identificar un VP más, utilizando un valor de corte del 5,6%.

Curvas de decisión

El valor de corte para la aplicación clínica de un modelo de predicción a menudo no se define de manera precisa. La ponderación relativa de daños y beneficios puede no ser conocida a causa de la falta de datos científicos o debido a apreciaciones diferentes de distintos médicos y pacientes. Por este motivo, Vickers y Elkin13 propusieron utilizar una gama de valores de corte y calcular el BN para estos distintos valores. El resultado puede representarse gráficamente en una curva de decisión (Figura 4). Observamos que se obtiene un BN pequeño al añadir al modelo las HDL para valores de corte entre el 5 y el 25%.

Figura 4. Curva de decisión para el modelo con las lipoproteínas de alta densidad y sin las lipoproteínas de alta densidad para la predicción de la enfermedad coronaria en un seguimiento de 10 años. La línea punteada pequeña indica el beneficio neto para tratarlos a todos, mientras que la línea horizontal corresponde a no tratar a ninguno. Estas dos líneas sirven de referencia para las líneas del beneficio neto en los modelos con o sin lipoproteínas de alta densidad. HDL: lipoproteínas de alta densidad; Tx: tratamiento.

Más valores de corte para la clasificación

En la enfermedad cardiovascular es frecuente el uso de tres grupos de riesgo1, 5. Un grupo de bajo riesgo puede definirse por un riesgo < 6%, un grupo de alto riesgo que requiere un tratamiento preventivo intensivo se define por un riesgo > 20% y los demás individuos se clasifican como de riesgo intermedio y necesitan recomendaciones de estilo de vida, por ejemplo. Podemos calcular diversas medidas para estos dos valores de corte, como el AUC y el NRI. No es posible calcular directamente el BN, dado que este se define para 1 valor de corte.

También podemos considerar toda la gama de valores de corte para la reclasificación en un NRI de menos categorías. El NRI (> 0) se define como un cambio en el sentido correcto para cualquier valor de corte considerado14. Este cálculo debe considerarse de nuevo por separado para los individuos con y sin EC. En nuestro caso, el 62% de los 183 individuos con EC tuvieron predicciones superiores en el modelo con las HDL y el 38% tuvo predicciones inferiores, con lo que el NRI para los eventos era del 24,6%. Para los 3.081 individuos sin EC, el 53% tuvo predicciones inferiores con el modelo con las HDL y el 47%, predicciones superiores, con un NRI del 5,6%. El NRI (> 0) fue de 0,3. Estos patrones pueden evaluarse también gráficamente, comparando las predicciones con o sin la inclusión de las HDL en el modelo, en un gráfico de reclasificación (Figura 5)7, 14, 15. Señalamos aquí que hay un número ligeramente superior de puntos por debajo de la línea de 45° para los individuos sin EC y que hay un número sustancialmente superior de puntos situados por encima de la línea de 45° para los individuos con EC.

Figura 5. Gráfico de reclasificación. EC: enfermedad coronaria; HDL: lipoproteínas de alta densidad.

Interrelaciones

Si utilizamos un único valor de corte, la AUC=(sensibilidad+especificidad)/2. El aumento de AUC (o ΔAUC) es pues de 0,5×(Δsensibilidad+Δespecificidad). El NRI14 en este caso de dos categorías es Δsensibilidad+Δespecificidad, o 2×ΔAUC. Dado que el índice de Youden=(sensibilidad+especificidad) – 1, ΔYouden es Δsensibilidad+Δespecificidad, igual a NRI. De hecho, el aumento de AUC fue de 0,023 para el valor de corte del 5,6%, mientras que el NRI y el índice de Youden fue de 0,046. Así pues, parece claro que el NRI es una cifra superior al aumento de AUC.

El NRI (> 0) está relacionado con el ΔAUC para todos los valores de corte posibles. Las comparaciones utilizadas en el cálculo de NRI (> 0) están entre los dos modelos de predicción (con y sin el marcador), pero dentro de los grupos del evento (con EC, sin EC). El ΔAUC se basa en comparaciones apareadas entre los grupos del evento (con EC, sin EC) dentro de los dos modelos de predicción14.

El BN es una suma ponderada de la sensibilidad (fracción de VP) y 1 – especificidad (fracción de FP). Si el valor de corte es la incidencia del resultado, el NRI con dos categorías es igual a ΔBN/incidencia. La incidencia a 10 años de EC fue del 5,6%. De hecho, el aumento del BN fue del 0,26% para el valor de corte del 5,6%, mientras que el NRI fue del 4,6% (= 0,0026/0,056). Así pues, parece claro que el NRI es una cifra muy superior al aumento del BN. Recientemente se ha propuesto una variante ponderada del NRI, que se comporta de manera similar al BN como medida de resumen de la utilidad de añadir un marcador a un modelo14.

Discusión

Hemos mostrado de qué forma pueden utilizarse diversas medidas interrelacionadas para indicar el rendimiento de un modelo de predicción. Hemos ilustrado estas medidas con un modelo de riesgo elaborado para predecir la incidencia de EC a 10 años, con o sin el uso del cHDL como marcador de riesgo. Hemos diferenciado la evaluación de las predicciones —para lo que son útiles las medidas del rendimiento tradicionales como el AUC y la calibración— de la evaluación de las clasificaciones y la contribución de los nuevos marcadores, para lo que disponemos actualmente de otros varios parámetros estadísticos, como el NRI y el BN5, 7, 13, 14.

La distinción entre un modelo de predicción y una regla de predicción no está clara en la mayor parte de la actual literatura diagnóstica y pronóstica. El elemento clave es que, para pasar de un modelo de predicción a una regla de predicción, es necesaria la definición de un umbral de decisión o valor de corte16. «Modelo de predicción» y «regla de predicción» no son, pues, sinónimos. En una regla de predicción, los pacientes con predicciones situadas por encima y por debajo del umbral se clasifican como positivos y negativos, respectivamente. Es de destacar que el AUC y el NRI (> 0) evalúan modelos y no reglas. Sin embargo, un buen modelo es el primer paso para elaborar una buena regla.

El umbral para una regla debe ser apropiado, teniendo en cuenta las consecuencias (o utilidades) de la decisión10. A menudo una clasificación falsa positiva (sobrediagnóstico) es menos ponderada en el contexto médico que una clasificación falsa negativa (infradiagnóstico de la enfermedad)16. En el caso en estudio, el umbral de decisión del 20% refleja una ponderación relativa de 1:4 para las clasificaciones falsas positivas y positivas verdaderas. Una vez utilizada una ponderación relativa para definir el umbral de decisión, es lógico ser coherente y aplicar también esta ponderación relativa en la evaluación de la calidad de las decisiones. Este principio se sigue en la definición del BN y en el NRI ponderado14, así como en las medidas relativas como la utilidad relativa17. El NRI de dos categorías no concuerda generalmente con el ΔBN o la utilidad relativa. Tan sólo si el umbral de decisión es igual a la incidencia del resultado se obtienen resultados coincidentes con el NRI y el ΔBN.

El NRI se ha popularizado rápidamente como medida de resumen del valor predictivo de un marcador. Obsérvese que las publicaciones metodológicas han resaltado siempre la consideración de los componentes individuales del NRI5, 14, es decir, el NRI para los eventos y el NRI para la ausencia de eventos, como se muestra en la Tabla 2.

Una de las razones de la popularidad del NRI puede estar en que el número absoluto se presenta a menudo en forma de porcentaje y, por lo tanto, es sustancialmente superior al aumento del AUC. En nuestro ejemplo, el ΔAUC para todos los valores de corte fue de 0,012 (Figura 1), mientras que el NRI fue de +4,6% para un valor de corte del 5,6%. Así pues, el NRI es casi 4 veces el ΔAUC. Sin embargo, para realizar una comparación justa, habría que considerar el valor de corte del 5,6% también para el ΔAUC, que fue del 2,3%. Con ello aparece la relación matemática simple de que el NRI=2 veces el ΔAUC14. Pueden obtenerse valores aún mayores del NRI si se consideran todos los valores de corte (NRI [> 0] + 30%).

Otra razón de la popularidad del NRI es que se considera que el AUC «no es sensible» a los aumentos del valor predictivo de un marcador11. En una evaluación reciente, se observó una potencia estadística limitada para el ΔAUC en comparación con un cociente de probabilidades o con la prueba de Wald para la adición de un marcador a un modelo de regresión18. Sin embargo, estos autores llegaron a la conclusión de que las comparaciones de los valores de AUC continuaban siendo útiles para la evaluación inicial de si un nuevo predictor puede tener relevancia clínica. No hay motivo alguno para presumir que la potencia estadística del NRI sea mejor que la de la prueba de cociente de probabilidades; por el contrario, la clasificación en categorías comporta una pérdida de información predictiva y debería conducir a una potencia estadística inferior a la de una prueba que incluya toda la gama de probabilidades predichas. En nuestra opinión, la principal cuestión en la evaluación del rendimiento no es la potencia estadística, sino la interpretación de la calidad de un modelo y la mejora de este con los marcadores.

Limitaciones

Nuestro estudio tiene varias limitaciones. No utilizamos métodos específicos para los datos de supervivencia, a pesar de que no se dispuso de un seguimiento completo hasta los 10 años de todos los individuos. Se supuso simplemente que los pacientes censurados no tenían EC. Existen métodos para calcular el AUC (en forma de concordancia, o estadístico c) y el NRI para datos de supervivencia14, 19. Además, no evaluamos el rendimiento como estudio de validación en datos independientes. Es frecuente que los estudios iniciales de modelos de predicción y marcadores muestren resultados prometedores, y las evaluaciones posteriores sean desalentadoras. La validación interna con validación cruzada o remuestreo (bootstrapping) constituye una exigencia mínima20. El tamaño muestral relativamente grande (n=3.264 individuos; 183 eventos) probablemente hizo que el optimismo estadístico fuera bajo en nuestro caso (sin riesgo de sobreajuste), pero sería necesaria una validación externa.

Tras la validación y la determinación del valor predictivo, es necesario plantear estudios prospectivos de impacto para evaluar el valor de los modelos de predicción y los marcadores para la mejora de la evolución de los pacientes16. En primer lugar, podemos estudiar si un modelo con un marcador influye en la toma de decisiones médicas en comparación con un modelo sin el marcador. Si la decisión que se toma respecto a nuevos estudios diagnósticos o tratamientos no es diferente, no pueden mejorarse los resultados obtenidos en el paciente. El estudio ideal sería un ensayo aleatorizado sobre el impacto del aporte del valor del marcador en la evolución del paciente (morbilidad, mortalidad, calidad de vida), tomando los parámetros del proceso (pruebas diagnósticas, tratamientos administrados) como variables de valoración intermedias en el estudio4. Dado que con frecuencia los ensayos aleatorizados pueden no ser factibles a causa de la financiación necesaria para la investigación y el tamaño muestral requerido, puede ser pertinente también una modelización de análisis de decisión formal21. En estos modelos podemos combinar estimaciones del rendimiento del modelo de predicción con y sin el marcador con la evidencia disponible sobre la efectividad del tratamiento. El tratamiento podría aplicarse entonces de manera más apropiada a quienes lo necesitan.

Conclusiones

En resumen, nosotros recomendamos la regla de «a, b, c» para la evaluación de las predicciones, en la que a (el punto de intersección) y b (la pendiente) se refieren a la calibración y c, al AUC (Figura 2). Para la evaluación de las clasificaciones y el valor de un marcador, el ΔAUC, los componentes de eventos y ausencia de eventos del NRI, el NRI (> 0), el NRI ponderado y el BN son medidas de resumen apropiadas.

Financiación

Ewout Steyerberg contó con el apoyo de la Netherlands Organization for Scientific Research (subvención 9120.8004) y del Center for Translational Molecular Medicine (proyecto PCMM). Ben Van Calster recibe una subvención de formación posdoctoral de la Fundación de Investigación – Flanders (FWO).

Conflictos de intereses

Ninguno

Autor para correspondencia: Department of Public Health, Erasmus MC, PO Box 2040, 3000 CA Rotterdam, Países Bajos. e.steyerberg@erasmusmc.nl

Bibliografía

[1]

Pencina MJ, D’Agostino RB, Larson MG, Massaro JM, Vasan RS..

Predicting the 30-year risk of cardiovascular disease: the framingham heart study..

Circulation. , (2009), 119 pp. 3078-3084

http://dx.doi.org/10.1161/CIRCULATIONAHA.108.816694 | Medline

[2]

Steyerberg EW..

Clinical prediction models: a practical approach to development, validation, and updating..

Clinical prediction models: a practical approach to development, validation, and updating., (2009),

[3]

Wilson PW, D’Agostino RB, Levy D, Belanger AM, Silbershatz H, Kannel WB..

Prediction of coronary heart disease using risk factor categories..

Circulation. , (1998), 97 pp. 1837-1847

Medline

[4]

Hlatky MA, Greenland P, Arnett DK, Ballantyne CM, Criqui MH, Elkind MS, et-al..

Criteria for evaluation of novel markers of cardiovascular risk: a scientific statement from the American Heart Association..

Circulation. , (2009), 119 pp. 2408-2416

http://dx.doi.org/10.1161/CIRCULATIONAHA.109.192278 | Medline

[5]

Pencina MJ, D’Agostino RB, D’Agostino RB, Vasan RS..

Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond..

Stat Med. , (2008), 27 pp. 157-172

http://dx.doi.org/10.1002/sim.2929 | Medline

[6]

Harrell FE, Lee KL, Mark DB..

Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors..

Stat Med. , (1996), 15 pp. 361-387

http://dx.doi.org/10.1002/(SICI)1097-0258(19960229)15:4<361::AID-SIM168>3.0.CO;2-4 | Medline

[7]

Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, et-al..

Assessing the performance of prediction models: a framework for traditional and novel measures..

Epidemiology. , (2010), 21 pp. 128-138

http://dx.doi.org/10.1097/EDE.0b013e3181c30fb2 | Medline

[8]

Youden WJ..

Index for rating diagnostic tests..

Cancer. , (1950), 3 pp. 32-35

http://dx.doi.org/10.1186/1471-2407-3-32 | Medline

[9]

Hilden J..

The area under the ROC curve and its competitors..

Med Decis Making. , (1991), 11 pp. 95-101

Medline

[10]

Pauker SG, Kassirer JP..

The threshold approach to clinical decision making..

N Engl J Med. , (1980), 302 pp. 1109-1117

http://dx.doi.org/10.1056/NEJM198005153022003 | Medline

[11]

Cook NR..

Use and misuse of the receiver operating characteristic curve in risk prediction..

Circulation. , (2007), 115 pp. 928-935

http://dx.doi.org/10.1161/CIRCULATIONAHA.106.672402 | Medline

[12]

Peirce CS..

The numerical measure of success of predictions..

Science. , (1884), 4 pp. 453-454

http://dx.doi.org/10.1126/science.ns-4.93.453 | Medline

[13]

Vickers AJ, Elkin EB..

Decision curve analysis: a novel method for evaluating prediction models..

Med Decis Making. , (2006), 26 pp. 565-574

http://dx.doi.org/10.1177/0272989X06295361 | Medline

[14]

Pencina MJ, D’Agostino RB, Steyerberg EW..

Extensions of net reclassification improvement calculations to measure usefulness of new biomarkers..

Stat Med. , (2011), 30 pp. 11-21

http://dx.doi.org/10.1002/sim.4085 | Medline

[15]

McGeechan K, Macaskill P, Irwig L, Liew G, Wong TY..

Assessing new biomarkers and predictive models for use in clinical practice: a clinician's guide..

Arch Intern Med. , (2008), 168 pp. 2304-2310

http://dx.doi.org/10.1001/archinte.168.21.2304 | Medline

[16]

Reilly BM, Evans AT..

Translating clinical research into clinical practice: impact of using prediction rules to make decisions..

Ann Intern Med. , (2006), 144 pp. 201-209

Medline

[17]

Baker SG..

Putting risk prediction in perspective: relative utility curves..

J Natl Cancer Inst. , (2009), 101 pp. 1538-1542

http://dx.doi.org/10.1093/jnci/djp353 | Medline

[18]

Vickers AJ, Cronin AM, Begg CB..

One statistical test is sufficient for assessing new predictive markers..

BMC Med Res Method. , (2011), 11 pp. 13

[19]

Steyerberg EW, Pencina MJ..

Reclassification calculations for persons with incomplete follow-up..

Ann Intern Med. , (2010), 152 pp. 195-197

http://dx.doi.org/10.7326/0003-4819-152-3-201002020-00019 | Medline

[20]

Steyerberg EW, Harrell FE, Borsboom GJ, Eijkemans MJ, Vergouwe Y, Habbema JD..

Internal validation of predictive models: efficiency of some procedures for logistic regression analysis..

J Clin Epidemiol. , (2001), 54 pp. 774-781

Medline

[21]

Henriksson M, Palmer S, Chen R, Damant J, Fitzpatrick NK, Abrams K, et-al..

Assessing the cost effectiveness of using prognostic biomarkers with decision models: case study in prioritising patients waiting for coronary artery surgery..

BMJ. , (2010), 340 pp. b5606

Medline

Año/mes	Html	Pdf	Total
2025 Julio	285	34	319
2025 Junio	454	48	502
2025 Mayo	495	53	548
2025 Abril	437	39	476
2025 Marzo	397	41	438
2025 Febrero	383	56	439
2025 Enero	297	45	342
2024 Diciembre	310	31	341
2024 Noviembre	401	67	468
2024 Octubre	321	48	369
2024 Septiembre	233	12	245
2024 Agosto	313	44	357
2024 Julio	244	36	280
2024 Junio	301	42	343
2024 Mayo	302	56	358
2024 Abril	251	50	301
2024 Marzo	246	39	285
2024 Febrero	304	53	357
2024 Enero	284	38	322
2023 Diciembre	302	57	359
2023 Noviembre	427	80	507
2023 Octubre	311	83	394
2023 Septiembre	217	47	264
2023 Agosto	169	14	183
2023 Julio	220	55	275
2023 Junio	307	42	349
2023 Mayo	80	20	100
2022 Noviembre	12	3	15
2022 Octubre	460	62	522
2022 Septiembre	484	67	551
2022 Agosto	411	56	467
2022 Julio	393	66	459
2022 Junio	403	85	488
2022 Mayo	331	83	414
2022 Abril	432	58	490
2022 Marzo	365	72	437
2022 Febrero	342	43	385
2022 Enero	486	94	580
2021 Diciembre	386	58	444
2021 Noviembre	543	75	618
2021 Octubre	525	100	625
2021 Septiembre	418	64	482
2021 Agosto	343	52	395
2021 Julio	323	72	395
2021 Junio	312	59	371
2021 Mayo	331	79	410
2021 Abril	478	176	654
2021 Marzo	449	62	511
2021 Febrero	278	39	317
2021 Enero	252	46	298
2020 Diciembre	263	47	310
2020 Noviembre	360	70	430
2020 Octubre	234	59	293
2020 Septiembre	223	53	276
2020 Agosto	251	33	284
2020 Julio	305	40	345
2020 Junio	324	52	376
2020 Mayo	346	68	414
2020 Abril	761	74	835
2020 Marzo	664	46	710
2020 Febrero	669	49	718
2020 Enero	399	70	469
2019 Diciembre	318	59	377
2019 Noviembre	345	63	408
2019 Octubre	503	42	545
2019 Septiembre	405	44	449
2019 Agosto	487	72	559
2019 Julio	584	89	673
2019 Junio	419	96	515
2019 Mayo	293	62	355
2019 Abril	291	45	336
2019 Marzo	380	41	421
2019 Febrero	464	32	496
2019 Enero	398	35	433
2018 Diciembre	480	30	510
2018 Noviembre	507	25	532
2018 Octubre	465	36	501
2018 Septiembre	292	32	324
2018 Agosto	177	19	196
2018 Julio	193	26	219
2018 Junio	202	24	226
2018 Mayo	256	31	287
2018 Abril	268	23	291
2018 Marzo	247	15	262
2018 Febrero	265	21	286
2018 Enero	171	16	187
2017 Diciembre	211	11	222
2017 Noviembre	195	20	215
2017 Octubre	94	18	112
2017 Septiembre	108	17	125
2017 Agosto	106	18	124
2017 Julio	88	20	108
2017 Junio	174	17	191
2017 Mayo	210	35	245
2017 Abril	287	23	310
2017 Marzo	343	19	362
2017 Febrero	505	21	526
2017 Enero	215	16	231
2016 Diciembre	188	20	208
2016 Noviembre	273	25	298
2016 Octubre	233	21	254
2016 Septiembre	329	26	355
2016 Agosto	284	20	304
2016 Julio	259	22	281
2016 Junio	271	35	306
2016 Mayo	322	40	362
2016 Abril	333	36	369
2016 Marzo	307	28	335
2016 Febrero	319	45	364
2016 Enero	251	36	287
2015 Diciembre	257	23	280
2015 Noviembre	287	28	315
2015 Octubre	302	33	335
2015 Septiembre	293	41	334
2015 Agosto	236	47	283
2015 Julio	290	33	323
2015 Junio	234	27	261
2015 Mayo	304	33	337
2015 Abril	247	26	273
2015 Marzo	266	21	287
2015 Febrero	303	24	327
2015 Enero	188	16	204
2014 Diciembre	166	16	182
2014 Noviembre	175	16	191
2014 Octubre	178	19	197
2014 Septiembre	207	16	223
2014 Agosto	160	15	175
2014 Julio	152	24	176
2014 Junio	179	18	197
2014 Mayo	166	15	181
2014 Abril	153	16	169
2014 Marzo	113	24	137
2014 Febrero	132	10	142
2014 Enero	123	13	136
2013 Diciembre	130	16	146
2013 Noviembre	123	12	135
2013 Octubre	137	27	164
2013 Septiembre	133	40	173
2013 Agosto	115	61	176
2013 Julio	108	70	178
2013 Junio	103	74	177
2013 Mayo	114	42	156
2013 Abril	70	44	114
2013 Marzo	79	28	107
2013 Febrero	85	15	100
2013 Enero	65	16	81
2012 Diciembre	57	22	79
2012 Noviembre	67	28	95
2012 Octubre	26	22	48
2012 Septiembre	1417	0	1417

Año/mes	Html	Pdf	Total
2025 Julio	285	34	319
2025 Junio	454	48	502
2025 Mayo	495	53	548
2025 Abril	437	39	476
2025 Marzo	397	41	438
2025 Febrero	383	56	439
2025 Enero	297	45	342
2024 Diciembre	310	31	341
2024 Noviembre	401	67	468
2024 Octubre	321	48	369
2024 Septiembre	233	12	245
2024 Agosto	313	44	357
2024 Julio	244	36	280
2024 Junio	301	42	343
2024 Mayo	302	56	358
2024 Abril	251	50	301
2024 Marzo	246	39	285
2024 Febrero	304	53	357
2024 Enero	284	38	322
2023 Diciembre	302	57	359
2023 Noviembre	427	80	507
2023 Octubre	311	83	394
2023 Septiembre	217	47	264
2023 Agosto	169	14	183
2023 Julio	220	55	275
2023 Junio	307	42	349
2023 Mayo	80	20	100
2022 Noviembre	12	3	15
2022 Octubre	460	62	522
2022 Septiembre	484	67	551
2022 Agosto	411	56	467
2022 Julio	393	66	459
2022 Junio	403	85	488
2022 Mayo	331	83	414
2022 Abril	432	58	490
2022 Marzo	365	72	437
2022 Febrero	342	43	385
2022 Enero	486	94	580
2021 Diciembre	386	58	444
2021 Noviembre	543	75	618
2021 Octubre	525	100	625
2021 Septiembre	418	64	482
2021 Agosto	343	52	395
2021 Julio	323	72	395
2021 Junio	312	59	371
2021 Mayo	331	79	410
2021 Abril	478	176	654
2021 Marzo	449	62	511
2021 Febrero	278	39	317
2021 Enero	252	46	298
2020 Diciembre	263	47	310
2020 Noviembre	360	70	430
2020 Octubre	234	59	293
2020 Septiembre	223	53	276
2020 Agosto	251	33	284
2020 Julio	305	40	345
2020 Junio	324	52	376
2020 Mayo	346	68	414
2020 Abril	761	74	835
2020 Marzo	664	46	710
2020 Febrero	669	49	718
2020 Enero	399	70	469
2019 Diciembre	318	59	377
2019 Noviembre	345	63	408
2019 Octubre	503	42	545
2019 Septiembre	405	44	449
2019 Agosto	487	72	559
2019 Julio	584	89	673
2019 Junio	419	96	515
2019 Mayo	293	62	355
2019 Abril	291	45	336
2019 Marzo	380	41	421
2019 Febrero	464	32	496
2019 Enero	398	35	433
2018 Diciembre	480	30	510
2018 Noviembre	507	25	532
2018 Octubre	465	36	501
2018 Septiembre	292	32	324
2018 Agosto	177	19	196
2018 Julio	193	26	219
2018 Junio	202	24	226
2018 Mayo	256	31	287
2018 Abril	268	23	291
2018 Marzo	247	15	262
2018 Febrero	265	21	286
2018 Enero	171	16	187
2017 Diciembre	211	11	222
2017 Noviembre	195	20	215
2017 Octubre	94	18	112
2017 Septiembre	108	17	125
2017 Agosto	106	18	124
2017 Julio	88	20	108
2017 Junio	174	17	191
2017 Mayo	210	35	245
2017 Abril	287	23	310
2017 Marzo	343	19	362
2017 Febrero	505	21	526
2017 Enero	215	16	231
2016 Diciembre	188	20	208
2016 Noviembre	273	25	298
2016 Octubre	233	21	254
2016 Septiembre	329	26	355
2016 Agosto	284	20	304
2016 Julio	259	22	281
2016 Junio	271	35	306
2016 Mayo	322	40	362
2016 Abril	333	36	369
2016 Marzo	307	28	335
2016 Febrero	319	45	364
2016 Enero	251	36	287
2015 Diciembre	257	23	280
2015 Noviembre	287	28	315
2015 Octubre	302	33	335
2015 Septiembre	293	41	334
2015 Agosto	236	47	283
2015 Julio	290	33	323
2015 Junio	234	27	261
2015 Mayo	304	33	337
2015 Abril	247	26	273
2015 Marzo	266	21	287
2015 Febrero	303	24	327
2015 Enero	188	16	204
2014 Diciembre	166	16	182
2014 Noviembre	175	16	191
2014 Octubre	178	19	197
2014 Septiembre	207	16	223
2014 Agosto	160	15	175
2014 Julio	152	24	176
2014 Junio	179	18	197
2014 Mayo	166	15	181
2014 Abril	153	16	169
2014 Marzo	113	24	137
2014 Febrero	132	10	142
2014 Enero	123	13	136
2013 Diciembre	130	16	146
2013 Noviembre	123	12	135
2013 Octubre	137	27	164
2013 Septiembre	133	40	173
2013 Agosto	115	61	176
2013 Julio	108	70	178
2013 Junio	103	74	177
2013 Mayo	114	42	156
2013 Abril	70	44	114
2013 Marzo	79	28	107
2013 Febrero	85	15	100
2013 Enero	65	16	81
2012 Diciembre	57	22	79
2012 Noviembre	67	28	95
2012 Octubre	26	22	48
2012 Septiembre	1417	0	1417

REVISTA ESPAÑOLA DE

CARDIOLOGÍA

Medidas del rendimiento de modelos de predicción y marcadores pronósticos: evaluación de las predicciones y clasificaciones

Performance Measures for Prediction Models and Markers: Evaluation of Predictions and Classifications

Opciones

Palabras clave