Validez temporal de los sistemas de estratificación por riesgo para la monitorización continua de los resultados de la cirugía cardíaca

Borracci, Raúl A.; Rubio, Miguel; Cortés y Tristán, Gonzalo; Mémoli, Roberto; Giorgi, Mariano; Ahuad Guerrero, Rodolfo A.

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Revista argentina de cardiología

versión On-line ISSN 1850-3748

Rev. argent. cardiol. v.73 n.5 Buenos Aires set./oct. 2005

Validez temporal de los sistemas de estratificación por riesgo para la monitorización continua de los resultados de la cirugía cardíaca

Raúl A. Borracci^{1, 2}, Miguel Rubio¹, Gonzalo Cortés y Tristán¹, Roberto Mémoli², Mariano Giorgi^2†, Rodolfo A. Ahuad Guerrero²

¹ Servicios de Cirugía Cardíaca y Cardiología de Clínica Bazterrica, Buenos Aires, Argentina
² Corporación Médica de Gral. San Martín, San Martín, Buenos Aires, Argentina
^† Para optar a Miembro Titular SAC

Recibido: 28/01/2005
Aceptado: 20/04/2005

Dirección para separatas: R. A. Borracci, La Pampa 3030, 1° B (1428) Buenos Aires, Argentina. e-mail: borracci@universia.com.ar

RESUMEN

Objetivos
Estudiar la validez de distintos sistemas de estratificación por riesgo a través del tiempo, usados para monitorizar en forma continua los resultados quirúrgicos inmediatos de la cirugía cardíaca.

Material y métodos
Se realizó un estudio observacional longitudinal bidireccional; la serie prospectiva correspondió a 246 operaciones cardíacas consecutivas realizadas entre enero y diciembre de 2004, mientras que las series históricas correspondieron a dos muestras de 240 y 220 operaciones llevadas a cabo en 1993 y 1997, respectivamente. De cada paciente se registró la fecha de operación y el puntaje de estratificación por riesgo de acuerdo con el estándar usado en esa época. Para la serie 1993 se utilizó el score de Parsonnet, para la serie 1997 se emplearon los scores de Parsonnet y del PACCN (Provincial Adult Cardiac Care Network de Ontario) y para la serie 2004, los métodos previos y el EuroSCORE. Los resultados se representaron en gráficos de vida ajustada variable de acuerdo con el orden consecutivo de las cirugías, la mortalidad real acontecida y el riesgo estimado para cada paciente con su(s) score(s) correspondiente(s).

Resultados
En la serie de 1993 evaluada con el score de Parsonnet se observó un buen ajuste para el estándar de la época. En la serie 1997, la monitorización con el score de Parsonnet favoreció al desempeño quirúrgico del momento, habida cuenta de la "ganancia de vida neta" encontrada; por el contrario, la comparación con el score del PACCN como un nuevo estándar de calidad mostró resultados quirúrgicos muy por debajo de lo esperado con este nuevo nivel exigido. Por último, la confrontación de los tres scores en la serie 2004 demostró cómo el Parsonnet sobrestimó significativamente el riesgo, el PACCN continuó subestimando el riesgo, aunque en menor medida con respecto a 1997, y el EuroSCORE se aproximó más al valor nulo ideal de un buen ajuste.

Conclusiones
El análisis de las series de cirugías cardíacas en distintos períodos, evaluados con curvas de monitorización continua, demuestran la validez temporal de los distintos modelos de ajuste de riesgo utilizados. Mientras que el score de Parsonnet mostró un buen ajuste en la serie de una década atrás, en la serie actual el EuroSCORE se presentó como una opción mejor para estimar la mortalidad acumulada estratificada por riesgo.

Palabras clave: Cirugía cardíaca; Riesgo; Mortalidad

ABREVIATURA
VLAD Variable life-adjusted display (Gráficos de vida ajustada variable)

SUMMARY

Temporary Validity of Continuous Risk Stratification Mortality Monitoring Models in Cardiac Surgery

Study objective
To study the temporary usefulness of different models for the continuous monitoring of risk stratified mortality in cardiac surgery.

Research design and methods
An observational longitudinal bidirectional study was carried over a prospective series of 246 consecutive cardiac surgeries performed between January and December 2004, while the retrospective series belonged to two historical samples of 240 and 220 operations performed in 1993 and 1997, respectively. Date of surgery and mortality risk score was registered for each patient based on different risk stratification models. For the 1993-series, only Parsonnet's score was used; for the 1997-series, Parsonnet's and PACCN's (Provincial Adult Cardiac Care Network of Ontario) scores were used, and for the 2004-series, both previously mentioned scores plus EuroSCORE were employed. Outcomes were shown by using variable life-adjusted displays based on both actual mortality of consecutive surgeries and risk stratification score for each patient.

Results
Parsonnet's score prediction was accurate for 1993-series standards. However, this score overestimated risk in the 1997-series, showing an optimistic net life gain; on the contrary, PACCN's score plotted a negative net life gain, showing an outcome well under the new standards. Variable life adjusted display for 2004-series revealed again an overestimation with Parsonnet's score, an underestimation with PACCN's score and an accurate prediction with EuroSCORE with a net life gain near to zero.

Conclusions
Analysis of series of cardiac operations performed at different periods of time by using variable life adjusted displays demonstrated temporary validity of risk stratification scores. While Parsonnet's score showed accurate prediction in past series, risk for present series could be better predicted with EuroSCORE which constitutes a better choice to estimate the risk stratified cumulative mortality.

Key words: Cardiac surgery; Mortality; Risk

INTRODUCCIÓN

La medición y la monitorización de los resultados inmediatos de la cirugía cardíaca se usan para comprobar la efectividad del procedimiento y para conocer si dichos resultados se ajustan a estándares de calidad satisfactorios. Por otro lado, se sabe que los resultados de esta cirugía se hallan fuertemente influidos por las características del paciente y los factores de riesgo presentes en el preoperatorio. En este sentido, los sistemas de estratificación por riesgo (scores) sirven para predecir la mortalidad esperada de acuerdo con las características preoperatorias del paciente (1-3) y, por otro lado, las curvas de mortalidad acumulada estratificadas por riesgo (curvas cusum) (4, 5) y los gráficos de vida ajustada variable (VLAD = variable life-adjusted display) (6, 7) ofrecen una herramienta para la monitorización continua de los resultados. Estos últimos incorporan información sobre los resultados favorables y desfavorables de cada paciente operado, teniendo en cuenta el riesgo previo estimado para cada caso. El gráfico resultante muestra la diferencia entre la mortalidad prevista acumulada y la tasa real de muertes ocurridas, de forma tal que la curva de "vida neta ganada" se desplaza proporcionalmente por arriba o por debajo del valor nulo ideal.
Uno de los puntos más sensibles para la monitorización de los resultados es la selección del score (puntaje) de riesgo adecuado que se ajuste mejor al desempeño del grupo quirúrgico. Desde el momento en que la validez de estos sistemas de puntajes de riesgo varía con la población y el tiempo, su selección inadecuada podría beneficiar o perjudicar la evaluación. Así, un score adecuado para evaluar un grupo de pacientes quirúrgicos en un momento dado podría exagerar o subvaluar el riesgo de otro grupo en el futuro, cuando los estándares de calidad del momento exijan mejores resultados.
El objetivo de este trabajo fue estudiar la validez de distintos sistemas de estratificación por riesgo a través del tiempo, usados para monitorizar en forma continua los resultados quirúrgicos inmediatos de la cirugía cardíaca.

MATERIAL Y MÉTODOS

Se realizó un estudio observacional longitudinal bidireccional; la serie prospectiva correspondió a un conjunto de 246 operaciones cardíacas consecutivas realizadas entre enero y diciembre de 2004, mientras que las series históricas correspondieron a dos muestras de 240 y 220 operaciones llevadas a cabo en 1993 y 1997, respectivamente. Se incluyeron todas las cirugías coronarias, valvulares y combinadas realizadas en pacientes adultos en forma electiva o urgente. Para la serie 2004, los datos se obtuvieron de una base de datos confeccionada en Microsoft ACCESS®, de la misma forma que fueron recolectados en su momento los datos de la serie 1997. Por su parte, la información sobre la serie 1993 se extrajo de una base histórica y compatible hecha en DBASE®.
De cada uno de los pacientes se registró la fecha de operación y el puntaje de estratificación por riesgo de acuerdo con el estándar usado en esa época. Para la serie 1993 se utilizó el score de Parsonnet (versión 1989), (1) para la serie 1997 se emplearon los scores de Parsonnet y del PACCN (Provincial Adult Cardiac Care Network de Ontario) (2, 8) y para la serie 2004, los métodos previos y el EuroSCORE. (3)
Los resultados de las tres series se representaron en sendos gráficos de vida ajustada variable (VLDA), teniendo en cuenta el orden consecutivo de las cirugías, la mortalidad real acontecida y el riesgo estimado para cada paciente con su(s) score(s) correspondiente(s). Adicionalmente y con fines comparativos, se validó el ajuste global de cada score con los métodos clásicos de log likelihood, coeficientes de determinación y bondad de ajuste de Hosmer-Lemeshow. (9, 10)

Análisis estadístico
El cálculo y la confección de los VLAD junto con sus intervalos de confianza del 95% se realizaron con el siguiente método, de acuerdo con las modificaciones propuestas por Sherlow-Johnson y colaboradores: (7) Si se tiene una serie
de operaciones n, el primer paciente operado i° tiene un puntaje de riesgo de muerte calculado como y_i. Por su parte, la variable aleatoria {X_i} se define como:

y las sumatorias

luego, para una serie de n pacientes, S_n es la mortalidad acumulada real e Y_n es la mortalidad acumulada esperada estimada con el score de riesgo. La diferencia entre mortalidades real y esperada (V_n), conocida como vida neta ganada, se registra en un gráfico VLDA según

Por último, el intervalo de confianza del 95% (IC_95%) se estima con:

Para la validación del ajuste global con los métodos clásicos se usó el paquete estadístico SPSS 7.5®.

RESULTADOS

En la Figura 1 se muestra el gráfico VLAD para una serie consecutiva de 240 cirugías cardíacas realizadas durante 1993 y evaluadas con el score de Parsonnet. Aquí se observan las variaciones aleatorias habituales por debajo y por arriba del valor nulo del mejor ajuste, sin sobrepasar los límites del IC_95%. Para el estándar de la época, este score representó una buena herramienta para la monitorización local.

Fig. 1. Vida ajustada variable para un conjunto de operaciones realizadas durante 1993, de acuerdo con el score de Parsonnet.

En la segunda serie evaluada, correspondiente a 1997 (Figura 2), la monitorización con el score de Parsonnet favoreció claramente al desempeño quirúrgico de la época, habida cuenta de la "ganancia de vida neta" acumulada en 220 operaciones consecutivas. Por el contrario, la comparación con el score del PACCN como un nuevo estándar de calidad mostró resultados quirúrgicos muy por debajo de lo esperado con este nuevo nivel exigido.

Fig. 2. Vida ajustada variable para un conjunto de operaciones realizadas durante 1997, de acuerdo con los scores de Parsonnet y PACCN.

La confrontación de los scores que se muestra en la Figura 3 demostró cómo el Parsonnet sobrestimó significativamente el riesgo en esta última serie, el PACCN continuó subestimando el riesgo, aunque en menor medida con respecto a 1997, y el EuroSCORE se aproximó más al valor nulo ideal de un buen ajuste.

Fig. 3. Vida ajustada variable para un conjunto de operaciones realizadas durante 2004, de acuerdo con los scores de Parsonnet, PACCN y EuroSCORE.

Por último, en la Tabla 1 se muestra la validación del ajuste global de cada score en la serie 2004, de acuerdo con los diferentes métodos clásicos. En coincidencia con el VLAD, aquí se observa cómo mejora el ajuste cuando se pasa del score de Parsonnet al PACCN y finalmente al EuroSCORE. La interpretación del -2 log likelihood indica que a menor valor mejor ajuste (de 95,2 a 79,1); por el contrario, los coeficientes de determinación R² aumentan cuando más adecuado es el ajuste (de 0,026 a 0,088 y de 0,076 a 0,259, respectivamente). Por su parte, el método de Hosmer y Lemeshow no mostró diferencia entre los scores, aunque el valor de p del Parsonnet es el que más se acercó a 0,05.

TABLA 1. Validación del ajuste global de cada score de acuerdo con diferentes métodos clásicos, para la serie 2004

DISCUSIÓN

El análisis de las series de cirugías cardíacas en distintos períodos, evaluadas con curvas de monitorización continua, demuestran la validez temporal de los distintos modelos de ajuste de riesgo utilizados. Mientras que el score de Parsonnet mostró un buen ajuste en la serie de una década atrás, en la serie actual el EuroSCORE se presentó como una opción mejor para estimar la mortalidad acumulada estratificada por riesgo.
La monitorización continua de los resultados con el método de vida ajustada variable se asemeja a un modelo de balance con "créditos" y "débitos" basados en los riesgos y los resultados. A partir de un balance cero, el modelo acumula en forma de crédito y, sucesivamente, el riesgo pronosticado de cada paciente, y resta los resultados reales desfavorables (muertes). El gráfico resultante presenta oscilaciones durante su progresión e indica a la vez el desempeño del operador; un balance positivo implica que han sobrevivido más pacientes que lo esperado y viceversa, mientras que un balance cero coincide exactamente con lo que predice el método. La importancia de la amplitud de las oscilaciones se mide a través de los intervalos de confianza que admite el modelo en base al score elegido. Este sistema basado en VLAD facilita la observación visual continua, permite la incorporación y la comparación de diferentes case mix y evita el cálculo repetido de pruebas de significación estadística para monitorizar las diferencias en el desempeño. De esta forma se incluye el factor tiempo en el modelo, lo cual permite observar la proyección del riesgo en el conjunto de los pacientes. En la práctica, la construcción de los gráficos VLAD sigue la siguiente lógica: si el primer caso operado tuviera, por ejemplo, un riesgo del 5% (0,05) determinado con algún score y la evolución posterior del paciente fuera favorable, entonces el gráfico acumularía 0,05 de "ganancia neta de vida". Si el segundo paciente consecutivo operado tuviera esta vez el 20% (0,20) de riesgo calculado con el mismo score y falleciera en el posoperatorio (probabilidad = 1), entonces el gráfico debería acumular 0,05 + (0,20 - 1); el término entre paréntesis es el riesgo esperado menos el riesgo observado. En este caso, el VLAD mostraría un balance desfavorable de supervivencia con -0,75 de "ganancia neta de vida". Para la monitorización de los resultados de la cirugía cardíaca se han desarrollado una cantidad de métodos de ajuste de riesgo que permiten estimar la probabilidad de muerte hospitalaria. A principios de los noventa, el score de Parsonnet gozó de predilección, pero más tarde fue parcialmente abandonado por considerarse que sobrestimaba el riesgo. (5, 6, 11) Como se observó en la serie 1993, el score de Parsonnet se ajustó a los estándares de mortalidad del grupo y de la época, aunque sólo un poco más tarde su uso generaría una falsa sensación de seguridad de acuerdo con la ganancia neta de vida que se observa en la serie 1997. La elección del PACCN como un nuevo estándar a finales de los noventa se debió a que éste admitía también la predicción de otros parámetros de desempeño o calidad como los tiempos de estadía hospitalaria. (2, 8) Tal cual se muestra en la serie 1997, el estándar de desempeño exigido por el nuevo score cambiaba totalmente la interpretación de los resultados, habida cuenta del balance negativo generado en la vida neta ganada, hasta el punto de aproximarse en ocasiones hasta el límite de confianza admisible. Más allá de la validez del modelo para nuestra región, en la serie 2004 se incorporó el EuroSCORE en vista de su amplia aceptación y validación, no sólo entre los países europeos, sino también en Norteamérica. (3, 12, 13) En esta última serie de operados, el EuroSCORE mostró el mejor grado de precisión en la monitorización de los resultados, mientras que el PACCN continuó desfavoreciendo la evaluación del desempeño, aunque con mejores resultados que en la serie 1997. Como se muestra en la Tabla 1, existe coincidencia en la interpretación de los resultados al comparar el método gráfico de VLAD con los procedimientos clásicos de validación. La diferencia fundamental entre los dos enfoques es que con la VLAD se va trabajando en "tiempo real" a medida que se acumulan los casos, y sin necesidad de recalcular continuamente las pruebas estadísticas o los niveles de significación, ya que estos últimos quedan representados gráficamente en los límites de confianza. Por su parte, los métodos de log likelihood y de R² de Cox-Snell y Nagelkerke trabajan con datos agrupados y representan la calidad del ajuste en una escala continua quizá más útil cuando se trata de comparar dos o más modelos. Evidentemente, con estos procedimientos es necesario volver a calcular las pruebas a medida que se incorporan nuevos pacientes. En el caso de la prueba de bondad de ajuste de Hosmer-Lemeshow se está en presencia de una prueba de hipótesis en la que el rechazo o no de la hipótesis nula depende de que se alcance un nivel de significación, lo cual la hace menos apta para comparar el nivel de ajuste de varios modelos, algo parecido a lo que sucedería con la VLAD que sólo podría descartar un modelo si éste sobrepasara los límites de confianza. Así, se podría concluir que algunos métodos clásicos podrían ser mejores a la hora de elegir el modelo más adecuado, mientras que el VLAD sería más apto para la monitorización continua una vez seleccionado el modelo. Por último, las pruebas clásicas de validación pueden adaptarse fácilmente para evaluar modelos complejos multivariantes (combinación de scores).
Entre las limitaciones del estudio deben destacarse el de la selección de ciertos scores de riesgo y la exclusión de otros, en general por tratarse de modelos antiguos o que sólo incluían pacientes coronarios. (14- 16) En este sentido, no se ha considerado ningún score de riesgo de nuestro país ya que, a excepción del CONAREC III (17) que incluye exclusivamente cirugías coronarias, sólo en los últimos años han aparecido algunas comunicaciones incompletas o aún no validadas. (18-20) Además, la construcción de scores de riesgo locales y la interpretación de sus resultados deben evaluarse desde el punto de vista de la precisión y la utilidad del modelo. Por un lado, un modelo de riesgo preciso podría estar construido en base a un conjunto de resultados locales pobres y predecir de esta manera con mucha precisión, lo cual daría una falsa sensación de seguridad a los usuarios de dicho score. Aunque este modelo podría ser adecuado y preciso para la predicción local, quedaría seriamente limitado cuando se pretendan comparar sus resultados.
Finalmente, se debe destacar que la monitorización del desempeño quirúrgico individual de un grupo o servicio constituye sólo una parte de la evaluación del proceso de atención de un paciente. El concepto de calidad en la cirugía cardíaca deberá incluir la totalidad de la estadía del paciente, desde la llegada al hospital hasta el alta, e incluso hasta el seguimiento alejado.
En conclusión, la selección del modelo de ajuste de riesgo para la monitorización efectiva del desempeño quirúrgico debe considerarse un proceso iterativo, en el cual la selección de nuevos estándares impondrá distintos niveles de exigencia y calidad. La validez temporal y posiblemente regional del uso de uno u otro score imponen la revaluación constante de los sistemas de ajuste por riesgo usados para monitorizar la calidad de la cirugía cardíaca.

BIBLIOGRAFÍA

1. Parsonnet V, Dean D, Bernstein AD. A method of uniform stratification of risk for evaluating the results of surgery in acquired adult heart disease. Circulation 1989;79:I-3-I-12. [ Links ]

2. Tu JV, Jaglal SB, Naylor CD. Multicenter validation of a risk index for mortality, intensive care unit stay, and overall hospital length of stay after cardiac surgery. Steering Committee of the Provincial Adult Cardiac Care Network of Ontario. Circulation 1995;91:677-84. [ Links ]

3. Nashef SA, Roques F, Michel P, Gauducheau E, Lemeshow S, Salamon R. European system for cardiac operative risk evaluation (EuroSCORE). Eur J Cardiothorac Surg 1999;16:9-13. [ Links ]

4. de Leval MR, Francois K, Bull C, Brawn W, Spiegelhalter D. Analysis of a cluster of surgical failures. Application to a series of neonatal arterial switch operations. J Thorac Cardiovasc Surg 1994;107:914-23. [ Links ]

5. Wynne-Jones K, Jackson M, Grotte G, Bridgewater B. Limitations of the Parsonnet score for measuring risk stratified mortality in the north west of England. The North West Regional Cardiac Surgery Audit Steering Group. Heart 2000;84:71-8. [ Links ]

6. Lovegrove J, Valencia O, Treasure T, Sherlaw-Johnson C, Gallivan S. Monitoring the results of cardiac surgery by variable life-adjusted display. Lancet 1997;350:1128-30. [ Links ]

7. Sherlaw-Johnson C, Lovegrove J, Treasure T, Gallivan S. Likely variations in perioperative mortality associated with cardiac surgery: when does high mortality reflect bad practice? Heart 2000;84:79-82. [ Links ]

8. Borracci RA, Rubio M, Gallo AJ, Torre HT, Ahuad Guerrero RA, Espinosa D y col. Aplicación de pruebas de ajuste de riesgo para predecir los tiempos de internación postoperatorios en cirugía cardíaca. Rev Argent Cardiol 1999;67:185-91. [ Links ]

9. Hair JF, Anderson RE, Tatham RL, Black WC. Analisis multivariante. 5a ed. Madrid: Prentice Hall; 1999. [ Links ]

10. Hosmer DW, Lemeshow S. Applied logistic regression. New York: Willey; 1989. [ Links ]

11. Gabrielle F, Roques F, Michel P, Bernard A, de Vicentis C, Roques X, et al. Is the Parsonnet's score a good predictive score of mortality in adult cardiac surgery: assessment by a French multicentre study. Eur J Cardiothorac Surg 1997;11:406-14. [ Links ]

12. Geissler HJ, Holzl P, Marohl S, Kuhn-Regnier F, Mehlhorn U, Sudkamp M, et al. Risk stratification in heart surgery: comparison of six score systems. Eur J Cardiothorac Surg 2000;17:400-6. [ Links ]

13. Nashef SA, Roques F, Hammill BG, Peterson ED, Michel P, Grover FL, et al. Validation of European System for Cardiac Operative Risk Evaluation (EuroSCORE) in North American cardiac surgery. Eur J Cardiothorac Surg 2002;22:101-5. [ Links ]

14. Edwards FH, Clark RE, Schwartz M. Coronary artery bypass grafting: the Society of Thoracic Surgeons National Database experience. Ann Thorac Surg 1994;57:12-9. [ Links ]

15. Higgins TL, Estafanous FG, Loop FD, Beck GJ, Blum JM, Paranandi L. Stratification of morbidity and mortality outcome by preoperative risk factors in coronary artery bypass patients. A clinical severity score. JAMA 1992;267:2344-8. [ Links ]

16. Hannan EL, Kilburn H Jr, O'Donnell JF, Lukacik G, Shields EP. Adult open heart surgery in New York State. An analysis of risk factors and hospital mortality rates. JAMA 1990;264:2768-74. [ Links ]

17. Baldi J, Borracci RA, Gallo AJ, Caviglia JO, Rubio M, Ikeda VD y col. Evaluación de la mortalidad intrahospitalaria esperada de la cirugía coronaria con el índice de riesgo del CONAREC III. Rev Argent Cardiol 1997;65:441-5. [ Links ]

18. Carosella VC, Cárdenas C, Sellanes M, Russo M, Pensa C, Nojek C. Score de predicción de riesgo preoperatorio de muerte intrahospitalaria en 3611 pacientes sometidos a cirugía cardíaca. Rev Argent Cardiol 2001;69:135 (Resumen). [ Links ]

19. Gabe E, Giunta G, Macchia A, Rafaelli H, Abud J, Dulbecco E y col. Score para estimar mortalidad en cirugía coronaria. Rev Argent Cardiol 2003;71:124 (Resumen). [ Links ]

20. Nani S, Tenorio Núñez O, Damonte M, Devoto M, Rivas R, Mancini B. Score prequirúrgico. Validación del análisis de riesgo de una población de pacientes sometidos a cirugía cardíaca. Rev Argent Cardiol 2003;71:177 (Resumen). [ Links ]