La siguiente es una respuesta del chat GPT de Microsoft Bing a la pregunta: ¿Qué es el tamaño del efecto?
El tamaño del efecto es una medida de la fuerza de un fenómeno en estadística. Es una estadística descriptiva que transmite la magnitud estimada de una relación sin hacer ninguna declaración acerca de si la relación aparente en los datos reflejan una verdadera relación en la población1. El tamaño del efecto se refiere a una forma de cuantificar la magnitud de la diferencia entre dos grupos2. Existen tres formas de medir el tamaño del efecto, según el tipo de análisis que esté realizando: 1. Diferencia de medias estandarizada 2. Coeficiente de correlación 3. Odds ratio2.
Las citas 3 y 4 están sugeridas, sin embargo, no referenciadas en la respuesta. El tema de la inteligencia artificial está muy de moda en la literatura médica y va a ser un motivo de discusión en los ámbitos científicos. Sin embargo, mi idea es dejar esto para otra ocasión y aprovechar la oportunidad para introducir el concepto y la importancia del tamaño del efecto (effect size) en los estudios de investigación clínica en contraste con el informe del valor p, que es una medida de la probabilidad de los resultados se deban al azar y solamente si el estudio está correctamente diseñado en cuanto a las condiciones de aplicabilidad.
De la respuesta del chat, resalto el concepto de la magnitud de la diferencia entre dos grupos, porque un valor bajo de p puede coincidir con un tamaño del efecto sin relevancia clínica. Existen distintas medidas del tamaño del efecto para comparar 2 medias; la más conocida es la d de Cohen, otras son la g de Hedges y la delta de Glass3.
Dejo el riesgo relativo, relación de probabilidades (odds ratio), prueba de correlación, etc., para más adelante porque exceden el objetivo de este editorial y prefiero introducir conceptos lentamente.
La fórmula de d es media 1 - media 2/desviación estándar del total de la muestra (sd pooled)4. La interpretación es 0,2 efecto pequeño, 0,5 efecto mediano y 0,8 o más, efecto grande2. Si el resultado fuera negativo, aunque matemáticamente correcto, no se usa para facilitar su interpretación. Es conocida también como diferencia de medias estandarizada y se denomina así porque las unidades del resultado son el número de desviaciones estándares en que se diferencian las medias. Es la moneda corriente en los metanálisis.
Un ejemplo simple en R5-8
Solamente los datos relevantes
mean (data1) # media grupo 1
[1] 41.21997
mean (data2) # media grupo 2
[1] 61.2 sd_pooled (data1, data2) # desviación estándar del total de la muestra
[1] 27.63153
t. test (data2, data1) # Prueba (test) t de Student de las 2 muestras sin significación estadística
t = 1.6169, df = 17.724, p-value = 0.1236 # Welch Two Sample t-test
Cálculo de la d de Cohen según fórmula
mean (data2) - mean (data1))/ sd_pooled (data1, data2)
[1] 0.7230879
Cálculo de la d de Cohen con R, library (effect size)
cohens_d (data2, data1)
Cohen’s d | 95% CI
---------------------------------
0.72 | [0.37, 1.92]
- Estimated using pooled SD.
interpret_cohens_d(0.72)
[1] “medium”
(Rules: cohen1988)
Acá se ve un tamaño del efecto moderado y un valor p no significativo.
El resultado puede darse a la inversa: un tamaño del efecto bajo y un valor p significativo. Para proporciones hay otras estimaciones como la h de Cohen, con la misma interpretación, V de Cramer, etc. Otro ejemplo en R, library (pwr)5,9 con una línea de script
library (pwr)
ES.h (0.5,0.4) ### proporciones 0.5 y 0.4 en cada muestra (50 y 40%) - h de Cohen
[1] 0.2013579 # el tamaño del efecto es bajo
De manera que, el hallazgo de un valor p estadísticamente significativo no es para festejar como si hubiéramos hallado un “Aleph” en el sótano10, sino para interpretarlo con cautela y profundizar el análisis de nuestros datos con otras herramientas estadísticas. El valor p aislado está sobrevaluado y conviene incluir el cálculo del tamaño del efecto en los estudios de investigación clínica.