La medicina basada en evidencia utiliza diferentes medios para saber si un tratamiento es efectivo o no, o para conocer si determinadas pruebas de laboratorio ayudan para confirmar o descartar ciertos diagnósticos. Para ello, los investigadores se valen de la estadística para conocer si los efectos son ocasionados por el azar o si son ocasionados por una intervención dada.

El valor p

Dentro de las formas de saberlo es a través del valor p y los intervalos de confianza.  El valor p tiene por objetivo mencionar si la HIPÓTESIS NULA es verdadera. ¿Qué es la hipótesis nula?   Es aquella que establece que no existe diferencia o asociación entre las variables estudiadas. Pero, ¿por qué tiene que ser la hipótesis nula?  Porque es más fácil buscar una sola evidencia para rechazar una hipótesis nula, que buscar aceptar una hipótesis alternativa, ya que se requiere de más evidencia para sustentar.

De este modo, se ha elegido de manera arbitraria y consensuada,  que la evidencia que se requiere para rechazar la hipótesis nula  sea que p <0.05. ¿Qué quiere decir que p<0.05?  Esto representa una seguridad del 95% que la asociación que estamos estudiando no es por el azar, sino que existe una asociación entre las variables estudiadas, teniendo en cuenta que se tiene un 5% de probabilidad de que sea por el azar.    De esta manera, si el valor de p<0.05 se menciona que lo observado es “estadísticamente significativo” rechazando la hipótesis nula.  En caso contrario se menciona que “no es estadísticamente significativo”, aceptando la hipótesis nula.

¿Cómo se deberá de interpretar estos valores de p? Hay que tener mucho cuidado en su interpretación. El hecho de que p<0.05 no necesariamente implica que sea clínicamente relevante, ya que dependerá de otros factores tales como la gravedad del problema, la morbilidad y mortalidad generada por el mismo, la vulnerabilidad, los costos involucrados, etc. 1 Por otro lado, que p> o igual 0.05 no implica necesariamente que no exista diferencia entre las variables estudiadas ya que el estudio pudo haber sido afectado por el tamaño de la muestra o por la pequeñez de las diferencias entre los dos grupos. En otras palabras, el valor p es susceptible al tamaño de la muestra y a las diferencias entre variables o entre grupos de estudio. Entre más grande sea la muestra y las diferencias, más pequeño será el valor p.

Veamos dos ejemplos:

1.      Se realizó un estudio en el que se desea comparar el uso de la dopamina contra el uso de la adrenalina en pacientes con lesión renal aguda para conocer si disminuye los días de hospitalización. El número de pacientes involucrados en el estudio fue 1,200 en un lapso de 3 años.   En el grupo en el que se empleó adrenalina disminuyó un 0.4% de días hospitalizados, mientras que en el grupo de la dopamina fue de 5.3%. ¿Cuál será el valor probable de p?  Primero necesitamos establecer la hipótesis nula, ya que el valor de p es la evidencia que requerimos para rechazarla o aceptarla. De este modo quedaría que, el uso de la dopamina en pacientes con lesión renal aguda no disminuye los días de hospitalización en comparación con los que usan adrenalina.  Veamos, el número de la muestra es grande, y al diferenciar entre grupos es de 4.9% por lo que muy probablemente el valor de p sea <0.05, ya que el tamaño de la muestra es grande y la diferencia entre grupos también lo es.
2.      Se realizó un estudio en el que se desea comparar el uso de esteroide + mizoribina y esteroide solo en pacientes con lupus eritematoso sistémico en Japón para conocer si existía una reducción en la actividad de la enfermedad. El número de pacientes reclutados fueron 60 y el seguimiento se hizo en 1 año. Al realizar el análisis estadístico se observó que había una disminución del 56% en el grupo combinado y un 35% en el grupo de esteroide solo, en el que se obtuvo una p de 0.09. El estudio concluyó que no hay diferencia significativa entre los que usan esteroide + mirozibina y los que usan esteroide solo. ¿Qué podemos decir de este estudio?  En este caso p >o igual 0.05, por lo que no existe diferencia estadística. Sin embargo, analicemos el estudio.  La diferencia entre grupos es grande (56-35= 21%), pero la cantidad de la muestra es pequeña (60). Si incrementáramos el tamaño de muestra, el valor de p pudiese entrar en la significancia estadística. El aceptar la hipótesis nula cuando esta es falsa, estamos ante un error tipo II (falso negativo).

Por ello es que el “valor de p”, debe ser observado con cautela y siempre tomado en cuenta en el contexto del estudio, su diseño, las características de la muestra o la población en estudio, de los potenciales sesgos, etc. Y no como una cifra mágica que nos seduzca de tal forma, que nos invite o autorice a tomar decisiones o cambiar conductas relacionadas con la práctica clínica cotidiana1.

Intervalo de confianza (IC)

Los intervalos de confianza nos permiten estimar con alta probabilidad, un rango de valores en el que se encuentra el valor poblacional (parámetro) de una determinada variable. En otras palabras, nos permite conocer cuál es la certeza que el valor obtenido poblacional se encuentre en un determinado rango. Se ha establecido el valor del 95% de manera consensuada. ¿Qué quiere decir un IC del 95%? Quiere decir que el parámetro se encuentra en un determinado rango con un 95% de certeza.

Los intervalos de confianza nos ofrecen más información que el valor p, ya que estamos poniendo a “prueba” un parámetro determinado en un rango de valores. Por lo tanto, el IC puede emplearse con medias y con proporciones como la razón de momios (odds ratio OR) o el riesgo relativo  (risk ratio RR).

¿Cómo debo de interpretar el intervalo de confianza? Eso dependerá del parámetro que se está evaluando. En caso de que sean medias, el intervalo no deberá de contener el 0. En caso de que sean proporciones, el intervalo no deberá de contener el 1.   Esto guarda una relación con el valor p, ya que de esta manera podemos decir que es estadísticamente significativo. Por lo tanto, como regla:

–       Si el IC 95% incluye el valor nulo*, entonces p>0.05
–       Si el IC 95% no incluye el valor nulo*, entonces p<0.05
*Entiéndase el valor nulo como 0 para la diferencia de las medias, y valor nulo 1 para evaluar proporciones.

Por ejemplo:
1.      Se realizó un estudio en el que se quería comparar el uso de un antiplaquetario y el placebo  para conocer si existía algún efecto en  la incidencia de trombosis de los stent. Los resultados de los estudios fueron: con el uso del antiplaquetario se obtuvieron 0.4% de incidentes por trombosis, y en el placebo 1.4% de incidentes. Al obtener la razón de proporción se obtiene un 0.29 (0.4/1.4) y el IC 95% es (0.17-0.48). ¿Cómo se interpreta este estudio?   Quiere decir que el antiplaquetario disminuye un 29% los incidentes por trombosis de los stents, y que se encuentra dentro de lo estadísticamente significativo, ya que el intervalo de confianza de las proporciones no incluye el valor nulo (1), ya que el intervalo va de 0.17-0.48. Estadísticamente  y clínicamente hablando tiene relevancia este estudio.

¿Valor p o Intervalo de confianza?

Para contestar esta pregunta, utilizaremos el ejemplo de Molinas Arias (2013).

Se desea comparar el efecto de un nuevo fármaco broncodilatador con el tratamiento actual, para lo cual midieron la diferencia de efecto de los dos sobre las pruebas de función pulmonar, asumiendo como clínicamente importante diferencias del efecto superiores al 10% en las espirometrías  En la figura se observan cuatro estudios sobre lo que se quería evaluar.

Como se observa en la figura, se representan los IC 95%  de los cuatro estudios, así como la línea del efecto nulo (no diferencia entre los dos tratamientos) y del efecto clínicamente importante.  Solo los estudios cuyos IC del 95% no cruce la vertical del efecto nulo tendrá significación estadística.

El estudio A no tiene significación estadística (el IC incluye el valor nulo), y además clínicamente no parece importante.

El estudio B tampoco es estadísticamente significativo, pero clínicamente podría ser importante, ya que el límite superior del intervalo cae en la zona de relevancia clínica. Si aumentáramos la precisión del estudio (aumentando el tamaño de la muestra), es posible que el intervalo se estreche y quedar por encima del valor nulo, alcanzando significación estadística.  Pongamos atención a este estudio B, si se tratase de un estudio de toxicidad y mortalidad. Aunque la diferencia no fuese estadísticamente significativa, el estudio del IC 95% probablemente desaconsejaría el uso del fármaco hasta disponer de estudios más precisos.

El estudio C y D son estadísticamente significativos, pero solo el D es clínicamente importante. Aunque el C es estadísticamente significativo, clínicamente no es relevante.

Por este motivo, si solo consideramos el valor p podemos llevarnos a despreciar información importante desde el punto de vista clínico. Por lo que los intervalos de confianza nos aportan información adicional sobre la precisión de la estimación de los resultados y sobre el posible impacto clínico de los mismos.

Autor: Irving Rodríguez – Editor: Jesús Ortiz

Bibliografía:

  • Manterola, C. et.al.(2008). El valor de “p” y la “significación estadística”. Aspectos generales y su valor en la práctica clínica Rev. Chilena de Cirugía. 60:1; 86-9
  • Molinas, M. (2013). Lectura crítica en pequeñas dosis. El significado de los intervalos de confianza. Rev Pediatr Aten Primaria, 15:9; 91-4.
  • Clark, M. (2004). Los valores P y los intervalos de confianza: ¿en qué confiar? Rev Panam Salud Publica/Pan Am J Public Health 15(5),