Bookshelf

INFERENCIA ESTADÍSTICA Y PRUEBA DE HIPÓTESIS

Muchos estudios científicos buscan medir, explicar y hacer predicciones sobre fenómenos naturales. Otros estudios buscan detectar y medir los efectos de una intervención en un sistema. La inferencia estadística proporciona un marco conceptual y computacional para abordar las cuestiones científicas en cada escenario. La estimación y la comprobación de hipótesis son amplias agrupaciones de procedimientos inferenciales. La estimación es adecuada para entornos en los que el objetivo principal es la evaluación de la magnitud de una cantidad, como la medida de una constante física o la tasa de cambio de una respuesta correspondiente a un cambio en una variable explicativa. Las pruebas de hipótesis son adecuadas para entornos en los que el interés científico se centra en el posible efecto de un acontecimiento natural o una intervención intencionada, y se realiza un estudio para evaluar las pruebas a favor y en contra de este efecto. En este contexto, la comprobación de hipótesis ayuda a responder a preguntas binarias. Por ejemplo, ¿crecerá más rápido una planta con el abono A o con el abono B? ¿Aprenden más los niños en clases más pequeñas? ¿Funciona mejor un medicamento experimental que un placebo? En la investigación científica se utilizan varios tipos de métodos estadísticos más especializados, incluidos los métodos para diseñar estudios y los métodos para desarrollar y evaluar algoritmos de predicción.

Debido a que las pruebas de hipótesis han participado en una parte importante de las evaluaciones de reproducibilidad y replicabilidad, consideramos este modo de inferencia estadística con cierto detalle. Sin embargo, las consideraciones de reproducibilidad y replicabilidad se aplican ampliamente a otros modos y tipos de inferencia estadística. Por ejemplo, la cuestión de realizar múltiples inferencias estadísticas a partir de los mismos datos es relevante para todas las pruebas de hipótesis y en la estimación.

Los estudios que implican pruebas de hipótesis suelen implicar muchos factores que pueden introducir variación en los resultados. Algunos de estos factores están reconocidos y otros no. La asignación aleatoria de los sujetos u objetos de prueba a uno u otro de los grupos de comparación es una forma de controlar la posible influencia tanto de las fuentes de variación no reconocidas como de las reconocidas. La asignación aleatoria puede ayudar a evitar las diferencias sistemáticas entre los grupos que se comparan, pero no afecta a la variación inherente al sistema (por ejemplo, la población o una intervención) que se estudia.

Los científicos utilizan el término hipótesis nula para describir la suposición de que no hay diferencias entre los dos grupos de intervención o de que no hay efecto de un tratamiento sobre algún resultado medido (Fisher, 1935). Una formulación comúnmente utilizada de las pruebas de hipótesis se basa en la respuesta a la siguiente pregunta: Si la hipótesis nula es verdadera, ¿cuál es la probabilidad de obtener una diferencia al menos tan grande como la observada? En general, cuanto mayor es la diferencia observada, menor es la probabilidad de que se obtenga una diferencia al menos tan grande como la observada cuando la hipótesis nula es verdadera. Esta probabilidad de obtener una diferencia al menos tan grande como la observada cuando la hipótesis nula es verdadera se denomina «valor p».3 Tal y como se interpreta tradicionalmente, si un valor p calculado es menor que un umbral definido, los resultados pueden considerarse estadísticamente significativos. Un umbral típico puede ser p ≤ 0,05 o, de forma más estricta, p ≤ 0,01 o p ≤ 0,005.4 En una declaración emitida en 2016, la Junta de la Asociación Americana de Estadística (Wasserstein y Lazar, 2016, p. 129) señaló:

Aunque el valor p puede ser una medida estadística útil, suele utilizarse e interpretarse incorrectamente. Esto ha llevado a que algunas revistas científicas desaconsejen el uso de los valores p, y a que algunos científicos y estadísticos recomienden su abandono, con algunos argumentos que no han cambiado esencialmente desde que se introdujeron los valores p.

Más recientemente, se ha argumentado que los valores p, calculados y comprendidos adecuadamente, pueden ser informativos y útiles; sin embargo, una conclusión de significación estadística basada en un umbral arbitrario de probabilidad (incluso uno familiar como p ≤ 0,05) no es útil y frecuentemente es engañosa (Wasserstein et al, 2019; Amrhein et al., 2019b).

Entender lo que un valor p no representa es tan importante como entender lo que indica. En particular, el valor p no representa la probabilidad de que la hipótesis nula sea verdadera. Por el contrario, el valor p se calcula suponiendo que la hipótesis nula es verdadera. La probabilidad de que la hipótesis nula sea verdadera, o de que la hipótesis alternativa sea verdadera, puede basarse en cálculos informados en parte por los resultados observados, pero esto no es lo mismo que un valor p.

En la investigación científica que implica hipótesis sobre los efectos de una intervención, los investigadores tratan de evitar dos tipos de error que pueden llevar a la no replicabilidad:

  • Error de tipo I-un falso positivo o un rechazo de la hipótesis nula cuando es correcta
  • Error de tipo II-un falso negativo o no rechazar una hipótesis nula falsa, permitiendo que la hipótesis nula se mantenga cuando una hipótesis alternativa, y no la hipótesis nula, es correcta
  • De hecho, tanto los errores de tipo I como los de tipo II se reducirían simultáneamente en la investigación. Por ejemplo, aumentar la potencia estadística de un estudio incrementando el número de sujetos en un estudio puede reducir la probabilidad de un error de Tipo II para cualquier probabilidad dada de error de Tipo I.5 Aunque el aumento de los datos que conllevan los estudios de mayor potencia puede ayudar a reducir tanto los errores de Tipo I como los de Tipo II, añadir más sujetos suele significar más tiempo y coste para un estudio.

    Los investigadores a menudo se ven obligados a hacer concesiones en las que la reducción de la probabilidad de un tipo de error aumenta la probabilidad del otro. Por ejemplo, cuando los valores p se consideran útiles, los errores de tipo I pueden minimizarse bajando el umbral de significación a un nivel más estricto (por ejemplo, bajando el estándar p ≤ 0,05 a p ≤ 0,005). Sin embargo, esto aumentaría simultáneamente la probabilidad de un error de tipo II. En algunos casos, puede ser útil definir zonas interpretativas separadas, en las que los valores p por encima de un umbral de significación no se consideren significativos, los valores p por debajo de un umbral de significación más estricto se consideren significativos, y los valores p entre los dos umbrales se consideren no concluyentes. Otra posibilidad es aceptar simplemente el valor p calculado por lo que es -la probabilidad de obtener el resultado observado o uno más extremo si la hipótesis nula fuera cierta- y abstenerse de seguir interpretando los resultados como «significativos» o «no significativos». La confianza tradicional en un único umbral para determinar la significación puede incentivar comportamientos que van en contra del progreso científico (véase la sección Sesgo de publicación en el capítulo 5).

    Puede surgir tensión entre la replicabilidad y el descubrimiento, concretamente, entre la replicabilidad y la novedad de los resultados. Las hipótesis con bajas probabilidades a priori tienen menos probabilidades de ser replicadas. En esta línea, Wilson y Wixted (2018) ilustraron cómo los campos que están investigando resultados potencialmente innovadores producirán resultados que son menos replicables, en promedio, que los campos que están investigando resultados altamente probables y casi establecidos. De hecho, un campo podría lograr una replicabilidad casi perfecta si limitara sus investigaciones a fenómenos prosaicos que ya fueran bien conocidos. Como afirman Wilson y Wixted (2018, p. 193), «podemos imaginar páginas llenas de hallazgos de que la gente tiene hambre después de perderse una comida o que la gente tiene sueño después de quedarse despierta toda la noche», lo que no sería muy útil «para avanzar en la comprensión del mundo.» En la misma línea, no sería útil que un campo se centrara únicamente en hipótesis improbables y extravagantes.

    El objetivo de la ciencia no es, ni debería ser, que todos los resultados sean replicables. Los informes de resultados no replicables pueden generar entusiasmo, ya que pueden indicar fenómenos posiblemente nuevos y la expansión del conocimiento actual. Además, se espera cierto nivel de no replicabilidad cuando los científicos estudian fenómenos nuevos que no están bien establecidos. A medida que mejora el conocimiento de un sistema o fenómeno, se esperaría que aumentara la replicabilidad de los estudios de ese sistema o fenómeno en particular.

    La evaluación de la probabilidad de que una hipótesis sea correcta en parte basada en los resultados observados también puede abordarse mediante un análisis bayesiano. Este enfoque comienza con suposiciones a priori (antes de la observación de los datos), conocidas como probabilidades a priori, y las revisa sobre la base de los datos observados utilizando el teorema de Bayes, a veces descrito como la fórmula de Bayes.

    El apéndice D ilustra cómo un enfoque bayesiano de la inferencia puede, bajo ciertas suposiciones sobre el mecanismo de generación de datos y sobre la probabilidad a priori de la hipótesis, utilizar los datos observados para estimar la probabilidad de que una hipótesis sea correcta. Una de las lecciones más sorprendentes del análisis bayesiano es el profundo efecto que tienen las probabilidades preexperimentales sobre las probabilidades postexperimentales. Por ejemplo, bajo los supuestos mostrados en el Apéndice D, si la probabilidad previa de una hipótesis experimental fuera sólo del 1 por ciento y los resultados obtenidos fueran estadísticamente significativos al nivel p ≤ 0,01, sólo una de cada ocho conclusiones de que la hipótesis fuera cierta sería correcta. Si la probabilidad previa fuera tan alta como el 25 por ciento, entonces más de cuatro de cada cinco estudios de este tipo se considerarían correctos. Como dictaría el sentido común y el análisis bayesiano puede cuantificar, es prudente adoptar un nivel de confianza más bajo en los resultados de un estudio con un resultado altamente inesperado y sorprendente que en un estudio cuyos resultados eran a priori más plausibles (por ejemplo, véase el Recuadro 2-2).

    Icono del Recuadro

    Cuadro 2-2

    Probabilidad Pre-Experimental: Un ejemplo.

    Los resultados altamente sorprendentes pueden representar un importante avance científico, aunque es probable que sólo una minoría de ellos resulte ser correcta con el tiempo. Puede ser crucial, en términos del ejemplo del párrafo anterior, aprender cuál de los ocho resultados altamente inesperados (probabilidad a priori, 1%) puede ser verificado y cuál de los cinco resultados moderadamente inesperados (probabilidad a priori, 25%) debe ser descartado.

    Teniendo en cuenta la idea de la probabilidad a priori, la investigación centrada en realizar pequeños avances en el conocimiento existente daría lugar a una alta tasa de replicación (es decir, una alta tasa de réplicas exitosas) porque los investigadores estarían buscando resultados que son muy probablemente correctos. Pero hacer esto tendría el efecto indeseable de reducir la probabilidad de hacer nuevos descubrimientos importantes (Wilson y Wixted, 2018). Muchos avances importantes en la ciencia han sido el resultado de un enfoque más audaz basado en hipótesis más especulativas, aunque este camino también conduce a callejones sin salida y a conocimientos que parecen prometedores al principio pero que no logran sobrevivir después de repetidas pruebas.

    Los enfoques «seguro» y «audaz» de la ciencia tienen ventajas complementarias. Se podría argumentar que un campo se ha vuelto demasiado conservador si todos los intentos de replicar los resultados tienen éxito, pero es razonable esperar que los investigadores realicen un seguimiento de los descubrimientos nuevos pero inciertos con estudios de replicación para determinar qué resultados prometedores resultan correctos. Los científicos deben ser conscientes del nivel de incertidumbre inherente a las hipótesis especulativas y a los resultados sorprendentes en cualquier estudio individual.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *