Bookshelf

INFERÊNCIA E TESTEMUNHO DE HIPOTESE ESTATÍSTICA

Muitos estudos científicos procuram medir, explicar e fazer previsões sobre fenómenos naturais. Outros estudos buscam detectar e medir os efeitos de uma intervenção sobre um sistema. A inferência estatística fornece um quadro conceptual e computacional para abordar as questões científicas em cada cenário. Estimativas e testes de hipóteses são agrupamentos amplos de procedimentos inferenciais. A estimativa é adequada para cenários em que o objetivo principal é a avaliação da magnitude de uma quantidade, como uma medida de uma constante física ou a taxa de mudança em uma resposta correspondente a uma mudança em uma variável explicativa. O teste de hipóteses é adequado para cenários em que o interesse científico se concentra no possível efeito de um evento natural ou intervenção intencional, e é realizado um estudo para avaliar as evidências a favor e contra esse efeito. Neste contexto, o teste de hipóteses ajuda a responder a questões binárias. Por exemplo, uma planta crescerá mais rapidamente com o fertilizante A ou com o fertilizante B? As crianças em classes menores aprendem mais? Um medicamento experimental funciona melhor do que um placebo? Vários tipos de métodos estatísticos mais especializados são utilizados na investigação científica, incluindo métodos para desenhar estudos e métodos para desenvolver e avaliar algoritmos de previsão.

Porque o teste de hipóteses tem estado envolvido em grande parte das avaliações de reprodutibilidade e replicabilidade, consideramos este modo de inferência estatística com algum detalhe. No entanto, considerações de reprodutibilidade e replicabilidade aplicam-se amplamente a outros modos e tipos de inferência estatística. Por exemplo, a questão do desenho de múltiplas inferências estatísticas a partir dos mesmos dados é relevante para todos os testes de hipóteses e na estimação.

Estudos envolvendo testes de hipóteses normalmente envolvem muitos fatores que podem introduzir variação nos resultados. Alguns desses fatores são reconhecidos, e alguns não são reconhecidos. A atribuição aleatória de sujeitos ou objetos de teste a um ou outro dos grupos de comparação é uma maneira de controlar a possível influência tanto de fontes de variação não reconhecidas como reconhecidas. A atribuição aleatória pode ajudar a evitar diferenças sistemáticas entre os grupos comparados, mas não afeta a variação inerente ao sistema (por exemplo, população ou uma intervenção) em estudo.

Os cientistas usam o termo hipótese nula para descrever a suposição de que não há diferença entre os dois grupos de intervenção ou nenhum efeito de um tratamento em algum resultado medido (Fisher, 1935). Uma formulação comumente usada de teste de hipóteses é baseada na resposta à seguinte pergunta: Se a hipótese nula é verdadeira, qual é a probabilidade de se obter uma diferença pelo menos tão grande quanto a observada? Em geral, quanto maior a diferença observada, menor a probabilidade de que uma diferença pelo menos tão grande quanto a observada seria obtida quando a hipótese nula é verdadeira. Essa probabilidade de se obter uma diferença pelo menos tão grande quanto a observada quando a hipótese nula é verdadeira é chamada de “p-valor “3. Como tradicionalmente interpretado, se um p-valor calculado for menor que um limiar definido, os resultados podem ser considerados estatisticamente significativos. Um limiar típico pode ser p ≤ 0,05 ou, mais rigorosamente, p ≤ 0,01 ou p ≤ 0,005.4 Em uma declaração emitida em 2016, o American Statistical Association Board (Wasserstein e Lazar, 2016, p. 129) notou:

p>Embora o valor de p possa ser uma medida estatística útil, ele é comumente mal utilizado e mal interpretado. Isto levou algumas revistas científicas a desencorajar o uso de p-valores, e alguns cientistas e estatísticos recomendam o seu abandono, com alguns argumentos essencialmente inalterados desde que os p-valores foram introduzidos pela primeira vez.

Mais recentemente, tem sido argumentado que os valores de p, devidamente calculados e compreendidos, podem ser informativos e úteis; contudo, uma conclusão de significância estatística baseada num limiar arbitrário de probabilidade (mesmo um limiar familiar como o p ≤ 0,05) é inútil e frequentemente enganadora (Wasserstein et al, 2019; Amrhein et al., 2019b).

Entender o que um p-valor não representa é tão importante quanto entender o que ele indica. Em particular, o valor p não representa a probabilidade de que a hipótese nula seja verdadeira. Ao contrário, o valor p é calculado com base na hipótese de que a hipótese nula é verdadeira. A probabilidade de que a hipótese nula seja verdadeira, ou que a hipótese alternativa seja verdadeira, pode ser baseada em cálculos informados em parte pelos resultados observados, mas isto não é o mesmo que um valor de p.

Em pesquisas científicas envolvendo hipóteses sobre os efeitos de uma intervenção, os pesquisadores procuram evitar dois tipos de erro que podem levar à não replicabilidade:

  • Erro de Tipo I – um falso positivo ou uma rejeição da hipótese nula quando esta é correta
  • Erro de Tipo II – um falso negativo ou uma rejeição da hipótese nula, permitindo que a hipótese nula se mantenha quando uma hipótese alternativa, e não a hipótese nula, é correta

Idealmente, ambos os erros de Tipo I e Tipo II seriam simultaneamente reduzidos na pesquisa. Por exemplo, aumentar o poder estatístico de um estudo aumentando o número de sujeitos de um estudo pode reduzir a probabilidade de um erro Tipo II para qualquer probabilidade de erro Tipo I.5 Embora o aumento de dados que vem com estudos de maior potência possa ajudar a reduzir tanto os erros Tipo I quanto os erros Tipo II, adicionar mais sujeitos tipicamente significa mais tempo e custo para um estudo.

Investigadores são muitas vezes forçados a fazer tradeoffs nos quais reduzir a probabilidade de um tipo de erro aumenta a probabilidade do outro. Por exemplo, quando os valores p são considerados úteis, os erros do Tipo I podem ser minimizados baixando o limiar de significância para um nível mais rigoroso (por exemplo, baixando o padrão p ≤ 0,05 para p ≤ 0,005). No entanto, isto aumentaria simultaneamente a probabilidade de um erro de Tipo II. Em alguns casos, pode ser útil definir zonas interpretativas separadas, onde p-valores acima de um limiar de significância não são considerados significativos, p-valores abaixo de um limiar de significância mais rigoroso são considerados significativos, e p-valores entre os dois limiares são considerados inconclusivos. Alternativamente, pode-se simplesmente aceitar o p-valor calculado para o que é – a probabilidade de obter o resultado observado ou um outro extremo se a hipótese nula for verdadeira – e abster-se de interpretar os resultados como “significativos” ou “não significativos”. A tradicional dependência de um único limiar para determinar o significado pode incentivar comportamentos que funcionam contra o progresso científico (ver a seção de viés de publicação no Capítulo 5).

Tensão pode surgir entre replicabilidade e descoberta, especificamente, entre a replicabilidade e a novidade dos resultados. Hipóteses com baixas probabilidades a priori são menos prováveis de serem replicadas. Nesta linha, Wilson e Wixted (2018) ilustraram como campos que estão investigando resultados potencialmente revolucionários produzirão resultados que são menos replicáveis, em média, do que campos que estão investigando resultados altamente prováveis, quase estabelecidos. De fato, um campo poderia alcançar uma replicabilidade quase perfeita se limitasse suas investigações a fenômenos prosaicos que já eram bem conhecidos. Como dizem Wilson e Wixted (2018, p. 193), “Podemos imaginar páginas cheias de descobertas de que as pessoas têm fome depois de perder uma refeição ou que as pessoas estão com sono depois de ficarem acordadas a noite toda”, o que não seria muito útil “para o avanço da compreensão do mundo”. Na mesma linha, não seria útil para um campo concentrar-se apenas em hipóteses improváveis e estranhas.

O objetivo da ciência não é, e não deve ser, que todos os resultados sejam replicáveis. Relatórios de não-replicação de resultados podem gerar excitação, pois podem indicar possivelmente novos fenômenos e expansão do conhecimento atual. Além disso, algum nível de não-replicabilidade é esperado quando os cientistas estão estudando novos fenômenos que não estão bem estabelecidos. À medida que o conhecimento de um sistema ou fenômeno melhora, a replicabilidade dos estudos desse sistema ou fenômeno em particular seria esperada aumentar.

Avaliar a probabilidade de que uma hipótese esteja correta em parte com base nos resultados observados também pode ser abordada através da análise Bayesiana. Esta abordagem começa com suposições a priori (antes da observação dos dados), conhecidas como probabilidades anteriores, e as revisa com base nos dados observados usando o teorema de Bayes, às vezes descrito como a fórmula de Bayes.

Anexo D ilustra como uma abordagem Bayesiana para inferir pode, sob certas suposições sobre o mecanismo de geração de dados e sobre a probabilidade a priori da hipótese, usar dados observados para estimar a probabilidade de que uma hipótese esteja correta. Uma das lições mais marcantes da análise Bayesiana é o profundo efeito que as probabilidades pré-experimentais têm sobre as probabilidades pós-experimentais. Por exemplo, sob as hipóteses apresentadas no Anexo D, se a probabilidade prévia de uma hipótese experimental fosse de apenas 1% e os resultados obtidos fossem estatisticamente significativos no nível da p ≤ 0,01, apenas cerca de uma em oito dessas conclusões de que a hipótese era verdadeira seria correta. Se a probabilidade prévia fosse de 25%, então mais de quatro de cinco estudos seriam considerados corretos. Como o senso comum ditaria e a análise Bayesiana pode quantificar, é prudente adotar um nível de confiança menor nos resultados de um estudo com um resultado altamente inesperado e surpreendente do que em um estudo cujos resultados fossem a priori mais plausíveis (por exemplo, ver Quadro 2-2).

Box Icon

BOX 2-2

Probabilidade Pré-Experimental: Um Exemplo.

Resultados altamente surpreendentes podem representar um importante avanço científico, ainda que seja provável que apenas uma minoria deles possa vir a estar correcta ao longo do tempo. Pode ser crucial, em termos do exemplo do parágrafo anterior, saber quais dos oito resultados altamente inesperados (probabilidade anterior, 1%) podem ser verificados e qual dos cinco resultados moderadamente inesperados (probabilidade anterior, 25%) deve ser desconsiderado.

Calcando a idéia de probabilidade anterior em mente, a pesquisa focada em fazer pequenos avanços no conhecimento existente resultaria em uma alta taxa de replicação (ou seja, uma alta taxa de replicações bem sucedidas) porque os pesquisadores estariam procurando por resultados que são muito provavelmente corretos. Mas fazê-lo teria o efeito indesejável de reduzir a probabilidade de fazer novas descobertas importantes (Wilson e Wixted, 2018). Muitos avanços importantes na ciência resultaram de uma abordagem mais ousada baseada em hipóteses mais especulativas, embora este caminho também conduza a becos sem saída e a insights que parecem promissores no início, mas não conseguem sobreviver após repetidos testes.

As abordagens “segura” e “ousada” da ciência têm vantagens complementares. Pode-se argumentar que um campo se tornou muito conservador se todas as tentativas de replicar resultados forem bem sucedidas, mas é razoável esperar que os pesquisadores acompanhem descobertas novas, mas incertas, com estudos de replicação para descobrir quais resultados promissores se mostram corretos. Os cientistas devem estar cientes do nível de incerteza inerente às hipóteses especulativas e aos resultados surpreendentes em qualquer estudo.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *