Pasos del ritual de la prueba de significación estadística
1.
El investigador formula la hipótesis nula. En términos generales, la
hipótesis nula afirma que no existe ninguna relación real o verdadera
entre las variables independiente y dependiente de una investigación, y
que, por tanto, si alguna relación es observada entre dichas variables
en los datos de la investigación, la misma podría explicarse como
resultado del azar. Es por eso que a la hipótesis nula se le llama la
hipótesis del azar. Dicho de otra manera, la hipótesis nula expresa que
si se repitiera la investigación un número suficiente de veces, siempre
con una muestra distinta extraída aleatoriamente de la misma población,
las diferencias en la variable dependiente entre los grupos de la
investigación tenderían a neutralizarse y terminarían siendo cero. El
razonamiento implícito en la hipótesis nula es el siguiente: Suponiendo
que el resultado de una investigación particular constituye una
selección al azar de entre una multitud de resultados posibles, el
investigador se pregunta cuál sería la probabilidad de obtener por azar
la diferencia que él ha encontrado entre los grupos de su
investigación.
Si esa probabilidad es
igual o menor que un nivel de probabilidad convencional previamente
establecido, entonces el investigador concluye que los resultados por
él observados no se deben al azar y, por tanto, rechaza la hipótesis
nula. Si, en cambio, la probabilidad de que la diferencia observada
entre los grupos se pueda explicar como resultado del azar es superior
al nivel de probabilidad convencional previamente establecido, entonces
nos se puede descartar el azar, es decir, no se rechaza la hipótesis
nula. Esta formulación es puramente fisheriana.
2.
Es obvio que la decisión sobre la hipótesis nula requiere de que se
haya establecido previamente un nivel de significación estadística, es
decir, un criterio que sirva de base a la decisión de rechazar o no
rechazar la hipótesis nula. Al establecer un criterio de decisión sobre
la hipótesis nula, el investigador puede ponderar los errores que
podría cometer en su decisión sobre la hipótesis nula. Una primera
forma de error (se conoce como el error tipo I) consiste en rechazar
una hipótesis nula verdadera, es decir, descartar el azar como
explicación cuando los resultados podrían explicarse razonablemente con
base en el mismo. Este es el error que comete el investigador que ve
más lo que hay en los datos; es decir, el investigador concluye que
existe una relación real o verdadera entre las variables independiente
y dependiente de la investigación, cuando en realidad la relación
observada se puede explicar razonablemente como resultado del azar. El
llamado error tipo I es el error del investigador que se apresura a
concluir a favor de su hipótesis de investigación. Fisher no habló de
ningún otro error, pues la prueba de la hipótesis nula para él no era
otra cosa que un freno a la tendencia natural de un investigador a
creer que hipótesis ha sido confirmada por el simple hecho de que los
resultados de la investigación siguen la misma dirección de la
hipótesis.
En la
estrategia de Fisher sólo hay un error posible: rechazar una hipótesis
nula verdadera. Una segunda forma de error (se conoce como el error
tipo II), introducida por Egon Pearson y Jerzy Neyman consiste en no
rechazar una hipótesis nula falsa, es decir, no descartar el azar aun
cuando éste no constituye una explicación razonable de los datos. Este
es el error que comete el investigador que ve menos que lo que hay en
los datos; por miedo a rechazar incorrectamente el azar, el
investigador puede exponerse al riesgo de pasar por alto una relación
real o verdadera entre las variables de su investigación. Fueron
Pearson y Neyman los que, al introducir un segundo tipo de error,
bautizaron como error tipo uno al error de que había hablado Fisher.
En
la perspectiva fisheriana, el nivel de significación estadística es el
punto que separa las probabilidades que nos conducen a rechazar la
posibilidad de que la relación observada entre las variables de una
investigación se deba completamente a errores variables (errores de
azar) de aquellas probabilidades que nos conducen a no rechazar esa
posibilidad.
Según Fisher, el nivel de
significación estadística equivale a la magnitud del riesgo que está
dispuesto a correr el investigador, de cometer el error de rechazar una
hipótesis nula verdadera (el llamado error tipo I). Para la mayoría de
los propósitos, el nivel de significación previamente establecido suele
ser de 0.05, aunque en áreas de investigación más rigurosas se trabaja
con un nivel de significación de 0.01. Suponiendo que se trabaja con un
nivel de significación de 0.05, se rechazaría la hipótesis nula siempre
que la probabilidad de explicar los resultados obtenidos en una
investigación como si fueran obra del azar sea igual o menor que 0.05.
En
la perspectiva de Pearson y Neyman, para establecer el nivel de
significación estadística habría que atender al impacto de cada tipo de
error en el objetivo del investigador, y a partir de ahí se decidiría
cuál de ellos es preferible minimizar. Pearson y Neyman llamaron alfa
al error tipo I y beta al error tipo II; a partir de este último tipo
de error, introdujeron el concepto de "poder de una prueba
estadística", el cual se refiere a su capacidad para evitar el error
tipo II, y está definido por 1-beta, y en estrecha relación con éste se
ha desarrollado el concepto de "tamaño del efecto" que algunos han
propuesto como sustituto de los valores p en los informes de
investigación científica. (Cohen, 1990, 1994; Kraemer & Thiemann,
1987; Murphy & Myors, 2004).
3. El
tercer paso del llamado ritual de la prueba de significación
estadística consiste en la elección de la prueba estadística que se
utilizará para someter a pruebala hipótesis nula. Hay dos clases de
pruebas estadísticas: las paramétricas y las no paramétricas. Se llama
paramétricas a aquellas pruebas estadísticas que exigen que los datos a
los que se aplican cumplan con los siguientes requisitos: que los
valores de la variable dependiente sigan la distribución de la curva
normal, por lo menos en la población a la que pertenezca la muestra en
la que se hizo la investigación; que las varianzas de los grupos que se
comparan en una variable dependiente sean aproximadamente iguales
(homocedasticidad, u homogeneidad de las varianzas); y que la variable
dependiente esté medida en una escala que sea por lo menos de
intervalo, aunque este último requisito no es compartido por todos los
estadísticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen
con los requisitos indicados, especialmente con los dos primeros, las
pruebas estadísticas paramétricas exhiben su máximo poder, es decir, su
máxima capacidad para detectar una relación real o verdadera entre dos
variables, si es que la misma existe. Las pruebas paramétricas más
conocidas y usadas son la prueba T de Student, la prueba F, llamada así
en honor a Fisher, y el coeficiente de correlación de Pearson,
simbolizado por r. Cuando estas pruebas estadísticas se aplican a datos
que violan los dos primeros de los requisitos señalados, pierden parte
de su poder. Las pruebas estadísticas no paramétricas, en cambio, no
hacen a los datos ninguna de las exigencias que les hacen las pruebas
estadísticas paramétricas, por eso se les denomina "pruebas
estadísticas libres de distribución". Las más conocidas y usadas de
estas pruebas son la ji cuadrada de Pearson, la prueba de la
probabilidad exacta de Fisher, los coeficientes de contingencia de
Pearson y Cramer, la prueba U de Mann & Whitney, el coeficiente de
correlación de rangos de Spearman, y el coeficiente de asociación
ordinal de Goodman y Kruskal (coeficiente gamma), (Conover, 1999;
Leach, 1979; Siegel, op. cit.). Todas estas pruebas poseen menos poder
que las pruebas paramétricas correspondientes, pero han demostrado ser
muy útiles como alternativas cuando no se considera apropiado el uso de
pruebas paramétricas.
4. El último
paso del ritual de la prueba de significación estadística consiste en
comparar el valor arrojado por la prueba estadística aplicada a los
datos, con el valor que en circunstancias comparables puede ocurrir por
azar con una probabilidad de 0.05 o 0.01, según el valor de la
probabilidad que se haya adoptado como nivel de significación
estadística. Si al consultar la tabla de los resultados de la prueba
estadística que pueden ocurrir por azar con diferentes niveles de
probabilidad, se observa que el resultado de la investigación tiene una
probabilidad de ocurrir por azar igual o menor que la probabilidad
adoptada como nivel de significación estadística, entonces no se
rechaza la hipótesis nula. Si, en cambio, el resultado de la
investigación tiene una probabilidad de ocurrir por azar mayor que la
probabilidad adoptada como nivel de significación estadística, entonces
no se rechaza la hipótesis nula. Esto es todo cuanto diría Fisher al
terminar la prueba de la hipótesis nula. Pearson & Neyman, en
cambio, incorporaron la idea de simetría entre el rechazo y la
confirmación de la hipótesis nula; es a partir de ellos que los libros
de texto de estadística han incorporado la expresión "se acepta la
hipótesis nula", pues para Fisher sólo era posible rechazar o no
rechazar la hipótesis nula.