grados de libertad estadistica
grados de libertad estadistica

Grados de libertad estadistica:

Hace aproximadamente un año, un lector me preguntó si podía tratar de explicar los grados de libertad en las estadísticas. Desde entonces, he estado dando vueltas alrededor de ese pedido con mucha cautela, como si fuera una especie de bestia salvaje que no estoy seguro de poder derribar con seguridad.

Los grados de libertad no son fáciles de explicar. Aparecen en muchos contextos diferentes en estadísticas, algunas avanzadas y complicadas. En matemáticas, se definen técnicamente como la dimensión del dominio de un vector aleatorio.

Pero no entraremos en eso. Debido a que los grados de libertad generalmente no son algo que necesite comprender para realizar un análisis estadístico, a menos que sea un estadístico investigador o alguien que esté estudiando teoría estadística.

Y, sin embargo, las mentes inquisitivas quieren saber. Entonces para los aventureros y los curiosos, he aquí algunos ejemplos que proporcionan una esencia básica de su significado en las estadísticas.

La libertad de variar

Primero, olvídate de las estadísticas. Imagina que eres una persona amante de la diversión a la que le encanta usar sombreros. No te puede importar menos qué grado de libertad sea. Usted cree que la variedad es la sal de la vida.

Lamentablemente, tienes limitaciones. Tienes solo 7 sombreros. Sin embargo, desea usar un sombrero diferente todos los días de la semana.

El primer día, puedes usar cualquiera de los 7 sombreros. El segundo día, puede elegir entre los 6 sombreros restantes, el día 3 puede elegir entre 5 sombreros, y así sucesivamente.

Cuando llegue el día 6, todavía puedes elegir entre 2 sombreros que no has usado esa semana. Pero después de elegir tu sombrero para el día 6, no tienes opción para el sombrero que usas el día 7. Debes ponerte el sombrero que queda. ¡Tuviste 7-1 = 6 días de libertad con “sombrero”, en los que el sombrero que llevas puede variar!

Esa es una especie de idea detrás de los grados de libertad en las estadísticas. Los grados de libertad a menudo se definen ampliamente como la cantidad de “observaciones” (fragmentos de información) en los datos que pueden variar libremente al estimar los parámetros estadísticos.

Grados de libertad: prueba t de 1 muestra

Ahora imagina que no te gustan los sombreros. Estás en el análisis de datos.

Tienes un conjunto de datos con 10 valores. Si no está calculando nada, cada valor puede tomar cualquier número, ¿verdad? Cada valor es completamente libre de variar.

Pero supongamos que desea probar la media poblacional con una muestra de 10 valores, utilizando una prueba t de 1 muestra. Ahora tiene una restricción: la estimación de la media. ¿Cuál es esa restricción, exactamente? Por definición de la media, la siguiente relación debe mantenerse: La suma de todos los valores en los datos debe ser igual a n x mean, donde n es el número de valores en el conjunto de datos.

Entonces, si un conjunto de datos tiene 10 valores, la suma de los 10 valores debe ser igual a la media x 10. Si la media de los 10 valores es 3.5 (puede elegir cualquier número), esta restricción requiere que la suma de los 10 valores deba igual a 10 x 3.5 = 35.

Con esa restricción, el primer valor en el conjunto de datos puede variar libremente. Sea cual sea su valor, aún es posible que la suma de los 10 números tenga un valor de 35. El segundo valor también es libre de variar, porque cualquiera que sea el valor que elijas, aún permite la posibilidad de que la suma de todos los valores es 35.

De hecho, los primeros 9 valores podrían ser cualquier cosa, incluidos estos dos ejemplos:

34, -8.3, -37, -92, -1, 0, 1, -22, 99
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9

Pero para tener todos los 10 valores sumados a 35, y tienen una media de 3.5, el 10mo valor no puede variar. Debe ser un número específico:

34, -8.3, -37, -92, -1, 0, 1, -22, 99 —–> 10TH valor debe ser 61.3
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 —-> 10TH valor debe ser 30.5

Por lo tanto, tienes 10 – 1 = 9 grados de libertad. No importa qué tamaño de muestra use o qué valor medio use; el último valor de la muestra no es libre de variar. Usted termina con n – 1 grados de libertad, donde n es el tamaño de la muestra.

Otra forma de decir esto es que el número de grados de libertad es igual al número de “observaciones” menos el número de relaciones requeridas entre las observaciones (por ejemplo, el número de estimaciones de parámetros). Para una prueba t de 1 muestra, se gasta un grado de libertad estimando la media, y la variabilidad de estimación de n – 1 grados de libertad restante.

Observe que para tamaños de muestra pequeños (n), que corresponden a grados de libertad más pequeños (n – 1 para la prueba t de 1 muestra), la distribución t tiene colas más gruesas. Esto se debe a que la distribución t se diseñó especialmente para proporcionar resultados de prueba más conservadores al analizar muestras pequeñas (como en la industria cervecera). A medida que aumenta el tamaño de la muestra (n), aumenta el número de grados de libertad y la distribución t se aproxima a una distribución normal.

Grados de libertad: Chi-Square Test of Independence

Veamos otro contexto. Una prueba de independencia chi-cuadrado se usa para determinar si dos variables categóricas son dependientes. Para esta prueba, los grados de libertad son el número de celdas en la tabla bidireccional de las variables categóricas que pueden variar, dadas las restricciones de los totales marginales de fila y columna.Así que cada “observación” en este caso es una frecuencia en Una célula.

 

It doesn’t matter what values you use for the row and column marginal totals. Once those values are set, there’s only one cell value that can vary (here, shown with the question mark—but it could be any one of the four cells). Once you enter a number for one cell, the numbers for all the other cells are predetermined by the row and column totals. They’re not free to vary. So the chi-square test for independence has only 1 degree of freedom for a 2 x 2 table.

Similarly, a 3 x 2 table has 2 degrees of freedom, because only two of the cells can vary for a given set of marginal totals.