DISTRIBUCIÓN NORMAL

INTRODUCCIÓN

 

Curva normal, también denominada curva o campana de Gauss, en honor al matemático alemán Carl Friedrich Gauss, es la distribución media o promedio de las características de una población, cuya gráfica produce una figura tipo acampanada.

 La curva normal es una distribución continua de frecuencia de rango infinito, como la que se obtiene cuando se persigue un objetivo sometido a desviación por error. Su importancia y su gráfica asociada se deben a la enorme frecuencia con que aparece en todo tipo de situaciones. Por ejemplo, cuando se busca dar en una diana, si se intenta acertar, la mayor parte de los disparos tenderán a acumularse en las franjas intermedias, tendiendo a ser menos frecuentes en el punto de mayor valor (centro de la diana) y en las zonas periféricas. El gráfico representa la distribución de los errores; la media o promedio es el objetivo, y la desviación típica indica la dispersión de los errores (la raíz cuadrada de la varianza). La distribución de muchas variables, como los caracteres morfológicos de individuos —altura, peso o longevidad—, caracteres fisiológicos, sociológicos, psicológicos o físicos y, en general, cualquier característica que se obtenga como suma de muchos factores, sigue la curva normal. Cuando se miden los valores de la inteligencia se asume que su valor promedio en una determinada población es 100 y que el valor de su desviación típica es 15.

 En Europa, la distribución normal se conoce también como ‘distribución gaussiana’, ‘laplaciana o gaussiana-laplaciana’, o ‘segunda ley de Laplace‘. En 1753 fue enunciada por el matemático francés Abraham De Moivre como el caso límite de la distribución binomial. La distribución de Poisson es un caso especial de la distribución binomial en estadística.

Inferencia, en estadística, proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de las estaturas de todos los soldados de un reemplazo, se extrae una muestra y se obtiene su media, x. La media de la muestra (media muestral), x, es un estimador de la media poblacional, µ. Si el proceso de muestreo está bien realizado (es decir, la muestra tiene el tamaño adecuado y ha sido seleccionada aleatoriamente), entonces el valor de µ, desconocido, puede ser inferido a partir de x.

 La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. Por ejemplo, si en una muestra de n = 500 soldados se obtiene una estatura media x = 172 cm, se puede llegar a una conclusión del siguiente tipo: la estatura media, µ, de todos los soldados del reemplazo está comprendida entre 171 cm y 173 cm, y esta afirmación se realiza con un nivel de confianza de un 90%. (Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y en el 10% restante se cometerá error)

 Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la precisión de la estimación dando un tramo más amplio que el formado por el de extremos 171, 173. Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo, entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor. Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra suficientemente grande.

 

Parámetro estadístico, número que se obtiene a partir de los datos de una distribución estadística y que sirve para sintetizar alguna característica relevante de la misma. Conociendo los valores de algunos parámetros, aunque se desconozcan los datos de la distribución, se adquiere una idea suficientemente clara de ella.

 Los parámetros estadísticos correspondientes a distribuciones con una variable se pueden clasificar del siguiente modo: medidas de centralización, medidas de dispersión y medidas de posición.

 Las medidas de centralización son parámetros estadísticos alrededor de los cuales se distribuyen los datos de la distribución y se toman como el centro de la misma. Las más importantes son la media, la mediana y la moda.

 Las medidas de dispersión son parámetros estadísticos que indican cuánto se alejan del centro los valores de la distribución. Las más importantes son la desviación típica y la varianza.

 Las medidas de posición sirven para indicar la proporción de individuos de la distribución que hay antes y después de un determinado valor. Las más importantes son los cuartiles y los percentiles o centiles.

 Ciertos parámetros estadísticos indican si la distribución es más o menos asimétrica (coeficiente de asimetría) y más o menos picuda o aplastada (coeficiente de aplastamiento).

 Existen también parámetros estadísticos correspondientes a distribuciones bidimensionales (con dos variables), que sirven para indicar la relación entre las variables: la covarianza, el coeficiente de correlación y el coeficiente de regresión.


DISTRIBUCIÓN NORMAL

 

    Dada una variable aleatoria X, se dice que tiene distribución normal si tiene las siguientes características:

1.  Es continua. (A diferencia de una variable aleatoria discreta, una variable aleatoria  continua es la que puede tomar cualquier valor fraccionario en un rango determinado de valores)

2.  Existen m y s tales que -µ < m < µ y s>0, y

3.  La función de densidad está dada por la siguiente expresión:

 

Cuadro de texto: 					     	              2
f(x)= P (X=x) = n(m,s) =  1      e  -1/2 [(x-m)/s]   
				s Ö 2p
 

 

 

 

 

 


Donde m y s son la media y la desviación estándar, respectivamente, de la variable normal e= 2,718 y p = 3,142

La representación gráfica de la curva es la siguiente:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Tiene dos puntos de inflexión :( m - s) y (m + s)

P (-µ< X< µ) = -µòµ    f(x) dx =1

Propiedades:

 

1.  Tiene  dos parámetros: m y s. Son los parámetros en el sentido de que el área bajo la curva de densidad normal es definida completamente por los valores de m y s.

2.  La parte práctica de la función de densidad es el exponente del número e:  -(x-m)2 /2 s2            porque contiene un valor particular de la variable normal, X, y los parámetros de distribución. Cuanto mayor es la desviación de un valor particular, x, con respecto a m , tanto menor (más negativo ) es el numerador de este exponente. Como el desvío está elevado al cuadrado, dos valores distintos de X tienen la misma densidad de probabilidad. Esto hace que la curva sea simétrica alrededor de m .

3.  Por ser el exponente de e negativo, cuanto mayor es el desvío de X, con respecto a m , tanto menor es la densidad de probabilidad de X. Esto significa que ambas colas de la distribución normal tienen densidad decreciente, porque cuanto más se aleja X de m , tanto menor es la altura de la curva normal. Cuando el valor de X es igual a m  el exponente es 0, y la densidad , el mayor valor que puede asumir la densidad normal, por lo tanto la distribución normal es unimodal, cuyo valor modal es X=  m .

4.  La amplitud de la variable normal es infinita, µ<X<µ su curva de densidad no toca el eje de abcisas, es asintótica al eje X. En consecuencia, cualquier intervalo tendrá una probabilidad positiva; pero la probabilidad de un intervalo muy alejado de m  es despreciablemente pequeña. Tanto es así, que más del 99% de la probabilidad totales encuentra en el intervalo m ±3s. Esta propiedad permite usar la distribución normal para aproximar otras distribuciones cuya amplitud es finita.

5.  Existe una familia de curvas normales. Un cambio en el valor de la media desplaza toda la curva hacia la derecha o hacia la izquierda, mientras que un cambio en el valor de s altera la forma de la curva sin moverla de su lugar.

6.  Una transformación lineal de una variable normal resulta en una nueva variable  normal. Si X es normal, entonces Y= a+bX es también una variable normal.

7.  Si X1, X2, X3, .....Xn son variables normales independientes, su suma S, también es una variable normal.

 


Gráficamente:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


IMPORTANCIA DE LA DISTRIBUCIÓN NORMAL

 

    La distribución normal es el más importante modelo de probabilidad en análisis estadístico, por varios motivos.

 

    En primer lugar, muchas variables aleatorias continuas tienen distribución aproximadamente normal, por ejemplo, la estatura de las personas, el diámetro de arandelas producidas para una pieza determinada, el cociente intelectual de niños en edad escolar y otras tantas variables. Los errores de mediciones repetidas, llamados errores al azar, tienen distribución aproximadamente normal con media cero, porque toda observación se considera que está constituida por una magnitud verdadera más un error, unas veces positivo y otras negativo, que en promedio se anulan.

    También es importante la distribución normal porque sirve como una buena aproximación para otras distribuciones de probabilidad, tanto discreta como continuas.

 

    Además, en teoría estadística muchos problemas se resuelven bajo el supuesto de distribución normal de variables, y en estadística aplicada muchos métodos elaborados según la ley de probabilidad normal dan resultados satisfactorios, aunque no se cumpla el supuesto de distribución normal.

 

    Por último, lo más importante es que muchas estadísticas calculadas a partir de grandes muestras se aproximan a la distribución normal como un límite, facilitando mucho el trabajo en inferencia estadística.

 

    Históricamente, data del siglo XVIII, cuando De Moivre la descubrió como límite de la distribución binomial. Pero recién a principios del siglo XIX Gauss comenzó a utilizarla.

 

 

DISTRIBUCIÓN NORMAL ESTANDARIZADA

 

    Para calcular densidades de probabilidad normal deben utilizarse integrales que no pueden ser reducidas a funciones elementales.

 

    Para la rapidez y eficacia en el trabajo práctico, es indispensable el uso de la normal estandarizada, reducida o típica.

 

    Se dice que una distribución normal es de la forma estándar si su media es cero y su variancia, y por consiguiente su desviación estándar, es la unidad.

 

    Se aplica la transformación Z=(x-m )/ s

 


    La función de densidad es la siguiente expresión

 

 

 

 

 

 


    La transformación de X en Z produce el efecto de reducir X a unidades en términos de desviaciones estándares alejadas de la media. Es decir, dado un valor X, el correspondiente valor de Z indica cuán alejada está X de su media m , y en qué dirección, en términos de su desviación estándar s. Por ejemplo Z= 1.8 significa que el valor de X está 1.8s a la derecha de m . En cambio  Z=-2.3 indica que X se encuentra a una distancia –2.3 s a la izquierda de m .

 

    Esta propiedad de la variable normal estándar permite calcular probabilidades normales para cualquier n(m , s), entonces Z= (X-m )/ s es n(0,1).

 

USO DE LAS TABLAS

 

    Existen varias tablas distintas para la distribución n(0,1). Se utilizarán dos de ellas: una es más adecuada para cuando dado un valor de Z se necesita hallar la probabilidad correspondiente, y la otra es más conveniente usarla cuando dada una probabilidad se requiere el valor de Z correspondiente.

 

EJEMPLO DE APLICACIÓN

 

    Algunos estudios indican que el rendimiento de combustible de los autos compactos vendidos en un país determinado, se distribuyen normalmente con una media de 8 km por litro (km/l) y una desviación estándar de 2 km/l

a.      ¿Qué porcentaje de autos compactos tiene un rendimiento 11.5 km/l o más?

b.     En épocas de escasez de fuentes de energía, los fabricantes de automóviles que producen vehículos más económicos, en lo que se refiere al consumo de combustible, tienen  ventajas competitivas con respecto a los demás productores. Si un fabricante desea diseñar un auto compacto más económico que el 95 % de los autos compactos actuales, ¿cuál debe ser el rendimiento del nuevo auto?

 

Solución: En este caso la variable es X: rendimiento, en km/l.

                      X ~ n(8,2)

a) P(X>11.5)= P[Z(11.5 –8)/2]=

= P(Z>1.75)=

=P(Z>1.75)=

=P(Z>0)-P(0<Z<1.75)=

= 0.5-0.4599= 0.0401

 

b) P(X<x)=0.95

P(Z<z)=0.95 => z=1.645

X= zs+m = 1.645(2)+8=11029

 

 

APROXIMACIÓN BINOMIAL-NORMAL

 

    La distribución binomial tiene dos límites, según los valores de p, probabilidad de éxito en n pruebas independientes

 

 

 

 

 

 

 


    Si se selecciona una muestra aleatoria de tamaño n (grande) de una población finita cuyos elementos pertenecen a dos categorías mutuamente excluyentes, una que contiene elementos que poseen cierta característica y la otra que contiene elementos que no la poseen, el número de éxitos ,X, tiene una distribución binomial si el muestreo se realiza con reposición.

   

Entonces, X tiene una media m=np y una desviación estándar  s= Önpq

Y la variable Z= X-np

                    Önpq

 

se aproxima a la distribución normal estandarizada cuando n tiende a infinito.

Las aproximaciones son buenas cuando:

-     np>5 cuando p£ ½

-     nq>5 cuando p> ½

Cuando n es relativamente pequeña, se pueden lograr aproximaciones satisfactorias introduciendo un término de corrección por continuidad, tcc, cuyo valor es ½.

 

Como X es una variable discreta, la probabilidad en un punto cualquiera de la variable es un valor determinado, pero al aproximar con una variable continua, debe calcularse la probabilidad de un intervalo que lo contiene. Viendo la gráfica siguiente: n(np; Önpq)

 

 

 

 

 

 

 

 

 

 

 

 


                                                                           x- ½           x+ ½

 

Se deduce que sumar o restar la constante ½ depende de la probabilidad que se debe determinar. Por ejemplo si se busca:

P(X<x) ó P(X³x) se resta ½    y     z =[( x- ½ )-np]/ Önpq)

En cambio se debe calcular

P(X>x) ó P(X£³x) se suma  ½  y    z =[( x+ ½ )-np]/ Önpq

 

 

CONCLUSIÓN:

El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para analizar datos estadísticos. La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.

 

 

 

AUTORES:

 

VILTE, Verónica   

E-mail:  vero_vilte@yahoo.com.ar

POSADAS, Verónica

 

S.S. de Jujuy – UCSE

CONTINUAR