Curva normal, también denominada
curva o campana de Gauss, en honor al matemático alemán Carl Friedrich Gauss,
es la distribución media o promedio de las características de una población,
cuya gráfica produce una figura tipo acampanada.
La curva normal es una distribución continua de frecuencia de rango infinito, como la que se obtiene cuando se persigue un objetivo sometido a desviación por error. Su importancia y su gráfica asociada se deben a la enorme frecuencia con que aparece en todo tipo de situaciones. Por ejemplo, cuando se busca dar en una diana, si se intenta acertar, la mayor parte de los disparos tenderán a acumularse en las franjas intermedias, tendiendo a ser menos frecuentes en el punto de mayor valor (centro de la diana) y en las zonas periféricas. El gráfico representa la distribución de los errores; la media o promedio es el objetivo, y la desviación típica indica la dispersión de los errores (la raíz cuadrada de la varianza). La distribución de muchas variables, como los caracteres morfológicos de individuos —altura, peso o longevidad—, caracteres fisiológicos, sociológicos, psicológicos o físicos y, en general, cualquier característica que se obtenga como suma de muchos factores, sigue la curva normal. Cuando se miden los valores de la inteligencia se asume que su valor promedio en una determinada población es 100 y que el valor de su desviación típica es 15.
En Europa, la distribución normal se conoce
también como ‘distribución gaussiana’, ‘laplaciana o gaussiana-laplaciana’, o
‘segunda ley de Laplace‘. En 1753 fue enunciada por el matemático francés
Abraham De Moivre como el caso límite de la distribución binomial. La
distribución de Poisson es un caso especial de la distribución binomial en
estadística.
Inferencia, en estadística,
proceso por el cual se deducen (infieren) propiedades o características de una
población a partir de una muestra significativa. Uno de los aspectos
principales de la inferencia es la estimación de parámetros estadísticos. Por ejemplo,
para averiguar la media, µ, de las
estaturas de todos los soldados de un reemplazo, se extrae una muestra y se
obtiene su media, x. La media de la
muestra (media muestral), x, es un
estimador de la media poblacional, µ.
Si el proceso de muestreo está bien realizado (es decir, la muestra tiene el
tamaño adecuado y ha sido seleccionada aleatoriamente), entonces el valor de µ, desconocido, puede ser inferido a
partir de x.
La inferencia siempre se realiza en términos
aproximados y declarando un cierto nivel de confianza. Por ejemplo, si en una
muestra de n = 500 soldados
se obtiene una estatura media x = 172 cm,
se puede llegar a una conclusión del siguiente tipo: la estatura media, µ, de todos los soldados del reemplazo
está comprendida entre 171 cm y 173 cm, y esta afirmación se realiza
con un nivel de confianza de un 90%. (Esto quiere decir que se acertará en el
90% de los estudios realizados en las mismas condiciones que éste y en el 10%
restante se cometerá error)
Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la precisión de la estimación dando un tramo más amplio que el formado por el de extremos 171, 173. Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo, entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor. Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra suficientemente grande.
Parámetro estadístico,
número que se obtiene a partir de los datos de una distribución estadística y
que sirve para sintetizar alguna característica relevante de la misma.
Conociendo los valores de algunos parámetros, aunque se desconozcan los datos
de la distribución, se adquiere una idea suficientemente clara de ella.
Los parámetros estadísticos correspondientes
a distribuciones con una variable se pueden clasificar del siguiente modo:
medidas de centralización, medidas de dispersión y medidas de posición.
Las medidas de centralización son parámetros
estadísticos alrededor de los cuales se distribuyen los datos de la
distribución y se toman como el centro de la misma. Las más importantes son la
media, la mediana y la moda.
Las medidas de dispersión son parámetros
estadísticos que indican cuánto se alejan del centro los valores de la
distribución. Las más importantes son la desviación típica y la varianza.
Las medidas de posición sirven para indicar
la proporción de individuos de la distribución que hay antes y después de un
determinado valor. Las más importantes son los cuartiles y los percentiles o
centiles.
Ciertos parámetros estadísticos indican si la
distribución es más o menos asimétrica (coeficiente de asimetría) y más o menos
picuda o aplastada (coeficiente de aplastamiento).
Existen también parámetros estadísticos
correspondientes a distribuciones bidimensionales (con dos variables), que
sirven para indicar la relación entre las variables: la covarianza, el
coeficiente de correlación y el coeficiente de regresión.
Dada una variable aleatoria X, se dice que
tiene distribución normal si tiene las siguientes características:
1. Es continua.
(A diferencia de una variable aleatoria discreta, una variable aleatoria continua es la que puede tomar cualquier
valor fraccionario en un rango determinado de valores)
2. Existen m y s tales que -µ < m < µ y s>0, y
3. La función de
densidad está dada por la siguiente expresión:
Donde m y s son la media
y la desviación estándar, respectivamente, de la variable normal e= 2,718 y p = 3,142
La
representación gráfica de la curva es la siguiente:
Tiene dos
puntos de inflexión :( m - s) y (m + s)
P (-µ< X< µ) = -µòµ f(x) dx =1
Propiedades:
1. Tiene dos parámetros: m y s. Son los parámetros
en el sentido de que el área bajo la curva de densidad normal es definida
completamente por los valores de m y s.
2. La parte
práctica de la función de densidad es el exponente del número e: -(x-m)2 /2 s2 porque
contiene un valor particular de la variable normal, X, y los parámetros de
distribución. Cuanto mayor es la desviación de un valor particular, x, con
respecto a m , tanto menor
(más negativo ) es el numerador de este exponente. Como el desvío está elevado
al cuadrado, dos valores distintos de X tienen la misma densidad de
probabilidad. Esto hace que la curva sea simétrica alrededor de m .
3. Por ser el
exponente de e negativo, cuanto mayor es el desvío de X, con respecto a m , tanto menor
es la densidad de probabilidad de X. Esto significa que ambas colas de la
distribución normal tienen densidad decreciente, porque cuanto más se aleja X
de m , tanto menor
es la altura de la curva normal. Cuando el valor de X es igual a m el exponente es 0, y la densidad , el mayor valor que puede asumir la densidad
normal, por lo tanto la distribución normal es unimodal, cuyo valor modal es
X= m .
4. La amplitud de
la variable normal es infinita, µ<X<µ su curva de
densidad no toca el eje de abcisas, es asintótica al eje X. En consecuencia,
cualquier intervalo tendrá una probabilidad positiva; pero la probabilidad de
un intervalo muy alejado de m es despreciablemente pequeña. Tanto es así,
que más del 99% de la probabilidad totales encuentra en el intervalo m ±3s. Esta
propiedad permite usar la distribución normal para aproximar otras
distribuciones cuya amplitud es finita.
5. Existe una
familia de curvas normales. Un cambio en el valor de la media desplaza toda la
curva hacia la derecha o hacia la izquierda, mientras que un cambio en el valor
de s altera la
forma de la curva sin moverla de su lugar.
6. Una
transformación lineal de una variable normal resulta en una nueva variable normal. Si X es normal, entonces Y= a+bX es
también una variable normal.
7. Si X1, X2, X3,
.....Xn son variables normales independientes, su suma S, también es una
variable normal.
Gráficamente:
La distribución normal es el más importante
modelo de probabilidad en análisis estadístico, por varios motivos.
En primer lugar, muchas variables aleatorias
continuas tienen distribución aproximadamente normal, por ejemplo, la estatura
de las personas, el diámetro de arandelas producidas para una pieza
determinada, el cociente intelectual de niños en edad escolar y otras tantas
variables. Los errores de mediciones repetidas, llamados errores al azar,
tienen distribución aproximadamente normal con media cero, porque toda
observación se considera que está constituida por una magnitud verdadera más un
error, unas veces positivo y otras negativo, que en promedio se anulan.
También es importante la distribución normal
porque sirve como una buena aproximación para otras distribuciones de
probabilidad, tanto discreta como continuas.
Además, en teoría estadística muchos problemas
se resuelven bajo el supuesto de distribución normal de variables, y en
estadística aplicada muchos métodos elaborados según la ley de probabilidad
normal dan resultados satisfactorios, aunque no se cumpla el supuesto de
distribución normal.
Por último, lo más importante es que muchas
estadísticas calculadas a partir de grandes muestras se aproximan a la
distribución normal como un límite, facilitando mucho el trabajo en inferencia
estadística.
Históricamente, data del siglo XVIII, cuando De Moivre la descubrió como límite de la distribución binomial. Pero recién a principios del siglo XIX Gauss comenzó a utilizarla.
Para calcular densidades de probabilidad
normal deben utilizarse integrales que no pueden ser reducidas a funciones
elementales.
Para la rapidez y eficacia en el trabajo
práctico, es indispensable el uso de la normal estandarizada, reducida o
típica.
Se dice que una distribución normal es de la
forma estándar si su media es cero y su variancia, y por consiguiente su
desviación estándar, es la unidad.
Se aplica la transformación Z=(x-m )/ s
La función de densidad es la siguiente
expresión
La transformación de X en Z produce el
efecto de reducir X a unidades en términos de desviaciones estándares alejadas
de la media. Es decir, dado un valor X, el correspondiente valor de Z indica
cuán alejada está X de su media m , y en qué dirección, en términos de su desviación estándar
s. Por ejemplo
Z= 1.8 significa que el valor de X está 1.8s a la derecha de m . En
cambio Z=-2.3 indica que X se encuentra
a una distancia –2.3 s a la
izquierda de m .
Esta propiedad de la variable normal
estándar permite calcular probabilidades normales para cualquier n(m , s), entonces Z=
(X-m )/ s es n(0,1).
Existen varias tablas distintas para la
distribución n(0,1). Se utilizarán dos de ellas: una es más adecuada para
cuando dado un valor de Z se necesita hallar la probabilidad correspondiente, y
la otra es más conveniente usarla cuando dada una probabilidad se requiere el
valor de Z correspondiente.
Algunos estudios indican que el rendimiento
de combustible de los autos compactos vendidos en un país determinado, se
distribuyen normalmente con una media de 8 km por litro (km/l) y una desviación
estándar de 2 km/l
a.
¿Qué porcentaje de autos compactos tiene un rendimiento 11.5
km/l o más?
b.
En épocas de escasez de fuentes de energía, los fabricantes
de automóviles que producen vehículos más económicos, en lo que se refiere al
consumo de combustible, tienen ventajas
competitivas con respecto a los demás productores. Si un fabricante desea
diseñar un auto compacto más económico que el 95 % de los autos compactos
actuales, ¿cuál debe ser el rendimiento del nuevo auto?
Solución: En este caso la variable es X: rendimiento, en
km/l.
X ~ n(8,2)
a) P(X>11.5)= P[Z(11.5 –8)/2]=
= P(Z>1.75)=
=P(Z>1.75)=
=P(Z>0)-P(0<Z<1.75)=
= 0.5-0.4599= 0.0401
b) P(X<x)=0.95
P(Z<z)=0.95 => z=1.645
X= zs+m =
1.645(2)+8=11029
La distribución binomial tiene dos límites,
según los valores de p, probabilidad de éxito en n pruebas independientes
Si se selecciona una muestra aleatoria de
tamaño n (grande) de una población finita cuyos elementos pertenecen a dos
categorías mutuamente excluyentes, una que contiene elementos que poseen cierta
característica y la otra que contiene elementos que no la poseen, el número de
éxitos ,X, tiene una distribución binomial si el muestreo se realiza con
reposición.
Entonces, X
tiene una media m=np y una
desviación estándar s= Önpq
Y la variable
Z= X-np
Önpq
se aproxima a
la distribución normal estandarizada cuando n tiende a infinito.
Las
aproximaciones son buenas cuando:
- np>5 cuando
p£ ½
- nq>5 cuando
p> ½
Cuando n es
relativamente pequeña, se pueden lograr aproximaciones satisfactorias
introduciendo un término de corrección por continuidad, tcc, cuyo valor es ½.
Como X es una
variable discreta, la probabilidad en un punto cualquiera de la variable es un
valor determinado, pero al aproximar con una variable continua, debe calcularse
la probabilidad de un intervalo que lo contiene. Viendo la gráfica siguiente:
n(np; Önpq)
x-
½ x+ ½
Se deduce que sumar o restar la constante ½ depende de la probabilidad que se debe determinar. Por ejemplo si se busca:
P(X<x) ó P(X³x) se resta ½
y z =[( x- ½ )-np]/ Önpq)
En cambio se
debe calcular
P(X>x) ó
P(X£³x) se suma ½ y
z =[( x+ ½ )-np]/ Önpq
CONCLUSIÓN:
El
desarrollo de la teoría de la probabilidad ha aumentado el alcance de las
aplicaciones de la estadística. Muchos conjuntos de datos se pueden aproximar,
con gran exactitud, utilizando determinadas distribuciones probabilísticas; los
resultados de éstas se pueden utilizar para analizar datos estadísticos. La
probabilidad es útil para comprobar la fiabilidad de las inferencias
estadísticas y para predecir el tipo y la cantidad de datos necesarios en un
determinado estudio estadístico.
AUTORES:
VILTE, Verónica
E-mail: vero_vilte@yahoo.com.ar
POSADAS, Verónica
S.S. de Jujuy – UCSE