RECOLECCION DE DATOS

 

INTRoDUCCIÓN

 

Sistemas de colas

 

Se pueden utilizar sistemas de colas de espera para modelar procesos en los cuales los clientes van llegando, esperan su turno para recibir el servicio, reciben el servicio y luego se marchan. Ejemplos de sistemas de colas se encuentran en las cajas registradoras de los supermercados, en las salas de espera de por atención médica, etc. Los sistemas de colas de espera pueden definirse mediante cinco componentes:

 

ü            La función densidad de probabilidad del tiempo entre llegadas.

ü            La función densidad de probabilidad del tiempo de servicio.

ü            El número de servidores.

ü            La disciplina de ordenamiento en las colas.

ü            El tamaño máximo de las colas.

 

Conviene notar explícitamente que solo estamos considerando sistemas con una infinita cantidad de clientes.

La densidad de probabilidad de tiempo entre llegadas describe el intervalo de tiempo entre llegadas consecutivas. Podríamos imaginarnos que contratamos a alguna persona para observar la llegada de los clientes. A cada llegada, el observador registra el tiempo transcurrido desde que ocurrió la llegada previa. Después de que hubiese transcurrido un tiempo suficientemente largo de estar registrando las muestras, las listas de números podría clasificarse y agruparse: es decir tantos tiempos entre llegadas de 0.1 seg. y 0.2 seg., etc. Esta densidad de probabilidad caracteriza el proceso de llegadas.

 

La cantidad de servidores no necesita explicación. Por ejemplo, hay bancos que implementan un sistema con una sola cola,  donde al liberarse un cajero, el cliente que se encuentra en el frente de la cola se dirige a la caja (sin importar el servicio en particular requerido por este cliente). Este sistema se denomina monocola-multicanal/multiservidor. En otros bancos cada cajero tendrá su cola particular. Aquí tendremos un conjunto de colas independientes de un solo servidor.

 

 

La disciplina de ordenamiento de una cola describe el orden según el cual los clientes van siendo tomados de la cola de espera.

 Nos centraremos , aquí, en el estudio de sistemas de colas (infinitas en capacidad de clientes), con un solo servidor y una disciplina de el primero en llegar se le despacha primero. Para estos sistemas se utilizan ampliamente, en la literatura sobre colas de espera, la notación A/B/m, en donde A es la densidad de probabilidad de tiempo entre llegadas, B es la densidad de probabilidad de tiempo de servicio y m es el número de servidores. Las densidades de probabilidad de A y B son escogidas a partir del conjunto:

 

 

ü            M – densidad de probabilidad exponencial (M significa Markov)

ü            D – todo los clientes tiene el mismo valor (D significa deterministico)

ü            G – general (es decir, densidad de probabilidad arbitraria)

 

La hipótesis de utilizar una probabilidad de tiempo entre llegadas exponencial es totalmente razonable para cualquier sistema que maneja una cantidad de clientes independientes. En semejantes condiciones, la probabilidad de que lleguen exactamente n clientes, durante un intervalo de longitud t, estará dado por la ley de Poisson:


 


Donde l es la tasa de llegadas por unidad de tiempo, con el número esperado de llegadas durante t igual a lt.

 

 

Recolección y comprobación de datos.

 

        La selección de un método específico para analizar una situación de espera, ya sea analíticamente o por simulación, está determinada principalmente por las distribuciones de llegadas y tiempos de servicio.

        En la práctica, la determinación de estas distribuciones acarrea que se observe el sistema durante su operación y que se registre datos pertinentes. Normalmente surgen dos interrogantes referentes a la recolección de los datos que se registran:

1.       ¿Cuándo observar el sistema?

2.       ¿Cómo recolectar los datos?

La mayoría de las situaciones de espera tienen lo que se denominan períodos ocupados y durante éstos aumenta la tasa de llegadas del sistema en comparación con otras horas del día. Una variación común de las tasas de llegadas se ve según se muestra en la siguiente figura:


 

 


Por ejemplo el tránsito de entrada y salida en una autopista principal que conduce a una ciudad alcanza su nivel pico durante horas de prisa  alrededor de las 8:00 A.M y las 5:00 P.M. En situaciones como ésta será necesario recolectar los datos durante los períodos ocupados.

La recolección de datos referentes a llegadas y salidas se puede realizar en una o dos formas:

1.       Midiendo la hora del reloj entre llegadas (salidas) sucesivas para obtener los tiempos entre llegadas (servicio).

2.       Contando el número de llegadas (salidas) durante una unidad de tiempo seleccionada, por ejemplo, una hora.

El primer  método está diseñado para producir las distribuciones de tiempo entre llegadas, o de servicio.

El segundo, genera la distribución del número de llegadas o salidas.

En la mayoría de los modelos de espera analíticos, podemos describir los procesos de entrada y salida a través del número de eventos (llegadas o salidas) o través del tiempo entre eventos (entre llegada o tiempos de servicio).

El mecanismo para recolectar datos puede estar basado en el uso de una  técnica de cronómetro o un dispositivo de registro automático, éste resulta esencial cuando las llegadas ocurren a una tasa elevada, ya que la aplicación de una técnica manual en este caso probablemente causará la destrucción de los datos.

Después de recolectar los datos en la forma descrita, se debe resumir la información en forma significativa que nos permita determinar la distribución asociada.

Esto se logra normalmente resumiendo las observaciones en la forma de un histograma de frecuencias. Después podemos sugerir una distribución teórica que se ajuste a los datos observados, por ejemplo, Poisson, exponencial o normal.

Después se puede aplicar la prueba estadística fin de probar  “la bondad del ajuste” de la distribución propuesta.

Si utilizamos un dispositivo automático para registrar el tránsito en un estacionamiento, el dispositivo registrará el tiempo u hora a la que llega un auto al estacionamiento en una escala de tiempo continuo, partiendo desde un dato cero. Obtendremos una tabla (tabla 1) que muestre un registro común de

tiempos de llegada (en minutos) de los primeros n (n = 60) automóviles en el lapso de cinco horas. Estos datos se pueden emplear para construir el número de llegadas. Primero se debe seleccionar una unidad de tiempo, aquí elegimos

una hora como la unidad de tiempo de manera que la distribución representará el número de llegadas, y nos encontramos con que por ejemplo:

-         hay catorce llegadas durante la primera hora,

-         doce llegadas en la segunda hora,

-         catorce llegadas en la tercera hora,

-         ocho llegadas en la cuarta hora,

-         y doce llegadas en la quinta hora.

Con estos datos podemos concluir que en las cinco horas las llegadas por hora son:

-         ocho con frecuencia uno,

-         doce con frecuencia dos,

-         catorce con frecuencia dos

 

Tabla 1:

Llegada

Tiempo de llegada (min.)

Llegada

Tiempo de llegada (min.)

Llegada

Tiempo de llegada (min.)

Llegada

Tiempo de llegada (min.)

1

5.2

16

67.6

31

132.7

46

227.8

2

6.7

17

69.3

32

142.3

47

233.5

3

9.1

18

78.6

33

145.2

48

239.8

4

12.5

19

86.6

34

154.3

49

243.6

5

18.9

20

91.3

35

155.6

50

250.5

6

22.6

21

97.2

36

166.2

51

255.8

7

27.4

22

97.9

37

169.2

52

256.5

8

29.9

23

111.5

38

169.5

53

256.9

9

35.4

24

116.7

39

172.4

54

270.3

10

35.7

25

117.3

40

175.3

55

275.1

11

44.4

26

118.2

41

180.1

56

277.1

12

47.1

27

124.1

42

188.8

57

278.1

13

47.5

28

127.4

43

201.2

58

283.6

14

49.7

29

127.6

44

218.4

59

299.8

15

67.1

30

127.8

45

219.9

60

300.0

 

Imagínese ahora que tenemos un conjunto de datos completo, y que se observa que un esquema del número de llegadas por hora, n, tiene la cuenta de frecuencia fn como se muestra en la tabla 2 (no podemos reproducir un conjunto de datos completo aquí debido a la limitación de espacio). Nuestro objetivo consiste en probar si estos datos provienen de una distribución teórica específica mediante el uso de la prueba de ji-cuadrada de la bondad del ajuste.

Tabla 2.

N

0

1

2

3

4

5

6

7

8

Fn

0

0

0

0

0

1

0

3

3

N

9

10

11

12

13

14

15

16

>=17

Fn

6

5

9

10

11

8

6

1

0

Supóngase que quisiéramos probar la hipótesis de que la tabla que muestra las llegadas y las frecuencias de cada una de ellas provino de una

distribución de Poisson. La prueba de la bondad del ajuste compara la frecuencia observada fn con la frecuencia esperada que se generaría si se supone la distribución de  Poisson.

Para determinar la frecuencia estimada, primero estimamos la media  ñ de la distribución de Poissson a partir de la muestra.


Esto está dado por:



El paso que sigue consiste en determinar las probabilidades Pn para una distribución de Poisson con la media obtenida.


Cuando conocemos el total de las observaciones, la frecuencia esperada (en) se puede obtener como:

 


Después de la determinación de en  se obtiene así el valor de la ji cuadrada como sigue:

 


 

 


Como método práctico, cada en debe ser igual cuando menos a 5.

Si no deben combinarse  valores sucesivos de en para cumplir esta condición. 

Por ejemplo:

n

fn

en

0 – 4

0

 

5

1

11.3

6

0

 

7

3

 

8

3

 

 

Por lo tanto, en la tabla 3, para n = 0 a 8 deben combinarse para producir una frecuencia teórica de 11-3. Así mismo, en para toda n mayor que 14 debe combinarse para generar una frecuencia teórica de 12-42. La tabla 3 muestra ahora como se calcula el valor c2.

 


TABLA 3 

 

 

 

 

 


0 - 4

0

 

 

 

5

1

 

 

 

6

0

7

11.3

1.636

7

3

 

 

 

8

3

 

 

 

9

6

 

5.99

0.000

10

5

 

6.97

0.557

11

9

 

7.38

0.356

12

10

 

7.17

1.117

13

11

 

6.43

3.248

14

8

 

5.34

1.325

15

6

 

 

 

16

1

7

12.42

2.365

>17

0

 

 

 

Totales

63

 

63

10.6= valor

 

 

        Ahora comparamos el valor c2 con el valor critico de la distribución c2 .

Para lograrlo, necesitamos especificar el nivel de significancia a y los grados de libertad v . el valor de v para la prueba de la bondad del ajuste esta dado por :

               

 

        v = (Nº de intervalos de clases) – (Nº de parámetros estimados)  – 1

 

En nuestro ejemplo tenemos 8 intervalos de clase (recuérdese que cada intervalo de clase debe incluir cuando menos cinco observaciones). Como determinamos la media de la distribución de Poisson a partir de los datos de la muestra obtenemos por tanto

 

                       v = 8 – 1 – 1 = 6 (grados de libertad)

 

Mediante el uso de un nivel de significancia a = 0.05, las tablas c2 producen el valor crítico c26 (0.05) = 12.592.

 

La aplicación de la c2  recomienda se acepte la hipótesis en el nivel de significancia especificado a si el valor c2 =10.6 <= c2y (a)=12.592 como esta condición se cumple en nuestro ejemplo, aceptamos la hipótesis de que nuestra muestra provino de una distribución de Poisson con media de 11.65 llegadas por hora.



Otro ejemplo:

 


n

0

1

2

3

4

5

6

Frecuencia fn

10

31

40

20

10

4

6

 

Los datos indican que durante el período de observación, se observaron:

-               0 llegadas por hora 10 veces

-               1 llegada por hora 31 veces

-               2 llegadas por hora 40 veces

-               3 llegadas por hora 20 veces

-               4 llegadas por hora 10 veces

-               5 llegadas por hora 4 veces

-               6 llegadas por hora 6 veces

 


Sea ñ y S²n la media y la varianza de n; entonces dada

Tenemos:


 

 

 


 

 


 

 


Concluimos que:

 

Como ñ=2.207 @ S²n=2.147  existe una “buena” oportunidad de que el proceso de llegadas siga una distribución de Poisson con la media de 2,2 llegadas por hora.

El siguiente paso evidente consiste en reforzar esta conclusión ejecutando la prueba de la bondad del ajuste como se muestra en el ejemplo anterior.

 


Cómo saber si los tiempos entre llegadas y los tiempos de servicio son exponenciales.

 


¿Cómo podemos determinar si los datos reales son consistentes con la hipótesis de que son exponenciales los tiempos entre llegadas y de servicio? Por ejemplo, supongamos que se han observado los tiempos entre llegadas t1, t2, t3,... , tn. Se puede demostrar que una estimación razonable de frecuencia de llegada l  está dada por:

 

 


Dada l podemos determinar si  t1, t2, t3, ..., tn son consistentes con la hipótesis de que los tiempos entre llegadas están gobernados por una distribución

 

exponencial con frecuencia o rapidez l y densidad l e . El modo más fácil de probar esta hipótesis es mediante una prueba l de bondad de ajuste para determinar si es razonable llegar a la conclusión de que t1, t2, t3, ..., tn representan una muestra aleatoria de una variable aleatoria con una función de densidad f(t) dada.

Para comenzar, descomponemos el conjunto de tiempos posibles entre llegadas en k categorías. Suponiendo que f(t) gobierna los tiempos entre llegadas, determinamos el número de los ti que esperamos que caigan en la categoría i. A este número lo llamamos ei. A continuación contamos cuántas de las ti observadas esaban realmente en la categoría i. A este número lo llamamos oi. Luego usamos la siguiente fórmula para calcular el valor observado de la distribución x cuadrada, que se representa x2(obs):

 

 


El valor de x2(obs) sigue una distribución x cuadrada con k – 2 grados de libertad.

 


Si x2(obs) es pequeña, es razonable suponer que las ti son muestras de una variable aleatoria cuya función de densidad es f(t). Después de todo, un ajuste perfecto tendría oi = ei para i = 1, 2, ..., k lo cual daría un valor de x2 igual a cero. Si x2(obs) es grande, es razonable que las ti no representan una muestra aleatoria con densidad f(t).


De modo más formal, nos interesa probar las siguientes hipótesis:

 

H0: t1, t2, t3, ..., tn es muestra aleatoria con densidad f(t).

Ha: t1, t2, t3, ..., tn no es muestra aleatoria cuya función de  densidad es f(t).


Dado un valor de x, el error tipo I deseado, aceptamos a H0 si

 



Y aceptaremos a Ha si

 


En un caso, r es el número de parámetros que se debe calcular para especificar la distribución del tiempo entre llegadas. Así, si los tiempos entre llegadas son exponenciales, r = 1 y sis siguen una distribución normal, o una Erlang, r = 2. Cuando se escogen las cotas de las k categorías, se aconseja asegurarse de que cada ei sea cuando menos 5, que k £ 30 y que las ei se mantengan tan iguales como sea posible.


Para probar si los tiempos de servicio están distribuidos  exponencialmente, tan sólo aplicamos el método anterior a los tiempos de servicio observados, s1, s2,... ,sn. Comenzamos por obtener una estimación, m, para la rapidez del servicio actual, m mediante

 

 


Luego empleamos la prueba x2 para ver si es razonable suponer que los tiempos observados de servicio son observaciones de una distribución exponencial.

 

 

Qué hacer si no son exponenciales los tiempos entre llegadas o los servicio.

 

Suponga que la prueba x cuadrada ha indicado que el tiempo entre llegadas o el de servicio no son exponenciales. Una distribución no exponencial se puede aproximar con frecuencia mediante una distribución Erlang.

Si T es una distribución de Erlang con parámetro de rapidez km y parámetro de forma k, entonces:


 

 



Para k > 1 vemos que para cualquier distribución de Erlang,


 


Si los datos de la muestra indican que la condición antes citada se cumple, se puede ajustar una distribución de Erlang a los tiempos de servicio observados, o a los de llegada observados, mediante el procedimiento siguiente:

 

Paso 1: Se ha observado los tiempos de servicio t1, t2, ...,tn. Se estima

E(T) mediante


 

 


Y var T mediante


 

 

 


Paso 2: Se escoge m de tal modo que E(T) = `t  . Esto hace que


 

 


Paso 3: Se supone que


 


y se encuentra el valor de parámetro de forma k. Debe ser un entero positivo y debe hacer que var T se acerque lo máximo a s2. Entonces, la distribución de Erlang ajustada debe tener al parámetro de rapidez km y al parámetro de forma k.

        Si los tiempos entre llegadas y los tiempos de servicio de los sistemas de colas son distribuciones de Erlang, el cálculo de las probabilidades de estado estable es muy difícil. Por fortuna, Hillier y Yu (1981)  tabularon las probabilidades de estado estable para diversos sistemas de colas.  En una tabla,


 


Donde s es el número de servidores y m  es el número promedio de los servicios terminados por unidad de tiempo.

Terminaremos el tema haciendo notar que muchos casos reales de colas  pueden no apegarse a un modelo analítico que proporcione valores para cantidades de interés como W  y L. En estos casos uno debe recurrir a usar tablas como las de Hillier y Yu, o recurrir a simulaciones.

 

Cómo reconocer una distribución de Poisson en la práctica.

 

La distribución de Poisson es muy importante en la elaboración de modelos de espera porque describe muchas situaciones del mundo real. Aunque hemos demostrado las condiciones matemáticas en las que se aplica la distribución de Poisson, la presentación que se ha hecho es bastante abstracta. Lo que necesitamos es traducir estas condiciones en reglas prácticas que se puedan emplear para reconocer si las llegadas y/o salidas siguen un proceso de Poisson.

Naturalmente, existen métodos estadísticos que están diseñados para demostrar la hipótesis de que un conjunto de datos dado  sigue cierta probabilidad. El más óptimo de estos métodos que se conoce es la prueba ji cuadrada de la bondad del ajuste. Está basada en una comparación entre datos observados y teóricos, donde los datos teóricos se obtienen a partir de la distribución teórica que se prueba. Aunque los detalles del método se darán como parte de las aplicaciones de modelos de líneas de espera, deseamos presentar aquí dos reglas imperfectas que nos pueden dar una idea acerca de si las llegadas o salidas de una situación real siguen la distribución de Poisson:

 

1.   Si ya existe la situación de espera, obsérvese la operación un momento. ¿Parecen ocurrir en forma aleatoria las llegadas (salidas) sucesivas o existe un patrón de llegadas (salidas)? Si son aleatorias, existe una buena probabilidad de que el proceso siga una distribución de Poisson.

2.   Recoléctense observaciones acerca del número de llegadas (salidas) de clientes registrando el número de clientes que llegan (salen) durante intervalos de tiempo iguales adecuados (por ejemplo, cada hora). Después de recolectar una cantidad “suficiente” de datos, determínese la media y la varianza. Si la distribución es de Poisson, su media y su varianza  de la muestra serán “aproximadamente” iguales (excepto, desde luego, el error en el muestreo). Esta es una propiedad única de la distribución de Poisson entre todas las distribuciones discretas que se conocen comúnmente.

 

 

 

 

 

 

 

Ejemplo del pañolero

 

Tenemos un depósito donde los obreros llegan a buscar sus elementos de trabajo.

 

Para que un sistema sea Poisson necesito:

 

ü            Independencia de los sucesos

ü            Estabilidad del medio

 

     El factor de Uso y

     Si y = 1  el modelo es determinístico

    Si  y < 1  el modelo es aleatorio

 

Datos:

ü            120 obreros

ü            Hay dos pañoleros

ü            El proceso es Poisson por que cada obrero llega al depósito en busca de elementos distintos.

 

Pasos para definir el factor de Uso Y 

 

1)Arribo del cliente

2)Tiempo de despacho (td)

3)Determinar  j  (Nº mínimo de servidores)

1a) Definir unidad de tiempo

     q individuos / 1h

1b) Tomar muestras

Ø            La media es constante por que el sistema es permanente y estable.

Ø            Determina el tamaño de la muestra (no mas de 100) en periodos de 3’

Ø            Agrupamos la muestra

Ver tabla 4

TABLA 4

 

X

Veces

fx

Ex

s2

0

20

0.20

0

0.529

1

20

0.20

0.20

0.2535

2

40

0.40

0.80

0.027

3

15

0.15

0.45

0.1225

4

5

0.05

0.20

0.578

 

 

 

x=1.65

x=1.51

 

 

 

Media = 1.65

s2 = 1.51

 

l = 1.65 * 20 = 33 clientes (tasa de arribo).

 


2) Tiempo de despacho medio

              

               td = 1.7 minutos (tiempo que tarda en ser atendido)

 

               m = 1 cliente   *  60 min     =   35.29 cli / hs

                     1.7 min         1 h

 

3) determinar factor de tráfico j

                      

                       j =    l      =  0.93 

                                         m

 

Conclusión :

Cómo la media » s2 existe una buena oportunidad de que el proceso de llegada siga una distribución POISSON.

 

 

PROGRAMAS

 

 

 

 

AUTOR

 

NEDER, Jorge  

Mail   jorge_neder @ latinmail.com        

GALVAN, Jacqueline

UCSE

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

CONTINUAR