jueves, 15 de abril de 2010

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS.

Sean X11, X12, … X1n1, una muestra aleatoria de n1 observaciones tomadas de una primera población con valor esperado µ1 y varianza s

1, y X21, X22, … X2n2 una muestra aleatoria de n2 observaciones tomada de la segunda población con valor esperado µ2 y varianza s
Si son las medias muestrales, la estadística es un estimador puntual de µ1 - µ2, y tiene una distribución normal si las dos poblaciones son normales, o aproximadamente normal si
cumple con las condiciones del teorema del limite central (tamaños de muestras relativamente grandes). Es decir, . Por lo tanto,

Para calcular el intervalo de confianza para la diferencia de dos medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe probar si son iguales o diferentes. Cada uno de estos tres casos se analizarán por separado

Varianzas conocidas

Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar el intervalo de confianza son los siguientes:

a) El estadístico usado como estimador puntual de la diferencia de medias µ1 - µ2 será T = , que es un estimador suficiente b) La variable aleatoria asociada con el estimador será la variable normal estándar dada por:

c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad:

Manipulando la expresión anterior en forma similar a como se hizo en los casos de una sola muestra se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos medias µ1 - µ2 con varianzas conocidas s

1 y s

2.

Teorema. Si son las medias de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones que tienen varianzas conocidas s

1 y s

2, respectivamente, entonces un intervalo de confianza del 100(1-a)% para µ1 - µ2 es:

Ejemplo. Construya un intervalo de confianza del 94% para la diferencia real entre las duraciones de dos marcas de bombillos, si una muestra de 40 bombillos tomada al azar de la primera marca dio una duración media de 418 horas, y una muestra de 50 bombillos de otra marca dieron una duración media de 402 horas. Las desviaciones estándares de las dos poblaciones son 26 horas y 22 horas, respectivamente.

Solución. Tenemos que:, , s1 = 26, s2 = 22, n1 = 40, n2 = 50, Z0.03 = 1.88. El intervalo de confianza es, entonces:

El hecho de que ambos límites sean positivos, y por lo tanto no contengan el valor cero indican que ambas marcas no tienen la misma duración media, y sugiere que pueda pensarse que la primera marca de bombillos tenga una duración media superior a la segunda.

miércoles, 14 de abril de 2010

Muestreos probabilísticos
Las técnicas de muestreo probabilístico son aquellas en las que se determina al azar los individuos que constituirán la muestra. Estas técnicas nos sirven cuando se desean generalizar los resultados que se obtienen a partir de la muestra hacia toda la población. Lo anterior se dice dado que se supone que el proceso aleatorio permitirá la obtención de una muestra representativa de la población.

Los muestreos probabilísticos pueden ser con o sin reemplazo.

Los muestreos con reemplazo son aquellos en los que una vez que ha sido seleccionado un individuo (y estudiado) se le toma en cuenta nuevamente al elegir el siguiente individuo a ser estudiado. En este caso cada una de las observaciones permanece independiente de las demás, pero con poblaciones pequeñas (un grupo de escuela de 30 alumnos, por ejemplo) tal procedimiento debe ser considerado ante la posibilidad de repetir observaciones. En el caso de poblaciones grandes no importa tal proceder, pues no afecta sustacialmente una repetición a las frecuencias relativas.

Los muestreos sin reemplazo son los que una vez que se ha tomado en cuenta un individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta nuevamente. En este caso, y hablando específicamente para el caso de poblaciones pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta nuevamente el individuo se altera la probabilidad para la selección de otro individuo de la población. Para el caso de las poblaciones grandes (por ejemplo la población de un país) dicha probabilidad para la selección de un individuo se mantiene prácticamente igual, por lo que se puede decir que existe independencia en las observaciones.
Intervalo de Confianza para la Media:
ejemplo._
usando la distribución t Un fabricante de llantas desea investigar la durabilidad de sus productos. Una muestra de 10 llantas para recorrer 50000 millas reveló una media muestral de 0.32 pulgadas de cuerda restante con una desviación estándar de 0.09 pulgadas. Construya un intervalo de confianza de 95% para la media poblacional. ¿Sería razonable que el fabricante concluyera que después de 50000 millas la cantidad media poblacional de cuerda restante es de 0.30 pulgadas?
LIMITE CENTRAL:
indica que, en condiciones muy generales, la distribución de la suma de variables aleatorias tiende a una distribución normal (también llamada distribución gaussiana o curva de Gauss o campana de Gauss) cuando la cantidad de variables es muy grande
El teorema del límite central garantiza una distribución normal cuando n es suficientemente grande.

Existen diferentes versiones del teorema, en función de las condiciones utilizadas para asegurar la convergencia. Una de las más simples establece que es suficiente que las variables que se suman sean independientes, idénticamente distribuidas, con valor esperado y varianza finitas.

La aproximación entre las dos distribuciones es, en general, mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre "teorema del límite central" ("central" califica al límite, más que al teorema).

Este teorema, perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos relacionados, tales como la inferencia estadística o la teoría de renovación.
Intervalo de confianza:
en estadística a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa por 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
En definitiva, un intervalo de confianza al 1 - α % para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.
Muestreo por estadios múltiples:
es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.
POR EJEMPLO:
si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.
Muestreo por estadios múltiples
Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.

Por ejemplo:
si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.
Muestra estadística
es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo.
El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.

ESPACIO MUESTRAL
El espacio muestral del que se toma una muestra concreta está formado por el conjunto de todas las posibles muestras que se pueden extraer de una población mediante una determinada técnica de muestreo.

Es decir, si designamos a la "población" sobre la que tomamos la muestra (en ciertos contextos también llamada "universo") por toda muestra será un subconjunto de este conjunto, y el espacio muestra por tanto será el conjunto potencia.

EJEMPLO:
Dimensión de la población: ej. 222.222 habitantes
Probabilidad del evento: ej. Hombre o Mujer 50%
Nivel de confianza: ej. 96%
Desviación tolerada: ej. 5%
Resultado ej. X
Tamaño de la muestra: ej. 270
La interpretación de esos datos sería la siguiente:

La población a investigar tiene 222.222 habitantes y queremos saber cuántos son varones o mujeres.
Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un 90% de seguridad con un nivel entre 90 - 5 y 90 + 5.
Generamos una tabla de 270 números al azar entre 1 y 222.222 y en un censo numerado comprobamos el género para los seleccionados.

TAMAÑO DE LA MUESTRA:
es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población.

Muestreo sistemático
Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Esto quiere decir que si tenemos un determinado número de personas que es la población y queremos escoger de esa población un número más pequeño el cual es la muestra, dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo.
Muestreo

Estudio de las relaciones existentes entre una población y muestra extraída en la misma permite estimar cantidades desconocida de la población la varianza etc. Llamadas parámetros.

Tipos de muestreo:

Muestro aleatorio
Si se seleccionan n elementos de una población de modo tal que cada conjunto de n elementos de la población tenga la misma probabilidad de ser seleccionado, se dice que los n elementos constituyen una muestra aleatoria.