Concurso Internacional del Video de Elisa - Luces,Cámara,Acción!

Para todos los amigos y amigas con vocación de cineastas o directores de videos musicales, se abre una gran oportunidad.

Recientemente la cantautora italiana Elisa Toffoli a lanzado un Concurso Internacional, para seleccionar el mejor video realizado sobre alguna de sus canciones del disco Dancing (2008). ¡La que tú prefieras!

Si tus inclinaciones, creatividad y entusiasmo están enfocadas en los videos, ¡aprovecha esta oportunidad!

Tienes hasta el 30 de junio de 2009.

Para mayor información haz clic sobre la imagen que se encuentra al inicio del post.

Saludos…y…¡¡Mucha Suerte!!

Muestreo y Presentación de Informes

Muestreo

Tipos de Muestreo

  • Muestreo Aleatorio Simple: Seleccionamos n unidades en un conjunto de N de tal modo que cada una de las muestras distintas tenga la misma oportunidad de ser elegidas. Se usa fundamentalmente en la selección de muestras simples.
  • Muestreo para Proporciones y Porcentajes: Permite clasificar los datos antes o después de tabular los resultados. Se usa fundamentalmente para estimar el número total, la proporción, o el porcentaje de unidades de la población, que poseen características que permitan clasificarlos. Por ejemplo, el número de personas sin empleo o el porcentaje de la población originaria de un lugar.
  • Muestreo Aleatorio Estratificado: Consiste en aplicar el muestreo aleatorio simple a subpoblaciones llamadas estratos (los estratos son independientes entre si y la suma de ellos es igual a la población). Se usa fundamentalmente si requerimos dividir la población en subconjuntos. Por ejemplo, al muestrear empresas las más grandes pueden pertenecer a un estrato y las más pequeñas a otro.
  • Muestreo Sistemático: Es un método diferente al muestreo aleatorio simple, debido a que la selección de la primera unidad determina toda la muestra. Para elegir una muestra de n unidades, tomamos una unidad al azar entre las k primeras y luego tomamos las siguientes a intervalos de k. Es decir, si k = 15 y la primera unidad que se extrae es la número 13, entonces las siguientes serán 28, 43, 58, etc. Es una alternativa al muestreo aleatorio simple
  • Muestreo por Conglomerados del Mismo Tamaño: En este caso la unidad consiste en un grupo o conglomerado de unidades más pequeñas llamadas subunidades, donde cada grupo o conglomerado tiene el mismo tamaño. Por ejemplo, una muestra aleatoria simple de 600 viviendas en una ciudad, pudiera ser dividida en 20 manzanas (que componen la ciudad) con un promedio de 30 viviendas por manzana. Se emplea cuando no se tiene una lista confiable de los elementos de la población y además sería demasiado costoso formular dicha lista. También se usa en caso de consideraciones económicas aún cuando se cuente con una lista confiable.
  • Muestreo por Conglomerados de Tamaños Desiguales: Es igual al muestreo de Conglomerados anterior, sólo que en este caso los conglomerados tienen tamaño desigual.
  • Submuestreo con Unidades de Tamaños Iguales: Se selecciona una muestra de unidades (llamadas unidades primarias, cada una de ellas tiene el mismo número de subunidades), luego se selecciona una muestra de subunidades de cada una de las unidades primarias elegidas. Esta técnica se llama submuestreo o muestreo en dos etapas. El submuestreo tiene una gran variedad de aplicaciones como es el caso de pruebas químicas, físicas o biológicas realizadas en una pequeña cantidad de material, obtenida como una submuestra de una cantidad mayor que a su vez es una muestra.
  • Submuestreo con Unidades de Diferentes Tamaños: Es igual al submuestreo anterior, pero en este caso las unidades primarias tienen tamaños desiguales. Se emplea por lo general cuando la población es extensa, donde hay mayor probabilidad de que las unidades primarias varíen en tamaño.
  • Muestreo Doble: Se toma una gran muestra preliminar para medir ciertos indicadores (media o distribución de frecuencia), con el fin de ganar precisión. Se usa en encuestas que tienen el propósito de hacer estimaciones para otra variable que depende de la muestra, cuando se desconocen ciertos indicadores.

Como determinar el tamaño de la muestra

Fórmula de n al hacer un muestreo para determinar una proporción

Supongamos que las unidades se clasifican en dos clases A y B. Se ha convenido en algún margen de error d de la porporción estimada p de las unidades en la clase A, y existe un pequeño riesgo ?, que estamos dispuestos a correr, de que el error real supere a d; es decir, queremos que

donde p se toma con distribución normal y es la estimación anticipada de P

Si el conjunto N es grande,

donde q = 1 - p y t es la abscisa de la curva normal que corta un área de ? en las colas de la distribución.

Si N no es grande,

Ejemplo

Un antropólogo está preparando un estudio sobre los N = 3.200 habitantes de cierta isla. Desea estimar el porcentaje de habitantes que pertenecen al grupo sanguíneo O con un error no mayor de más o menos d = 5% = 0.05. Es decir, que si la muestra indica que el 43% de la población es del grupo sanguineo O, el porcentaje para toda la isla se encontrará con certeza entre el 38 y el 48%.

El antropólogo con base en datos obtenidos previamente con otros grupos étnicos, y de acuerdo a sus especulaciones sobre la historia racial de la isla, espera que P (el porcentaje de habitantes que pertenecen al grupo sanguíneo O) se encuentre entre el intervalo del 30 al 60% y decide tomar el estimador p de P como 50%. Es decir, p = 0.5

Ahora, como p debe encontrarse en el intervalo (P-5, P+5) excepto para un caso en 20 y dado que p se supone normalmente distribuida alrededor de P, por propiedades de la distribución normal , p se encontrará en el intervalo (P-2?, p+2?) salvo una posibilidad en 20. Por definición de t, t = 2.

Aplicando la fórmula para determinar el tamaño de la muestra tenemos,

El valor 0,125 no es despreciable y se decide calcular n

Fórmula de n con datos continuos

Generalmente se desea controlar el error relativo r en la estimación del total o la media de la población. Con una muestra aleatoria simple de media

queremos que

donde ? es una pequeña probabilidad. Suponemos que sigue una distribución normal

Si N es grande

donde S2 es la varianza de Y y t es la abscisa de la curva normal que corta un área de ? en las colas de la distribución.

Si N no es grande

Ejemplo

En viveros que producen árboles para venta es aconsejable estimar, el número de árboles en buen estado que probablemente se dispondrán puesto que con base en esto se determina la demanda y aceptación de las órdenes. Supongamos que N = 430, mediante una enumeración completa se encontró que

Aplicando la fórmula para determinar el tamaño de la muestra tenemos,

El valor 0,22 no es despreciable y se decide calcular n

Presentación de Informes

Datos relevantes e Indicadores

Los datos relevantes e indicadores dependerán del alcance del estudio que se esté abordando.

Por lo general, en los informes no se colocan los datos brutos. Se colocan las medidas descriptivas de centralización o dispersión según sea el caso.

Lo más frecuente es resumir los datos mediante valores medios y porcentajes o proporciones que se comparan con medidas mensuales o anuales.

Se deben señalar explícitamente las grandes o pequeñas diferencias entre grupos, así como la estabilidad de las mediciones periódicas si estas se mantienen en el tiempo.

Se deben crear tablas resumen con los indicadores seleccionados y estas deben ser apoyadas en gráficos y una breve interpretación de los resultados obtenidos.

La finalidad de los indicadores es permitir mediante su acumulación histórica, determinar niveles óptimos (promedios o metas) que permitan comparar los valores actuales con el valor histórico y determinar claramente si nos encontramos por debajo o por arriba de ese nivel. Siempre que sea posible hay que interpretar las causas que originaron ese resultado y proponer correctivos si el caso así lo amerita.

Resumen vs. Contenido

El resumen de cualquier estudio no debería abarcar por lo general, más de una página. Debemos ser capaces de sintetizar en pocas palabras todo el trabajo realizado.

El resumen debe contener de forma claramente identificable:

  1. Objetivo del estudio (Planteamiento del problema).
  2. Origen de los datos
  3. Etapas del estudio y su finalidad
  4. Conclusiones alcanzadas

El contenido del estudio o cuerpo del informe debe estar presentado de manera estructurada, siguiendo una relación lógica o cronológica dependiendo del caso.

Como presentar los resultados estadísticos y su interpretación

Por lo general, la presentación de un informe depende directamente de su finalidad y de las personas que lo leerán (nivel de especialización en el tema tratado).

La estructura básica de un informe estadístico se compone de:

  1. Resumen
  2. Introducción (breve)
  3. Metodología empleada (especificando las pruebas realizadas)
  4. Resultados obtenidos
  5. Conclusiones

La interpretación de los resultados debe especificar si hay evidencia estadísticamente significativa para creer en las tendencias encontradas, o si por el contrario no es posible llegar a una evidencia firme que avale las hipótesis planteadas.

Selección del tipo de gráfico adecuado a los datos

  • Diagrama de Puntos, Diagrama de Tallo y Hoja: Por lo general, no se incluyen en los informes, sirven como apoyo al investigador ayudándolo rápidamente a resumir los datos e identificar tendencias.
  • Gráficos de Torta: Permiten representar porcentajes o proporciones. Indicando claramente la contribución de cada área al total.
  • Gráficos de Barras: Por lo general se usan para representar histogramas; datos que varían en el tiempo; así como datos agrupados para realizar comparaciones entre ellos.
  • BoxPlot o Diagrama de Caja: Este gráfico se usa frecuentemente para mostrar la dispersión de los datos y detectar valores extremos que podrían ser errores en la muestra.
  • Gráfico de Dispersión: Se emplea para mostrar la relación de dependencia entre dos variables.

Descargar Clase 09

Inferencia y Tabla ANOVA (Parte II)

Intervalos de Confianza

Necesitamos conocer estadísticos L y U tales que,

P(L ? ? ? U) = 1 - ?

para cierto nivel de significancia ? dado y parámetro ? desconocido.

Recordar que 1 - ? es la probabilidad de aceptar la hipótesis nula (H0) dado que H0 es verdadera, es decir,

P(H0 aceptada/H0 verdadera) = 1 - ?

Tenemos que L ? ? ? U con una probabilidad de 100(1-?)%. Al intervalo (L,U) le llamamos un intervalo de confianza del 100(1-?)%.

Intervalos de Confianza para los Parámetros

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + … + ?pxp + ?

y que deseamos realizar la siguiente prueba de hipótesis

H0: ?i = ?i* vs. H1: ?i ? ?i*

Si H0 fuese cierta, entonces

Si queremos buscar un intervalo de confianza para los parámetros ?i sustituimos ? por t y usamos que

Tomando L y U convenientemente tenemos

sustituyendo t por su ecuación obtenemos

despejando ?i en la expresión anterior, llegamos al siguiente resultado

Un intervalo de confianza del 100(1-?)% para el parámetro ?i tiene la forma

Observaciones

  • El intervalo anterior se lee intervalo de confianza para ?i con un coeficiente de confianza de 100(1-?)%, es decir, ?i está en el intervalo con una confianza de 100(1-?)%.
  • Un intervalo de confianza para ?i con un coeficiente de confianza de 100(1-?)%, constituye el conjunto de todos los valores de ?i* para los cuales la hipótesis H0 sería aceptada al nivel de significancia ?.
  • Notar que si buscamos intervalos de confianza del 95%, ? = 0,05.

Ejemplo 4.1: Demanda de un Producto

Planteamiento

La demanda de un producto es afectada por multiples factores. En un estudio, se tomaron medidas de la urbanización relativa, nivel educativo e ingreso relativo de nueve (9) zonas con el fin de determinar su influencia sobre el uso del producto. Los datos recogidos son los siguientes:

Datos

Urbanización (x1) Nivel Educativo (x2) Ingreso (x3) Uso (Y)
42,2 11,2 31,9 167,1
48,6 10,6 13,2 174,4
42,6 10,6 28,7 160,8
39,0 10,4 26,1 162,0
34,7 9,3 30,1 140,8
44,5 10,8 8,5 174,6
39,1 10,7 24,3 163,7
40,1 10,0 18,6 174,5
45,9 12,0 20,4 185,7

Ejemplo 4.1: Intervalos de Confianza

Según el Ejemplo 4.1: Prueba de Hipótesis la variable Y (uso del producto) se encuentra definida por el siguiente modelo lineal

Y = ?0 + ?2x2 + ?3x3 + ?

A partir de la siguiente tabla resumen de la prueba de hipótesis para el modelo

Predictor Coef. Std.Dev. t-radio p_valor
constante 63,02 31,1138 2,0255 0,0892
x2 11,5172 2,7773 4,1469 0,0060
x3 -0,8158 0,2614 -3,1206 0,0206

se obtuvo el modelo final

Y = 63,02 + (11,5172)x2 - (0,8158)x3

Intervalos de Confianza

Sabemos que n-p = 9-3 = 6 y tomando ? = 0,05 obtenemos de la tabla t de Student (nivel: 0,800 a 0,999) el valor correspondiente

Un intervalo de confianza del 95% para los parámetros ?0, ?2 y ?3 tiene la forma

Finalmente, los intervalos son

Interpretación de los Intervalos

Cada uno de los intervalos anteriores, constituye el conjunto de todos los valores de ?i* (i = 0,2 y 3), para los cuales la hipótesis nula H0: ?i = ?i* con i = 0,2 y 3 sería aceptada al nivel de significancia ? = 0,05.

Comparación entre Modelos Anidados

Supongamos que tenemos dos modelos anidados

  1. Y = ?0+?1x1+…+?txt+?
  2. Y = ?0+?1x1+…+?txt+?t+1xt+1+…+?kxk+?

Una comparación entre estos modelos equivale a realizar la siguiente prueba de hipótesis

H0: ?t+1 = … = ?k = 0 vs. H1: algún ?i ? 0

para t+1 ? i ? k

Si H0 fuese cierta, entonces

Es decir, el estadístico F se distribuye como una F de Fisher con k-t, n-(k+1) grados de libertad a un cierto nivel de significancia ?,

donde

n : Número de observaciones

k, t : Número de variables

k+1, t+1 : Número de parámetros

SSE1, SSE2 : Suma cuadrática de los errores para el modelo de menos parámetros (1) y para el modelo de más parámetros (2), respectivamente.

¿ Cuando se rechaza H0 ?

Se rechaza H0 si para un nivel de significancia ? se tiene que

donde el símbolo >> se lee mucho mayor.

Observaciones

  • A esta forma de comparar dos modelos anidados se le conoce como prueba de significancia de la regresión.
  • La hipótesis H0 plantea que el modelo 1 es mejor.
  • Usualmente, se toma como nivel de significancia ? = 0,05 y buscamos en la tabla de la distribución F el valor correspondiente.

Grafica de la Prueba F

Supongamos que tenemos dos modelos anidados

  1. Y = ?0+?1x1+…+?txt+?
  2. Y = ?0+?1x1+…+?txt+?t+1xt+1+…+?kxk+?

Una comparación entre estos modelos equivale a realizar la siguiente prueba de hipótesis

H0: ?t+1 = … = ?k = 0 vs. H1: algún ?i ? 0

para t+1 ? i ? k

Si H0 fuese cierta, entonces

Gráfica de la Distribución F de Fisher

Observaciones

  • Se rechaza H0 cuando el estadístico F cae en la región rayada del gráfico (nivel ?).
  • Usualmente, se toma como nivel de significancia ? = 0,05.El área de la cola es 0,05 y buscamos en la tabla F de Fisher el valor de

Prueba de Significancia de la Regresión

Supongamos que tenemos dos modelos lineales

Modelo 1: Y = ?01 + ? (Nº de parámetros = 1)

Modelo 2: Y = X? + ? (Nº de parámetros = k+1)

Observaciones Modelo 1

  • Este modelo se conoce como modelo básico de regresión general.
  • Es básico porque sólo depende de la media de las observaciones.

  • Para este modelo tomamos ?0* igual a la media de Y, es decir,
  • 1 es un vector de unos, X = 1
  • La suma cuadrática de los errores para este modelo, viene dada por,
  • donde n es el número de observaciones.

Observaciones Modelo 2

  • Este modelo es el modelo de regresión general
  • La suma cuadrática de los errores para este modelo, viene dada por,

Prueba

Una comparación entre estos modelos equivale a realizar la siguiente prueba de hipótesis

H0: ?1 = … = ?k = 0 vs. H1: algún ?i ? 0 (1? i ?k)

Si H0 fuese cierta, entonces

sustituyendo los valores de las sumas cuadráticas de los errores para ambos modelos, obtenemos

denotando las expresiones anteriores, finalmente tenemos

donde,

SSR : Suma cuadrática de la regresión

SSE: Suma cuadrática de los errores

MSR: Error cuadrático medio de la regresión

MSE: Error cuadrático medio de los errores

Notar que S2, el estimador de la varianza de los errores se define como

con p el número de parámetros.

¿ Cuando se rechaza H0 ?

Se rechaza H0 si para un nivel de significancia ? se tiene que

donde el símbolo >> se lee mucho mayor.

Observaciones

  • Usualmente, se toma como nivel de significancia ? = 0,05.
  • Buscamos en la tabla F de Fisher el valor de

Tabla ANOVA

Supongamos que tenemos dos modelos lineales

Modelo 1: Y = ?01 + ? (Nº de parámetros = 1)

Modelo 2: Y = X? + ? (Nº de parámetros = k+1)

La información de la prueba de significancia de la regresión se suele resumir en la siguiente tabla.

Fuente gl SS MS F
Modelo k

Error n-(k+1)
Total n-1

donde,

gl : son los grados de libertad

n : es el número de observaciones

k : es el número de variables (modelo 2)

k+1 : es el número de parámetros (modelo 2)

Esta tabla se conoce como Tabla de Análisis de Varianza o Tabla ANOVA.

La prueba de hipótesis planteada con una tabla ANOVA equivale a:

H0: ?1 = … = ?k = 0 vs. H1: algún ?i ? 0 (1? i ?k)

Si H0 fuese cierta, entonces

¿ Cuando se rechaza H0 ?

Se rechaza H0 si para un nivel de significancia ? se tiene que

donde el símbolo >> se lee mucho mayor.

Observaciones

  • La hipótesis H0 plantea que el modelo 1 es mejor, es decir, Y depende únicamente de la media de las observaciones.
  • La tabla ANOVA sólo compara el modelo general (2) contra el modelo básico (1).
  • Sin embargo, se puede hacer uso de la tabla ANOVA para comparar dos modelos anidados utilizando la información que esta proporciona para calcular el estadístico F.
  • Usualmente, se toma como nivel de significancia ? = 0,05 y buscamos en la tabla F de Fisher el valor de

Ejemplo 4.1: Comparación entre Modelos

Ejemplo 4.1: Modelo 1

Supongamos que la variable Y (uso del producto) se encuentra definida por el siguiente modelo lineal

Modelo 1: Y = ?0 + ?2x2 + ?

Tabla ANOVA Modelo 1

Fuente gl SS MS F
Regresión 1 754,4051 754,4051 10,06
Error 7 524,7949 74,9707
Total 8 1279,2

La prueba de hipótesis planteada con esta tabla ANOVA equivale a:

H0: ?2 = 0 vs. H1: ?2 ? 0

Estamos comparando los modelos

Modelo 0: Y = ?0 + ?

Modelo 1: Y = ?0 + ?2x2 + ?

Como n = 9 (observaciones) y k = 1 (variables), entonces n-(k+1) = 7, tomando ? = 0,05 obtenemos de la tabla F de Fisher el valor correspondiente

Observaciones

  • Se rechaza la hipótesis H0 y se descarta el modelo 0 (básico).
  • El modelo 1 que incluye el nivel educativo (x2) es mejor que el modelo básico.

Ejemplo 4.1: Modelo 2

Supongamos ahora que la variable Y (uso del producto) se encuentra definida por un nuevo modelo lineal

Modelo 2: Y = ?0 + ?1x1 + ?2x2 + ?3x3 + ?

Tabla ANOVA Modelo 2

Fuente gl SS MS F
Regresión 3 1081,348 360,4493 9,11
Error 5 197,8520 39,75
Total 8 1279,2

La prueba de hipótesis planteada con esta tabla ANOVA equivale a:

H0: ?1 = ?2 = ?3 = 0 vs. H1: algún ?i ? 0 (1 ? i ? 3)

Estamos comparando los modelos

Modelo 0: Y = ?0 + ?

Modelo 2: Y = ?0 + ?1x1 + ?2x2 + ?3x3 + ?

Como n = 9 (observaciones) y k = 3 (variables), entonces n-(k+1) = 5, tomando ? = 0,05 obtenemos de la tabla F de Fisher el valor correspondiente

Observaciones

  • Se rechaza la hipótesis H0 y se descarta el modelo 0 (básico).
  • El modelo 2 es mejor que el modelo básico.

  • Notar que aunque el modelo 2 es mejor que el modelo 0, la prueba de hipótesis sólo ha establecido que algún ?i ? 0 (1 ? i ? 3).
  • En otras palabras, al menos una de las variables explicativas x1 (urbanización relativa), x2 (nivel educativo) o x3 (ingreso relativo) deberá estar en el modelo, pero esta prueba no determina cuantas, ni cuales, de estas variables.

Ejemplo 4.1: Comparación de los modelos 1 y 2

Supongamos que nos planteamos los dos modelos

Modelo 1: Y = ?0 + ?2x2 + ?

Modelo 2: Y = ?0 + ?1x1 + ?2x2 + ?3x3 + ?

donde,

t = 1, número de variables (modelo 1)

k = 3, número de variables (modelo 2)

SSE1 = 524,7949 (por tabla ANOVA modelo 1)

SSE2 = 197,8520 (por tabla ANOVA modelo 2)

n = 9, número de observaciones del ejemplo

Una comparación entre estos modelos equivale a realizar la siguiente prueba de hipótesis

H0: ?1 = ?3 = 0 vs. H1: algún ?i ? 0 ( i = 1,3)

Calculemos ahora el estadístico F.

Finalmente, realizando las operaciones

Como k = 3, t = 1, entonces k-t = 2, n-(k+1) = 5, tomando ? = 0,05 obtenemos de la tabla F de Fisher el valor correspondiente

Observaciones

  • No rechazamos la hipótesis H0.
  • Se descartan del modelo final las variables x1 (urbanización relativa) y x3 (ingreso relativo).

  • El uso del producto (Y) sólo depende del nivel educativo (x2), es decir,
  • Y = ?0 + ?2x2 + ?

Tabla F de Fisher (nivel: 0,05)

La tabla que sigue a continuación representa los valores de la distribución F de Fisher con m y n grados de libertad y un nivel de significancia igual a ? = 0.05.

Si X tiene una distribución F con m y n grados de libertad, la tabla proporciona el valor de x tal que P(X ? x) = 0.95

si ? = 0,05 usamos esta tabla

n m
1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 ?
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 245,9 248,0 250,1 251,1 252,2 253,3 254,3
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,43 19,45 19,46 19,47 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,66 8,62 8,59 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,80 5,75 5,72 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,56 4,50 4,46 4,43 4,40 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,87 3,81 3,77 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51 3,44 3,38 3,34 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,15 3,08 3,04 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,94 2,86 2,83 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,77 2,70 2,66 2,62 2,58 2,54
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,33 2,25 2,20 2,16 2,11 2,07
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,12 2,04 1,99 1,95 1,90 1,84
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,93 1,84 1,79 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 1,92 1,84 1,74 1,69 1,64 1,58 1,51
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,84 1,75 1,65 1,59 1,53 1,47 1,39
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,75 1,66 1,55 1,50 1,43 1,35 1,25
? 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,67 1,67 1,46 1,39 1,32 1,22 1,00

Ejemplo

Si ? = 0,05. Supongamos que m = 2 y n = 5, el valor de F con 2 y 5 grados de libertad y un nivel de significancia de 0,05 es,

Tabla F de Fisher (nivel: 0,025)

La tabla que sigue a continuación representa los valores de la distribución F de Fisher con m y n grados de libertad y un nivel de significancia igual a ? = 0.025.

Si X tiene una distribución F con m y n grados de libertad, la tabla proporciona el valor de x tal que P(X ? x) = 0.975

si ? = 0,025 usamos esta tabla

n m
1 2 3 4 5 6 7 8 9 10 15 20 30 40 60 120 ?
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6 984,9 993,1 1001 1006 1010 1014 1018
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,43 39,45 39,46 39,47 39,48 39,49 39,50
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,25 14,17 14,08 14,04 13,99 13,95 13,90
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,56 8,46 8,41 8,36 8,31 8,26
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,33 6,23 6,18 6,12 6,07 6,02
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5,17 5,07 5,01 4,96 4,90 4,85
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,57 4,47 4,36 4,31 4,25 4,20 4,14
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 4,00 3,89 3,84 3,78 3,73 3,67
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,67 3,56 3,51 3,45 3,39 3,33
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,42 3,31 3,26 3,20 3,14 3,08
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,76 2,64 2,59 2,52 2,46 2,40
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,46 2,35 2,29 2,22 2,16 2,09
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,20 2,07 2,01 1,94 1,87 1,79
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,18 2,07 1,94 1,88 1,80 1,72 1,64
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,06 1,94 1,82 1,74 1,67 1,58 1,48
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 1,94 1,82 1,69 1,61 1,53 1,43 1,31
? 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,83 1,71 1,57 1,48 1,39 1,27 1,00

Ejemplo

Si ? = 0,025. Supongamos que m = 2 y n = 5, el valor de F con 2 y 5 grados de libertad y un nivel de significancia de 0,025 es,

Asignación: Problema 4.1

Planteamiento

Un distribuidor de cerveza está analizando el sistema de entregas de su producto. En particular, está interesado en predecir el tiempo requerido para servir a los detallistas. El ingeniero industrial a cargo del estudio ha sugerido que los factores más importantes que influyen sobre el tiempo son el número de cajas y la máxima distancia que debe viajar el despachador.

cajas (x1) distancia (x2) tiempo (Y)
10 30 24
15 25 27
10 40 29
20 18 31
25 22 25
13 31 33
12 26 26
14 34 28
16 29 31
22 37 39
24 20 33
17 25 30
13 27 25
30 23 42
24 33 40

Preguntas

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + ?

  1. Empleando los estimadores de mínimos cuadrados determine los parámetros del modelo.
  2. Se desea probar si la distancia es importante al considerar el tiempo de repartición. Realice una prueba de hipótesis que permita saber si la variable explicativa x2 debe estar en el modelo.
  3. Halle un intervalo de confianza del 95% para cada uno de los parámetros del modelo.

Asignación: Problema 4.2

Planteamiento

Mismo planteamiento del problema 4.1

Preguntas

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?

  1. Empleando los estimadores de mínimos cuadrados determine los parámetros del modelo.
  2. Realice una prueba de significancia de la regresión determinando la tabla ANOVA del modelo.
  3. Tomando el modelo propuesto en el problema 4.1 realice una prueba de significancia de la regresión, determinando la tabla ANOVA del modelo.
  4. Basandose en las tablas ANOVAS de las preguntas 2 y 3, compare los modelos
  5. Modelo 1: Y = ?0 + ?1x1 + ?

    Modelo 2: Y = ?0 + ?1x1 + ?2x2 + ?

  6. Compare los resultados obtenidos en la pregunta anterior, con los obtenidos en la pregunta 2 del problema 4.1

Descargar Clase 08

Inferencia y Tabla ANOVA (Parte I)

Estimadores de Mínimos Cuadrados

Sea el modelo de regresión general

Y = X? + ?

donde

Y = (y1, y2, … , yn)

? = (?0, ?1, … , ?p)

? = (?1, ?2, … , ?n)

X : es una matriz nxp

n : es el número de variables

p+1 : es el número de parámetros

Parámetros

Sea ?* la estimación de ?

por las ecuaciones normales

?* = (XtX)-1(XtY)

donde Xt es latraspuesta de X.

La esperanza de ?* es

E(?*) = ? y E(?i*) = ?i con i = 0,…,p

?* es un estimador insesgado de ?.

La varianza de ?i* es

Var(?i*) = ?2(XtX)ii-1 con i = 0,…,p

sea cii = (XtX)ii-1 con i = 0,…,p entonces

Var(?i*) = ?2cii con i = 0,…,p

?* tiene distribución normal

?i* ? N(?i,?2cii) con i = 0,…,p

Errores

? tiene distribución normal

?i ? N(0,?2)

E(?i) = 0 y Var(?i) = ?2 con i = 1,…,n

Definamos e, el estimador de ? como

e = Y - X?* = Y - Y*

donde Y* es el estimador de Y y se define como Y* = X?*.

Definamos la Suma Cuadrática de los Errores (SSE) como

SSE = ete = YtY - ?*tXtY

entonces el estimador S2 de ?2 se define como

además, S2 es un estimador insesgado de ?2

E(S2) = ?2

Observaciones

  • e y ?* son independientes
  • Y tiene distribución normal
  • Y ? N(X?,?2I)

    E(Y) = X? y Var(Y) = ?2I

    donde I es la matriz identidad nxn con unos en la diagonal y ceros en las demás posiciones.

Ejemplo 4.1: Demanda de un Producto

Planteamiento

La demanda de un producto es afectada por multiples factores. En un estudio, se tomaron medidas de la urbanización relativa, nivel educativo e ingreso relativo de nueve (9) zonas con el fin de determinar su influencia sobre el uso del producto. Los datos recogidos son los siguientes:

Datos

Urbanización (x1) Nivel Educativo (x2) Ingreso (x3) Uso (Y)
42,2 11,2 31,9 167,1
48,6 10,6 13,2 174,4
42,6 10,6 28,7 160,8
39,0 10,4 26,1 162,0
34,7 9,3 30,1 140,8
44,5 10,8 8,5 174,6
39,1 10,7 24,3 163,7
40,1 10,0 18,6 174,5
45,9 12,0 20,4 185,7

Prueba de Hipótesis

Sea el modelo de regresión general

Y = X? + ?

donde

Y = (y1, y2, … , yn)

? = (?0, ?1, … , ?p)

? = (?1, ?2, … , ?n)

X : es una matriz nxp

n : es el número de variables

p+1 : es el número de parámetros

Problema

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + … + ?pxp + ?

Ahora, deseamos saber si la variable explicativa xi debe estar en el modelo, para ello, basta tratar de probar la hipótesis que el parámetro ?i es cero o no.

Prueba

Fijamos una hipótesis que queremos probar, la llamaremos hipótesis nula (H0) y probamos esta hipótesis contra una hipótesis alternativa (H1)

H0: ?i = 0 vs. H1: ?i ? 0

Si H0 fuese cierta, entonces

Es decir, el estadístico t se distribuye como una t de Student con n-p grados de libertad a un cierto nivel de significancia ?/2,

donde

?i* es un estimador insesgado de los parámetros ?i con i = 0,…,p

S2 es un estimador insesgado de la varianza de los errores (?2)

y cii = (XtX)ii-1 con i = 0,…,p

¿ Cuando se rechaza H0 ?

Se rechaza H0 si para un nivel de significancia ? se tiene que

donde el símbolo >> se lee mucho mayor.

Observaciones

  • Este tipo de prueba recibe el nombre de prueba de hipótesis.
  • Usualmente, se toma como nivel de significancia ? = 0,05 y buscamos en la tabla de la distribución t el valor correspondiente.

Gráfica de la Prueba t

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + … + ?pxp + ?

y que deseamos realizar la siguiente prueba de hipótesis

H0: ?i = 0 vs. H1: ?i ? 0

Si H0 fuese cierta, entonces

Gráfica de la Distribución t de Student

Observaciones

  • Se rechaza H0 cuando el estadístico t cae en la región pintada del gráfico (nivel ?).
  • Usualmente, se toma como nivel de significancia ? = 0,05.Entonces, ?/2 = 0,025 (el área de cada cola es 0,025) y buscamos en la tabla t de Student (nivel: 0,800 a 0,999) el valor de

Posibles Errores en la Prueba de Hipótesis

Una prueba de hipótesis consiste en fijar la hipótesis que queremos probar, llamada hipótesis nula (H0) y contrastarla con una hipótesis alternativa (H1)

Errores que se pueden cometer en la Prueba de Hipótesis

Hipótesis H0 Aceptada H0 Rechazada
H0 Verdadera 1 - ? Error Tipo I (?)
H1 Verdadera Error Tipo II (?) 1 - ?

Observaciones

  • La prueba de hipótesis depende del nivel de significancia ?.
  • En una prueba de hipótesis, H0 se puede rechazar o no.
  • 1 - ? y 1 - ? son las probabilidades de acertar, mientras ? y ? son la probabilidades de fallar, en la prueba de hipótesis.
  • ? es el nivel de significancia.
  • 1 - ? es la potencia de la prueba
  • Se fija ? y se minimiza ?.

Tabla Resumen de la Prueba de Hipótesis

Supongamos que tenemos el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + … + ?pxp + ?

y que deseamos realizar la siguiente prueba de hipótesis

H0: ?i = 0 vs. H1: ?i ? 0

Si H0 fuese cierta, entonces

Usualmente los cálculos para realizar la prueba de hipótesis suelen resumirse en la siguiente tabla.

Predictor Coeficiente Std.Dev. t-radio p_valor
constante ?0*
x1 ?1*
x2 ?2*
xp ?p*

Observaciones

  • La constante en el modelo es ?0.
  • La columna Std.Dev., se refiere a la desviación estándar de los ?i*.
  • Notar que Var(?i*) = S2cii para i = 0,…,p

  • El t-radio (ti) no es más que el valor de t para cada ?i* con i = 0,…,p
  • El p_valor es el área de la cola correspondiente al valor observado del estadístico t (gráfica de la distribución t de Student con n-p grados de libertad a un cierto nivel de significancia ?/2). Es decir, el p_valor es la probabilidad de obtener un valor muestral (media o proporción) aún más extremo del que obtuvimos. Es el nivel de significancia observado.
  • La hipótesis H0 se debería rechazar si,

    Usualmente se toma ? = 0,05.

Interpretación del p_valor

  • ¿ Cuando se rechaza H0 ?
  • Si el p_valor es pequeño (< 0,025) se rechaza H0.

  • ¿ Cuando no se rechaza H0 ?
  • Si el p_valor es grande (> 10%) no se rechaza H0.

Ejemplo 4.1: Prueba de Hipótesis

Ejemplo 4.1: Modelo 1

Supongamos inicialmente que la variable Y (uso del producto) se encuentra definida por el siguiente modelo lineal

Y = ?0 + ?1x1 + ?2x2 + ?3x3 + ?

Deseamos saber si la variable explicativa xi debe estar en el modelo, con i = 1, 2 y 3. Para ello, debemos realizar las tres pruebas de hipótesis

  1. H0: ?1 = 0 vs. H1: ?1 ? 0
  2. H0: ?2 = 0 vs. H1: ?2 ? 0
  3. H0: ?3 = 0 vs. H1: ?3 ? 0

La tabla resumen de la prueba de hipótesis para el modelo 1 es la siguiente.

Predictor Coef. Std.Dev. t-radio p_valor
constante 60,014 36,1906 1,6583 0,1582
x1 0,2398 1,0121 0,2370 0,8221
x2 10,7184 4,5296 2,3663 0,0642
x3 -0,7510 0,3450 -1,9014 0,1157

Observaciones

  • El p_valor para el estimador de ?1 está en el orden de 82,21% y por ello no rechazamos la hipótesis H0 de la prueba (1), mientras que rechazamos la hipótesis H0 de las pruebas (2) y (3).
  • Además, n-p = 9-4 = 5 y tomando ? = 0,05 obtenemos de la tabla t de Student (nivel: 0,800 a 0,999) el valor correspondiente

    como era de esperarse.

    Notar que este p_valor se encuentra muy por encima de los valores correspondientes a los otros parámetros

  • Como ?1 = 0, descartamos la variable x1 del modelo y obtenemos uno nuevo.
  • Sólo se descarta una variable a la vez, la del p_valor más alto (> 10%).

Ejemplo 4.1: Modelo 2

El nuevo modelo lineal que define a Y es,

Y = ?0 + ?2x2 + ?3x3 + ?

Una vez más, debemos comprobar si la variable explicativa xi debe estar en el modelo, sólo para i = 2 y 3.

Ahora, debemos realizar dos pruebas de hipótesis

  1. H0: ?2 = 0 vs. H1: ?2 ? 0
  2. H0: ?3 = 0 vs. H1: ?3 ? 0

La tabla resumen de la prueba de hipótesis para el modelo 2 sigue a continuación.

Predictor Coef. Std.Dev. t-radio p_valor
constante 63,02 31,1138 2,0255 0,0892
x2 11,5172 2,7773 4,1469 0,0060
x3 -0,8158 0,2614 -3,1206 0,0206

Observaciones

  • El p_valor de los estimadores de los parámetros ?2 y ?3 es menor a 0,025 y rechazamos la hipótesis H0 en ambas pruebas.
  • En este caso, n-p = 9-3 = 6 y tomando nuevamente ? = 0,05 obtenemos de la tabla t de Student (nivel: 0,800 a 0,999) el valor correspondiente

    como era de esperarse.

  • Nuestro modelo final es el modelo 2
  • Y = 63,02 + (11,5172)x2 - (0,8158)x3

    Concluimos que la urbanización relativa (x1) no influye en el uso del producto, Y sólo depende del nivel educativo (x2) y del ingreso relativo (x3).

Tabla t de Student (nivel: 0,001 a 0,200)

La tabla que sigue a continuación representa los valores de la distribución t de Student con gl grados de libertad y un nivel de significancia igual a 1-?.

Notar que para un nivel de significancia de ?/2

En este caso, debemos usar la columna de la tabla correspondiente al nivel de significancia igual a 1-?/2, es decir,

si ? = 0,05 usamos la columna 0,975

si ? = 0,01 usamos la columna 0,995

estas dos columnas pertenecen a la tabla t de Student (nivel: 0,800 a 0,999)

gl Nivel de Significancia 1 - ?
0,001 0,005 0,010 0,025 0,050 0,100 0,200
1 -318,309 -63,657 -31,821 -12,706 -6,314 -3,078 -1,376
2 -22,327 -9,925 -6,965 -4,303 -2,920 -1,886 -1,061
3 -10,215 -5,841 -4,541 -3,182 -2,353 -1,638 -0,978
4 -7,173 -4,604 -3,747 -2,776 -2,132 -1,533 -0,941
5 -5,893 -4,032 -3,365 -2,571 -2,015 -1,476 -0,920
6 -5,208 -3,707 -3,143 -2,447 -1,943 -1,440 -0,906
7 -4,785 -3,499 -2,998 -2,365 -1,895 -1,415 -0,896
8 -4,501 -3,355 -2,896 -2,306 -1,860 -1,397 -0,889
9 -4,297 -3,250 -2,821 -2,262 -1,833 -1,383 -0,883
10 -4,144 -3,169 -2,764 -2,228 -1,812 -1,372 -0,879
11 -4,025 -3,106 -2,718 -2,201 -1,796 -3,363 -0,876
12 -3,930 -3,055 -2,681 -2,179 -1,782 -1,356 -0,873
13 -3,852 -3,012 -2,650 -2,160 -1,771 -1,350 -0,870
14 -3,787 -2,977 -2,624 -2,145 -1,761 -1,345 -0,868
15 -3,733 -2,947 -2,602 -2,131 -1,753 -1,341 -0,866
16 -3,686 -2,921 -2,583 -2,120 -1,746 -1,337 -0,865
17 -3,646 -2,898 -2,567 -2,110 -1,740 -1,333 -0,863
18 -3,610 -2,878 -2,552 -2,101 -1,734 -1,330 -0,862
19 -3,579 -2,861 -2,539 -2,093 -1,729 -1,328 -0,861
20 -3,552 -2,845 -2,528 -2,086 -1,725 -1,325 -0,860
21 -3,527 -2,831 -2,518 -2,080 -1,721 -1,323 -0,859
22 -3,505 -2,819 -2,508 -2,074 -1,717 -1,321 -0,858
23 -3,485 -2,807 -2,500 -2,069 -1,714 -1,319 -0,858
24 -3,467 -2,797 -2,492 -2,064 -1,711 -1,318 -0,857
25 -3,450 -2,787 -2,485 -2,060 -1,708 -1,316 -0,856
26 -3,435 -2,779 -2,479 -2,056 -1,706 -1,315 -0,856
27 -3,421 -2,771 -2,473 -2,052 -1,703 -1,314 -0,855
28 -3,408 -2,763 -2,467 -2,048 -1,701 -1,313 -0,855
29 -3,396 -2,756 -2,462 -2,045 -1,699 -1,311 -0,854
30 -3,385 -2,750 -2,457 -2,042 -1,697 -1,310 -0,854
35 -3,340 -2,724 -2,438 -2,030 -1,690 -1,306 -0,852
40 -3,307 -2,704 -2,423 -2,021 -1,684 -1,303 -0,851
45 -3,281 -2,690 -2,412 -2,014 -1,679 -1,301 -0,850
50 -3,261 -2,678 -2,403 -2,009 -1,676 -1,299 -0,849
60 -3,232 -2,660 -2,390 -2,000 -1,671 -1,296 -0,848
70 -3,211 -2,648 -2,381 -1,994 -1,667 -1,294 -0,847
80 -3,195 -2,639 -2,374 -1,990 -1,664 -1,292 -0,846
90 -3,183 -2,632 -2,369 -1,987 -1,662 -1,291 -0,846
100 -3,174 -2,626 -2,364 -1,984 -1,660 -1,290 -0,845
200 -3,131 -2,601 -2,345 -1,972 -1,652 -1,286 -0,843
500 -3,107 -2,586 -2,334 -1,965 -1,648 -1,283 -0,842
1000 -3,098 -2,581 -2,330 -1,962 -1,646 -1,282 -0,842

Ejemplo

Si ? = 0,975 tenemos que 1-? = 0,025. Supongamos que gl = 5, el valor de t con 5 grados de libertad y un nivel de significancia de 0,025 es,

Tabla t de Student (nivel: 0,800 a 0,999)

La tabla que sigue a continuación representa los valores de la distribución t de Student con glgrados de libertad y un nivel de significancia igual a 1-?.

Notar que para un nivel de significancia de ?/2

En este caso, debemos usar la columna de la tabla correspondiente al nivel de significancia igual a 1-?/2, es decir,

si ? = 0,05 usamos la columna 0,975

si ? = 0,01 usamos la columna 0,995

gl Nivel de Significancia 1 - ?
0,800 0,900 0,950 0,975 0,990 0,995 0,999
1 1,376 3,078 6,314 12,706 31,820 63,656 318,294
2 1,061 1,886 2,920 4,303 6,965 9,925 22,327
3 0,978 1,638 2,353 3,182 4,541 5,841 10,214
4 0,941 1,533 2,132 2,776 3,747 4,604 7,173
5 0,920 1,476 2,015 2,571 3,365 4,032 5,893
6 0,906 1,440 1,943 2,447 3,143 3,707 5,208
7 0,896 1,415 1,895 2,365 2,998 3,499 4,785
8 0,889 1,397 1,860 2,306 2,896 3,355 4,501
9 0,883 1,383 1,833 2,262 2,821 3,250 4,297
10 0,879 1,372 1,812 2,228 2,764 3,169 4,144
11 0,876 1,363 1,796 2,201 2,718 3,106 4,025
12 0,873 1,356 1,782 2,179 2,681 3,055 3,930
13 0,870 1,350 1,771 2,160 2,650 3,012 3,852
14 0,868 1,345 1,761 2,145 2,624 2,977 3,787
15 0,866 1,341 1,753 2,131 2,602 2,947 3,733
16 0,865 1,337 1,746 2,120 2,583 2,921 3,686
17 0,863 1,333 1,740 2,110 2,567 2,898 3,646
18 0,862 1,330 1,734 2,101 2,552 2,878 3,610
19 0,861 1,328 1,729 2,093 2,539 2,861 3,579
20 0,860 1,325 1,725 2,086 2,528 2,845 3,552
21 0,859 1,323 1,721 2,080 2,518 2,831 3,527
22 0,858 1,321 1,717 2,074 2,508 2,819 3,505
23 0,858 1,319 1,714 2,069 2,500 2,807 3,485
24 0,857 1,318 1,711 2,064 2,492 2,797 3,467
25 0,856 1,316 1,708 2,060 2,485 2,787 3,450
26 0,856 1,315 1,706 2,056 2,479 2,779 3,435
27 0,855 1,314 1,703 2,052 2,473 2,771 3,421
28 0,855 1,313 1,701 2,048 2,467 2,763 3,408
29 0,854 1,311 1,699 2,045 2,462 2,756 3,396
30 0,854 1,310 1,697 2,042 2,457 2,750 3,385
35 0,852 1,306 1,690 2,030 2,438 2,724 3,340
40 0,851 1,303 1,684 2,021 2,423 2,704 3,307
45 0,850 1,301 1,679 2,014 2,412 2,690 3,281
50 0,849 1,299 1,676 2,009 2,403 2,678 3,261
60 0,848 1,296 1,671 2,000 2,390 2,660 3,232
70 0,847 1,294 1,667 1,994 2,381 2,648 3,211
80 0,846 1,292 1,664 1,990 2,374 2,639 3,195
90 0,846 1,291 1,662 1,987 2,368 2,632 3,183
100 0,845 1,290 1,660 1,984 2,364 2,626 3,174
200 0,843 1,286 1,652 1,972 2,345 2,601 3,131
500 0,842 1,283 1,648 1,965 2,334 2,586 3,107
1000 0,842 1,282 1,646 1,962 2,330 2,581 3,098

Ejemplo

Si ? = 0,05 tenemos que 1-?/2 = 0,975. Supongamos que gl = 5, el valor de t con 5 grados de libertad y un nivel de significancia de 0,025 es,

Notar, por la observación anterior, que estamos utilizando la columna de la tabla correspondiente a 1-?/2 = 0,975 para obtener el valor de t a un nivel de significancia de ?/2.

Descargar Clase 07

Modelo de Regresión (Parte II)

Método de Mínimos Cuadrados

Tomando como base el modelo de regresión general

Y = X? + ?

donde

Y = (y1, y2, … , yn)

? = (?1, ?2, … , ?p)

? = (?1, ?2, … , ?n)

X : es una matriz nxp

n : es el número de variables

p : es el número de parámetros

este método es empleado para construir una línea recta que se ajuste a los valores observados, permitiendo obtener una ecuación matemática que exprese Y (variable dependiente o respuesta) en función de X (variables independientes).

La ecuación obtenida, nos permitirá predecir con precisión la variable respuesta Y a partir de variables independientes X.

Necesitamos encontrar ?, cuya estimación llamaremos ?*, de tal manera que la cantidad X? sea lo más parecida a Y.

||Y - X?*||2 = min ||Y - X?||2 = min ||?||2

donde el mínimo (min) se toma en el espacio de los ? ? Rp, es decir, este método establece que los valores de ? se deben tomar de forma que se minimice el valor de ||Y - X?||2.

||…||2 representa la norma euclídea (distancia) dada por


Ecuaciones Normales
Sea Y* = X?* el estimador de Y.

Pretendemos que Y* sea aproximadamente igual a Y, entonces consideramos lo siguiente

Xt(Y - X?*) = 0 = XtY - XtX?*

donde Xt es la traspuesta de X

lo anterior da origen a lo que se conoce como ecuaciones normales

XtX?* = XtY

si XtX es invertible, entonces a partir de las ecuaciones normales podemos determinar ?*.

?* = (XtX)-1(XtY)

Propiedades de los Estimadores de Mínimos Cuadrados

Sea el modelo de regresión general

Y = X? + ?

donde

Y = (y1, y2, … , yn)

? = (?1, ?2, … , ?p)

? = (?1, ?2, … , ?n)

X : es una matriz nxp

n : es el número de variables

p : es el número de parámetros

Propiedades

  • ? tiene distribución normal
  • ? ? N(0,?2I)

    esperanza de los errores, E(?) = 0

    varianza de los errores, Var(?) = ?2I

    donde I es la matriz identidad nxn con unos en la diagonal y ceros en las demás posiciones.

  • La propiedad anterior implica que Y tiene distribución normal
  • Y ? N(X?,?2I)

    E(Y) = X? y Var(Y) = ?2I

  • Sea ?* la estimación de ?
  • E(?*) = ?

    E(?i*) = ?i con i = 1,…,p

    ?* es un estimador insesgado de ?

    Por las ecuaciones normales

    ?* = (XtX)-1(XtY), entonces

    E(?*) = E[(XtX)-1(XtY)] = (XtX)-1XtE(Y)

    como E(Y) = X? tenemos

    E(?*) = (XtX)-1(XtX)? = ?

  • La matriz de covarianza de ?* viene dada por
  • ?(?*) = ?2(XtX)-1

    Var(?i*) = ?2(XtX)ii-1 con i = 1,…,p

    sea cii = (XtX)ii-1 con i = 1,…,p entonces

    Var(?i*) = ?2cii con i = 1,…,p

  • ?* tiene distribución normal
  • ?i* ? N(?i,?2cii) con i = 1,…,p

Estimador para la Varianza de los Errores

Sea el modelo de regresión general

Y = X? + ?

donde

Y = (y1, y2, … , yn)

? = (?1, ?2, … , ?p)

? = (?1, ?2, … , ?n)

X : es una matriz nxp

n : es el número de variables

p : es el número de parámetros

Sabemos por las propiedades de los estimadores de mínimos cuadrados que el vector de errores ? tiene distribución normal

? ? N(0,?2I) donde

?i ? N(0,?2) y Var(?i) = ?2 con i = 1,…,n

sin embargo, no conocemos el valor de ?2 y por tanto necesitamos encontrar un estimador.

Sean ?* la estimación de ? y Y* la estimación de Y, entonces

Y* = X?* con ?* = (XtX)-1(XtY)

donde Xt es la traspuesta de X.

Estimador de ?2

Definamos e, el estimador de ? como

e = Y - X?* = Y - Y*

parece razonable utilizar la información proveniente de e para estimar ?2.

Definamos la Suma Cuadrática de los Errores (SSE) como

SSE = ete = YtY - ?*tXtY

entonces el estimador S2 de ?2 se define como

además, S2 es un estimador insesgado de ?2

E(S2) = ?2

Ejemplo 3.2: Mínimos Cuadrados

Planteamiento

Sea Y la variable dependiente y x la variable independiente

Datos

Valores Y Valores x Valores x2
6,15 1,0 1,0
7,9 1,2 1,44
9,4 1,4 1,96
10,5 1,6 2,56
11,0 1,8 3,24
14,0 2,0 4,0

Análisis Gráfico Inicial

Ejemplo 3.2: Análisis Inicial

En la siguiente tabla se muestran los valores de x y Y

valores x valores Y
1,0 6,15
1,2 7,9
1,4 9,4
1,6 10,5
1,8 11,0
2,0 14,0

Antes de proceder a realizar cualquier análisis numérico con los datos, es conveniente graficarlos, tanto para tener una idea de su comportamiento, como para verificar si cumplen con los requerimientos exigidos por los métodos estadísticos que deseamos emplear.

Ejemplo 3.2: Gráfico Y vs. x

Observaciones

  • Notar que los datos siguen aproximadamente un camino de línea recta.
  • Para poder aplicar un modelo de regresión líneal los datos deben tener un comportamiento similar al mostrado en el gráfico, puesto que el método de mínimos cuadrados lo que hace es construir una línea recta que se ajuste a los valores observados.
  • Una vez observado el comportamiento de la variable dependiente Y, en relación a la variable independiente x, y decidido que es posible ajustar una línea recta a los valores, se procede a estimar un modelo de regresión línea adecuado.

Escribiendo un Modelo de Regresión General

Ejemplo 3.2: Modelo de Regresión General

Supongamos que la variable dependiente Y del ejemplo se define como

Y = ?1 + ?2x + ?3x2 + ?

Este modelo de regresión general tiene la forma

Y = X? + ? donde

Y = (y1, y2, y3, y4, y5, y6)

El número de variables n es igual a 6.

? = (?1, ?2, ?3)

El número de p es igual a 3.

? = (?1, ?2, ?3, ?4, ?5, ?6)

X : es una matriz 6×3 con ceros, unos o valores de variables independientes en sus entradas.

El modelo de regresión general propuesto, muestra tres vectores que acompañan a los parámetros ?1, ?2 y ?3.

?1 multiplica un vector de unos, ?2 multiplica al vector x y ?3 multiplica al vector x2, donde x es una variable independiente.

Los valores de Y, x y x2 se muestran en la tabla de datos del ejemplo

La matriz X de dimensiones 6×3 es

La forma explícita de nuestro modelo propuesto

Y = ?1 + ?2x + ?3x2 + ? será entonces

las seis ecuaciones correspondientes son

y1 = 6,15 = ?1 + (1,0)?2 + (1,00)?3 + ?1

y2 = 7,90 = ?1 + (1,2)?2 + (1,44)?3 + ?2

y3 = 9,40 = ?1 + (1,4)?2 + (1,96)?3 + ?3

y4 = 10,5 = ?1 + (1,6)?2 + (2,56)?3 + ?4

y5 = 11,0 = ?1 + (1,8)?2 + (3,24)?3 + ?5

y6 = 14,0 = ?1 + (2,0)?2 + (4,00)?3 + ?6

Estimando los parámetros del modelo

Ejemplo 3.2: Parámetros del modelo

Suponemos que la variable dependiente Y del ejemplo, sigue el siguiente modelo de regresión general

Y = ?1 + ?2x + ?3x2 + ?

Deseamos determinar ?* la estimación de los parámetros ?

?i* es el estimador de ?i con i = 1,2,3

Sabemos por las ecuaciones normales que

?* = (XtX)-1(XtY)

Cuando escribimos explícitamente el modelo de regresión general, propuesto para la variable dependiente Y del ejemplo, se determinó que la forma de la matriz X (6×3) es

entonces Xt la matriz traspuesta de X será

Determinemos la matriz XtX

La inversa de esta matriz 3×3 es

Determinemos el vector XtY

Aplicando entonces las ecuaciones normales, los estimadores ?* de ? son

En base al modelo propuesto

Y = ?1 + ?2x + ?3x2 + ?

obtenemos entonces un modelo estimado

Y* = ?1* + ?2*x + ?3*x2

al sustituir los valores de ?*, toma la forma

Y* = 1,3286 + (4,0795)x + (1,0045)x2

Estimando los Errores del Modelo

Ejemplo 3.2: Errores del modelo

En base al modelo de regresión general propuesto para la variable dependiente Y

Y = ?1 + ?2x + ?3x2 + ?

obtuvimos el modelo estimado

Y* = 1,3286 + (4,0795)x + (1,0045)x2

Deseamos determinar e la estimación de los errores ?. Puesto que e no es más que el error cometido al estimar Y por Y*, sabemos que

e = Y - Y*

Los valores de Y* los obtenemos al sustituir los valores de la variable independiente x y x2 en la ecuación de Y*, entonces

Estimando la Varianza de los Errores del Modelo

Ejemplo 3.2: Varianza de los Errores del Modelo

En base al modelo de regresión general propuesto para la variable dependiente Y

Y = ?1 + ?2x + ?3x2 + ?

obtuvimos el modelo estimado

Y* = 1,3286 + (4,0795)x + (1,0045)x2

además, estimamos el error ? cometido al estimar Y por Y*

donde e es el estimador de ?.

La Suma Cuadrática de los Errores (SSE) se define como

SSE = ete = YtY - ?*tXtY

entonces en el ejemplo SSE = 1,3825

Deseamos determinar S2 la estimación de la varianza ?2 de los errores ?.

Sabemos que S2 se define como

donde

n : es el número de variables

p : es el número de parámetros

en el ejemplo n = 6 y p = 3, entonces

Análisis Gráfico Final

Ejemplo 3.2: Análisis Final

En base al modelo de regresión general propuesto para la variable dependiente Y

Y = ?1 + ?2x + ?3x2 + ?

obtuvimos el modelo estimado

Y* = 1,3286 + (4,0795)x + (1,0045)x2

además, estimamos el error ? cometido al estimar Y por Y* con e = Y - Y*.

En la siguiente tabla se muestran los valores de x, x2, Y, Y*, así como de los estimadores e de los errores ?.

valores x valores x2 valores Y valores Y* valores e
1,0 1,00 6,15 6,41 -0,26
1,2 1,44 7,9 7,67 0,23
1,4 1,96 9,4 9,01 0,39
1,6 2,56 10,5 10,43 0,07
1,8 3,24 11,0 11,93 -0,93
2,0 4,00 14,0 13,51 0,49

Ejemplo 3.2: Gráfico Y vs. x, Y* vs. x y Recta de Ajuste

Observaciones

  • Los valores de Y* están cercanos a los valores de Y y describen, como era de esperarse, la trayectoria de una recta.
  • La diferencia entre los puntos, que se puede observar en el gráfico, corresponde a los errores estimados e. Cuando el error es negativo, el valor estimado Y*, estará por encima del valor observado Y.
  • El modelo estimado Y*, nos permitirá predecir valores de Y, al variar la variable independiente x.

Asignación: Problema 3.1

Planteamiento

La resistencia a la tensión de cierto papel está relacionada con la cantidad de cierta madera presente en la pulpa. Se toman 10 muestras

Resistencia % Madera
160 10
171 15
175 15
182 20
184 20
181 20
188 25
193 25
195 28
200 30

Preguntas

  1. Grafique los datos (variable dependiente Y vs. variable independiente x)
  2. ¿ Que puede decir del comportamiento de los datos, al observar el gráfico ?
  3. ¿ Parece razonable establecer un modelo de regresión lineal para ajustar los datos ?, justifique su respuesta.

Asignación: Problema 3.2

Planteamiento

Mismo planteamiento del problema 3.1

Preguntas

  1. Proponga un modelo de regresión lineal para ajustar los datos.
  2. Estime los parámetros del modelo.
  3. Estime los errores del modelo.
  4. Estime la varianza de los errores del modelo.
  5. Grafique los datos junto al modelo ajustado y comente los resultados.

Descargar Clase 05

Modelo de Regresión (Parte I)

Prueba estadística y error experimental

Ejemplo 3.1: Producción de un Químico

Planteamiento

En una fábrica, se desea saber si un método modificado B produce mayor cantidad de cierto químico que el método estándar A.

El experimento consiste en hacer una secuencia de 10 grupos con el método A y otra secuencia de 10 con el método B.

Datos

Método A Método B
Orden Producto Orden Producto
1 89,7 11 84,7
2 81,4 12 86,1
3 84,5 13 83,2
4 84,8 14 91,9
5 87,3 15 86,3
6 79,7 16 79,3
7 85,1 17 82,6
8 81,7 18 89,1
9 83,7 19 83,7
10 84,5 20 88,5

Análisis Superficial

Pregunta

¿ Hay evidencias de que el método B produce mayor cantidad del químico que el método A ?

Procedimiento

  • Graficamos los datos
  • Calculamos la media de cada grupo
  • Calculamos la diferencia entre las medias
  • Comparamos con datos históricos
  • Tratamos de responder la pregunta

Ejemplo 3.1: Producción de un Químico

La media de los 10 grupos obtenidos con el método A, representada en el gráfico por la línea horizontal del lado izquierdo, es

La media de los 10 grupos obtenidos con el método B, representada en el gráfico por la línea horizontal del lado derecho, es

La diferencia entre ambas medias es

Supongamos que podemos comparar la diferencia de 1,3 con 191 diferencias de promedios de 2 series de 10 corridas consecutivas obtenidas en base a datos históricos del método A.

Vemos entonces que 1,3 es una diferencia mayor de lo habitual y decidimos que es suficiente para afirmar que el método B es mejor que él método A.

Observaciones

  • Estadísticamente este resultado carece de valides, puesto que no hemos demostrado que la diferencia es estadísticamente significativa
  • Se debe realizar una prueba estadística para dar sustento a las afirmaciones sobre los resultados de un experimento

Prueba Estadística

Pasos en la realización de una prueba estadística:

  1. Fijamos una hipótesis que queremos probar, la llamaremos hipótesis nula y la denotaremos por H0.
  2. Obtenemos de los datos algún criterio relevante o un estadístico apropiado, para probar H0 contra una hipótesis alternativa que denotaremos por H1.
  3. Comparamos nuestro criterio con alguna distribución de referencia adecuada, que nos indique como se distribuirá el criterio bajo H0.
  4. Basados en el punto 3, calculamos la probabilidad de que una discrepancia por lo menos tan grande como la observada pueda ocurrir. Esta probabilidad es llamada nivel de significancia y se denota por ?.
  5. Decidimos si la hipótesis nula es verdadera o falsa en base a lo siguiente:
  6. La hipótesis nula (H0) es verdadera si el criterio (probabilidad calculada) es mayor o igual que el nivel de significancia ?,

    criterio ? ?

    La hipótesis nula (H0) es falsa si el criterio (probabilidad calculada) es menor que el nivel de significancia ?, en este caso se dice que el resultado es estadísticamente significativo

    criterio < ?

    Si el nivel de significancia ? es pequeño, la hipótesis nula (H0) queda desacreditada, y decimos que la diferencia es estadísticamente significativa.

Ejemplo 3.1: Prueba Estadística

Hipótesis nula: La media del método A es igual a la media del método B.

Hipótesis alternativa: La media del método B es mayor que la media del método A.

Criterio: El criterio seleccionado es la diferencia entre medias.

Para completar el ejemplo se deben realizar los pasos 3, 4 y 5 mediante una prueba de hipótesis que veremos como parte del tema 4.

Error Experimental

El error experimental, también llamado ruido, son las fluctuaciones que se producen al repetir una operación bajo condiciones semejantes.

Podemos cometer dos tipos de errores, ellos se encuentran catalogados como error tipo I y error tipo II.

Error Tipo I

Es la probabilidad que tenemos de rechazar la hipótesis nula H0, cuando H0 es cierta.

P(rechazar H0/H0) = ?

A esta probabilidad se le denomina nivel de la prueba o nivel de significancia.

Error Tipo II

Es la probabilidad que tenemos de no rechazar H0, cuando H0 es falsa, es decir, la probabilidad que tenemos de no rechazar la hipótesis nula, cuando la hipótesis alternativa H1 es cierta.

P(no rechazar H0/H1) = ?

Potencia de la Prueba

Es la probabilidad que tenemos de rechazar la hipótesis nula H0, cuando la hipótesis alternativa H1 es cierta.

P(rechazar H0/H1) = 1 - ? ? ?

Observaciones

  • Para disminuir la posibilidad de cometer errores (tipo I, tipoII), se debe aumentar el tamaño de la muestra
  • En general, se fija ? y se trata de obtener un criterio tal que ? sea lo menor posible.
  • Valores tradicionales de ?: 0,1; 0,05 y 0,01
  • Si el criterio es menor que ? = 0,05 el resultado es significativo y si es menor que ? = 0,01 el resultado es altamente significativo.
  • Notar que estamos trabajando con probabilidades y ? nos proporciona el margen de error que podemos cometer. Si H0 es verdadera y ? = 0,05 podemos equivocarnos en 1 de cada 20 casos; si ? = 0,01 el error puede ocurrir en 1 de cada 100 casos.

Modelos Matemáticos

El objetivo es poder encontrar el mejor modelo que nos auxilie a la hora de poder tomar decisiones.

En la práctica tenemos algún conocimiento básico del fenómeno que nos permite clasificar los modelos, imposibles o posibles.

En general, estamos interesados en relaciones de la forma

? = f(x1, x2, … , xn)

donde

? : Valor respuesta

f : Función de parámetros xi con i = 1,…,n

xi : Variables explicativas con i = 1,…,n

n : número de variables explicativas

Modelo de Regresión General

El modelo de regresión general está definido como

Y = X? + ?

donde

Y = (y1, y2, … , yn)

es un vector n dimensional de variables dependientes.

? = (?1, ?2, … , ?p)

es un vector p dimensional de parámetros

? = (?1, ?2, … , ?n)

es un vector n dimensional de errores

X : es una matriz nxp con ceros, unos o valores de variables independientes en sus entradas.

n : es el número de variables

p : es el número de parámetros

Forma Explícita del Modelo de Regresión General

El modelo de regresión general tendrá entonces la forma

Y = ?1x1 + ?2x2 + … + ?pxp + ?

al multiplicar las matrices obtenemos las n ecuaciones

Los modelos de regresión general también se conocen como modelos lineales

Descargar Clase 04

Estadística Descriptiva (Parte II)

Medidas de Centralización

También llamadas medidas de posición, localización o medidas de la tendencia central. Las empleamos para poder apreciar cuantitativamente la diferencia entre las distribuciones de dos o más muestras.

El valor de las medidas de centralización se encuentra entre el menor y el mayor de los valores de la muestra.

Posición, Simetría y Dispersión

Las distribuciones de frecuencia poseen tres características fundamentales que detallamos a continuación.

Posición

Cuando las distribuciones de frecuencia de dos muestras no son iguales, se dice que las distribuciones difieren en su posición.

Simetría

Si observamos la distribución de frecuencia absoluta o relativa de una muestra y dividimos su histograma en dos partes semejantes que podamos hacer coincidir, entonces la muestra tiene una distribución simétrica. Cuando la distribución no es simétrica se dice que es asimétrica.

Dispersión

Cuando observamos la frecuencia de las clases centrales de dos muestras y estas no son semejantes, decimos que las distribuciones de las muestras difieren en su dispersión.

Medidas de centralización fundamentales

  1. Moda
  2. Mediana
  3. Media
  4. Media Truncada

Moda

La moda es el valor observado de la variable a la cual corresponde la mayor frecuencia.

Si se trata de una distribución de frecuencias de datos agrupados por clases la moda es la marca de clase de la clase a la cual corresponde la mayor frecuencia, también llamada clase modal.

Si hay dos clases con la mayor frecuencia, se dice que la distribución es bimodal. Si el número de clases con la mayor frecuencia es más de dos, se dice que la distribución es multimodal.

Ejemplo 1.1: Moda y Clase Modal

Moda = 95

El valor 95 tiene una frecuencia de 5, la mayor en la tabla de datos del ejemplo 1.1.

Clase modal =

En la tabla estadística de frecuencias del ejemplo 1.1 (ver publicación anterior), podemos observar que la distribución es bimodal, puesto que las clases 92 - 96 (marca de clase = 94) y 97 - 101 (marca de clase = 99) tienen ambas la mayor frecuencia (8), lo cual aparece reflejado claramente en el histograma de distribución de frecuencia absoluta.

Mediana

La mediana es el valor tal que si ordenamos por magnitud los datos, el 50% de las observaciones es mayor que él y el 50% es menor.

Si el número de datos (n) es impar se toma como mediana el valor central de las observaciones, si xi con i = 1,…,n representa el valor de la i_ésima observación entonces

Mediana =

Si el número de datos (n) es par se toma como mediana el valor promedio de las observaciones centrales

Mediana =

Ejemplo 1.1: Mediana

En nuestro ejemplo el número de datos es 40 (n = 40), empleando la fórmula de la mediana para n par tenemos,

Mediana =

Nota

Algunos programas de estadística en el caso de n par toman como mediana el valor central de las observaciones,

Mediana =

Ejemplo 1.1: Mediana = con n = 40.

Media

También llamada la media aritmética, es el promedio que resulta de dividir la suma de las observaciones entre el número de ellas.

Si n es el número de datos, xi con i = 1,…,n representa el valor de la i_ésima observación, y es la media de la muestra entonces,

Si de los n datos tomamos k ? n datos diferentes con una frecuencia f(xi) con 1 ? i ? k, entonces podemos reescribir la ecuación de la media como

Esta última ecuación se aplica también en los casos en que sólo contamos con una tabla estadística de frecuencia tomando como los xi la marca de clase y como f(xi) la frecuencia de cada clase.

Propiedad de la Media Aritmética

La media aritmética, al sumar las diferencias llamadas desviaciones o residuos, presenta la siguiente propiedad

Ejemplo 1.1: Media

Comparación entre media y mediana

Podemos establecer las siguientes comparaciones fundamentales entre la media y la mediana:

  • La media es muy sensible a observaciones extremas mientras la mediana no lo es tanto.
  • Cuando la distribución de frecuencias es simétrica la media y la mediana coinciden con el valor central de la muestra.
  • Si la distribución de los datos es asimétrica la media y la mediana difieren mucho y se deben calcular ambas. En este caso la influencia es mayor en la media que en la mediana.

Media Truncada

Para calcular la media truncada eliminamos el 5% menor y el 5% mayor de los datos y calculamos la media de los datos restantes.

Ejemplo 1.1: Media Truncada

Eliminamos los 40*0,05 = 2 datos menores y los 2 datos mayores para quedarnos con 36 datos, así dejamos fuera a 82, 85, 110 y 111.

Por lo general en las competencias deportivas, se prefiere el uso de la media truncada, de esta manera se evita que el puntaje de la prueba se vea afectado por datos extremos muy bajos o muy altos.

Medidas de Dispersión

Nos permiten medir la dispersión en la distribución de la muestra.

Medidas de dispersión fundamentales

  1. Rango
  2. Varianza
  3. Desviación Estándar
  4. Desviación Absoluta
  5. Rango Intercuartil

Rango

El rango (Rag) también llamado recorrido se define como

Rag = xmax - xmin

donde xmax es el máximo valor observado en la muestra y xmin es el mínimo valor observado en la muestra.

Ejemplo 1.1: Rango

Rag = 111 - 82 = 29

Observaciones

Sean las mediciones 1, 14, 15, 11, 14, 13, 12 y 17, su rango es 16

Notar como el valor 1 hace que el recorrido sea 16. El valor 1 es una observación extrema o atípica que afecta la magnitud del rango.

Ahora, no tomemos en cuenta el valor 1 y observemos que ocurre con el recorrido.

Al eliminar el valor atípico 1 la magnitud del rango disminuyó significativamente, pasando de 16 a 6. Es evidente que un valor extremo afecta profundamente al recorrido.

Varianza

Es intuitivo pensar en una medida de la dispersión de la distribución, que se basa en las desviaciones de los valores xi respecto a una medida de posición de la misma. Este valor se conoce como varianza y se denota por s2.

Si n es el número de datos, xi con i = 1,…,n representa el valor de la i_ésima observación y es la media de la muestra entonces,

Varianza Estándar

Varianza Corregida

Notar que la varianza no es más que una medida de los cuadrados de las diferencias.

Ejemplo 1.1: Varianza

Varianza Estándar

Varianza Corregida

Observaciones

  • En mecánica, el sólo conocimiento del centro de gravedad no nos indica la forma en que la masa está extendida o dispersa en torno a su centro. El “segundo momento” o “momento de inercia” nos da una medida de esa dispersión. En probabilidades, este segundo momento es la varianza.
  • La varianza siempre es no negativa.
  • Un valor pequeño de la varianza significa que es poco probable que una variable x se desvíe mucho del valor esperado o media.

Desviación Estándar

La desviación estándar, también llamada desviación típica, se define como la raíz cuadrada de la varianza y se denota por el símbolo ?.

Si n es el número de datos, xi con i = 1,…,n representa el valor de la i_ésima observación y es la media de la muestra entonces,

Desviación Estándar (varianza estándar)

Desviación Estándar (varianza corregida)

Ejemplo 1.1: Desviación Estándar

Desviación Estándar (varianza estándar)

Desviación Estándar (varianza corregida)


Observaciones

  • ?2 = Varianza.
  • La desviación típica es un promedio ponderado; en realidad, ? es la media cuadrática ponderada de la distancia de cada valor de x al valor esperado (media).
  • Para una distribución normal, alrededor del 68% de la distribución está dentro de una desviación estándar de la media, alrededor del 95% está dentro de dos desviaciones estándar de la media y alredeor del 99% están dentro de tres desviaciones estándar de la media.

Desviación Absoluta

La desviación absoluta mide la dispersión de los valores de una muestra y se denota por ?abs

Si n es el número de datos, xi con i = 1,…,n representa el valor de la i_ésima observación y es la media de la muestra entonces,

También se emplea el promedio de las desviaciones absolutas que se denota por

Ejemplo 1.1: Promedio de las desviaciones absolutas

Rango Intercuartil

Cuartiles

Si los datos se encuentran ordenados por magnitud de menor a mayor, n es el número de datos y xi con i = 1,…,n representa el valor de la i_ésima observación de la muestra entonces,

Q1 = 25% de los datos = x(n+1)/4

Q2 = 50% de los datos = mediana

Q3 = 75% de los datos = x3(n+1)/4

Q1, Q2 y Q3 se denominan cuartiles.

Para el calculo de Q1 y Q3 si las posiciones de las observaciones xi no son enteras se interpola, por ejemplo sea n = 10 entonces,

esto indica que tenemos que interpolar con x2 y x3 para determinar Q1

Rango Intercuartil

El Rango Intercuartil (RI) nos proporciona el 50% de los datos más centrales.

RI = Q3 - Q1

Ejemplo 1.1: Cuartiles y Rango Intercuartil

interpolamos para determinar el valor del cuartil Q1

Q2 = Mediana = 98

interpolamos para determinar el valor del cuartil Q3

Rango Intercuartil

Diagrama de Caja

Los cuartiles se representan mediante un diagrama de caja (Box Plot). El diagrama de caja mide la dispersión de los valores de una muestra permitiendo identificar los subgrupos más dispersos, los datos atípicos y la mediana todo en un solo gráfico.

Pasos para la elaboración del gráfico

  1. Ordenar los datos: xmin, xmax, Q1, Q2, Q3
  2. Dibujar un rectángulo con extremos en Q1 y Q3. El cuartil Q2 se señala como una línea vertical.
  3. Calcular los límites admisibles superior e inferior
    1. Límite admisible inferior
    2. Límite admisible superior
  4. A veces en vez del factor 1,5 se emplea 0,75

  5. Se consideran valores atípicos las observaciones fuera del intervalo (LI, LS) y se marcan con un asterisco (*).
  6. Se dibuja una línea recta horizontal que vaya desde cada extremo del rectángulo al valor más alejado no atípico.

Ejemplo 1.1: Diagrama de Caja

xmin = 82

xmax = 111

Q1 = 91,25

Q2 = 98

Q3 = 104,75

En nuestro ejemplo no hay observaciones atípicas, puesto que todos los valores se encuentran dentro del intervalo (LI, LS).


Descripción del gráfico

  • Los datos atípicos se marcan después de las líneas horizontales con un asteristo (*), estos datos ameritan particular atención.
  • El rectángulo representa el rango intercuartil es decir, el 50% de los datos más centrales de la muestra se encuentra contenido en él.
  • Las zonas de las líneas horizontales a cada lado del rectángulo (25% de la muestra a cada extremo) representan la muestra más dispersa.
  • La línea vertical en el interior del rectángulo representa la mediana.
  • Cuando el rectángulo es corto significa que la muestra es menos dispersa.
  • Cuando el rectángulo es más largo significa que la muestra es más dispersa.

Asignación: Problema 1.2

Planteamiento

La tabla III y la tabla IV representan la medición de la variable peso en una muestra M3 y M4 de 100 personas cada una.

Tabla III

Peso en Kg Frecuencia
60 - 65 3
66 - 71 12
72 - 77 70
78 - 83 12
84 - 89 3

Tabla IV

Peso en Kg Frecuencia
60 - 65 8
66 - 71 22
72 - 77 40
78 - 83 15
84 - 89 7
90 - 95 5
96 - 101 3

Preguntas

  1. Represente mediante histogramas estas dos distribuciones de frecuencias
  2. Compare las muestras M2 del problema 1.1 y M3, ¿ Qué representan sus distribuciones de frecuencia ?
  3. Que puede decir en cuanto a la simetría de las muestras M3 y M4.
  4. Emplee las medidas de centralización en cada muestra y analice los resultados.
  5. Emplee las medidas de dispersión en cada muestra y analice los resultados.
  6. Realice el diagrama de caja de cada muestra e interprete los resultados.

Descargar Clase 02

Estadística Descriptiva (Parte I)

Estadística

Bienvenido al curso de Estadística Nivel I. Si deseas aprovechar completamente el curso, antes de seguir adelante lee EstNivI - Ubícate.

Antes de poder realizar un análisis estadístico sobre los datos de un problema, se requiere comprender algunos fundamentos de la estadística que se tratarán a continuación.

Estadística es la ciencia que tiene como principal objetivo, clasificar y estudiar mediante técnicas y métodos específicos, fenómenos que puedan ser analizados numéricamente.

La Estadística es un subconjunto de la Teoría de las Probabilidades, enmarcada a su vez dentro de la Teoría de la Medida, un área bastante extensa de la Matemática.

Selección de la Muestra e Inferencia Estadística

Para seleccionar una muestra debemos determinar formas eficientes de obtener datos sobre un fenómeno.

Inferencia Estadística

Consiste en analizar los datos para hacer inferencia sobre la población relacionada con el fenómeno.


Fenómeno Aleatorio

Consiste de una entrada (variables causas) que es sometida a un proceso (determinístico o aleatorio) que origina una salida (variables respuesta).

La Estadística explica discrepancias desarrollando Modelos Matemáticos (modelos probabilísticos) que permitan explicar el fenómeno.

Proceso Relacionado al Fenómeno Aleatorio

El proceso puede ser determinístico o aleatorio.

Proceso Determinístico

Determinístico significa que no hay incertidumbre, si xi con i = 1,…n son variables causas (independientes), y es la variable respuesta (dependiente), entonces existe una función f tal que

y = f(x1,x2,…,xn)

Proceso Aleatorio

Proceso bajo incertidumbre, si xi con i = 1,…n son variables causas (independientes), también tendremos al menos una variable ? que llamaremos aleatoria (error o ruído), dicha variable pretende medir o gobernar la incertidumbre, y es la variable respuesta (dependiente), entonces existe una función f tal que

y = f(x1,x2,…,xn,?)

Algunos Problemas que Resuelve la Estadística

  • Descripción de Datos, procedimientos para resumir efectivamente la información: Estadística Descriptiva
  • Elección y Análisis de Muestras, Muestra ? Población, nos planteamos dos preguntas:
    1. ¿ Cómo elegir un subconjunto representativo de una población ?
      1. Muestreo
      2. Diseño de experimentos
    2. ¿ Cómo obtener inferencia sobre la población en base a lo observado en la muestra ?
      1. Modelos Probabilísticos
  • Contraste de Hipótesis
  • Prueba de Hipótesis
    1. Diseño de Experimentos
    2. Métodos para la interpretación de resultados
  • Mediciones de Relaciones
  • Predicción
  • Decisión

Fases del Análisis Estadístico

  1. Planteamiento del Problema
    1. Definir los objetivos del estudio
    2. Relacionar este objetivo con los valores numéricos de variables observadas.
  2. Construir un Modelo Estadístico
    1. Modelos Extrapolativos
    2. Modelos Explicativos
    3. Modelos Estáticos
    4. Modelos Dinámicos
  3. Recolección de la Información Muestral
    1. Por Muestreo
    2. Por Diseño
  4. Depuración de la muestra
    1. Regla Empírica: Entre el 2% y el 5% de la muestra son errores de medición, tipeo, etc.
  5. Estimación de los parámetros del modelo
    1. Los modelos estadísticos dependen de valores desconocidos (parámetros).
    2. Utilizamos información de la muestra para “conocer” (estimar) el valor de los parámetros.
    3. Cuantificar el error cometido.
  6. Hipótesis de Simplificación: entre los modelos que mejor expliquen un fenómeno debemos asumir el más sencillo (de menor número de variables), se debe observar cuidadosamente la relación costo-utilidad.
  7. Crítica y Diagnosis del Modelo
    1. Alcances y limitaciones
    2. Condiciones de aplicabilidad.

Estadística Descriptiva

Consiste en aplicar mecanismos eficientes para resumir los datos.

Mediante la aplicación de estos mecanismos podemos describir el comportamiento de los datos que conforman la muestra.

El comportamiento de los datos puede ser expuesto a través de:

  • Descripción Gráfica
    1. diagrama de puntos
    2. diagrama de tallo y hoja
    3. histograma
    4. diagrama de caja
  • Medidas Descriptivas
    1. medidas de centralización
      1. moda
      2. mediana
      3. media
      4. media truncada
    2. medidas de dispersión
      1. rango
      2. varianza
      3. desviación estándar
      4. desviación absoluta
      5. rango intercuartil
  • En general, combinando los dos métodos anteriores.

Nota:

Las medidas de centralización y las medidas de dispersión se abordarán el 04/02/09 junto al diagrama de caja.

Ejemplo 1.1: Póliza de Seguros

Planteamiento

Las cuotas anuales de 40 compañías de seguros de una póliza de US$ 25.000,00 para un hombre de 45 años, se listan en la tabla siguiente.

Datos

82 85 86 87 87 89 89 90 91 91
92 93 94 95 98 95 95 95 97 98
99 99 100 100 101 103 103 103 105 104
105 106 107 107 107 95 109 110 110 111

Número de datos: 40

Número de datos diferentes: 24

Importante:

Estos mismos datos serán empleados en los próximos temas.

Diagrama de Puntos

En el diagrama de puntos se colocan los datos en el eje X y sobre cada uno de ellos, se dibujan tantos puntos como ocurrencias del dato se encuentren.

Ejemplo 1.1: Diagrama de Puntos

Descripción del gráfico

  • El número total de puntos sobre cada dato representa su frecuencia
  • Este gráfico nos permite ver rápidamente los datos de mayor ocurrencia.
  • También podemos observar a través de esta representación gráfica como se distribuyen los datos. Los datos más dispersos se encuentran por debajo de 90, mientras que entre el rango de 90 a 99 y de 100 a 109 la distribución se mantiene estable.

Diagrama de Tallo y Hoja

En el diagrama de tallo y hoja se separan las unidades del resto de los dígitos que componen un número.

Ejemplos

  1. 82 = 8 (tallo) + 2 (hoja)
  2. 110 = 11 (tallo) + 0 (hoja)
  3. 1 = 0 (tallo) + 1 (hoja)

Ejemplo 1.1: Diagrama de Tallo y Hoja

Descripción del gráfico

  • La columna más a la izquierda representa el número de datos en la fila. Los paréntesis que acompañan al número 16 (número de datos en la fila) indican que la mediana se encuentra en esa fila.
  • La primera columna a la izquierda de la línea vertical representa a los tallos.
  • Las columnas a la derecha de la línea vertical representan a las hojas.
  • Este gráfico nos permite resumir los datos agrupándolos de tal manera que nos da una visual muy clara de su distribución. Note como los datos por debajo de 90 (fila 1) son los más dispersos. Note además, como vimos en el Diagrama de Puntos, que entre el rango de 90 a 99 (fila 2) y de 100 a 109 (fila 3) la distribución se mantiene estable.

Distribuciones de Frecuencias

Una distribución de frecuencia consiste en agrupar los datos por clases.

Continuando con la descripción gráfica de datos, tomaremos el ejemplo de la póliza de seguros, para realizar paso a paso un análisis de frecuencias.

Pasos en la elaboración de una Distribución de Frecuencia

  1. Establecer las clases o intervalos
  2. Ordenar los datos en cada clase
  3. Contar los datos en cada clase
  4. Presentar los resultados
    1. Tabla estadística de frecuencias
    2. Histogramas

Número de Clases

Es conveniente emplear entre 5 y 15 clases. Se debe tomar un número de clases aproximadamente igual a la raíz cuadrada del número de muestras es decir,

Nº de clases

donde n es el número de muestras

Ejemplo 1.1: Número de Clases

se toma 6 como el número de clases.

Datos por Clase

Para establecer cuantos datos hay en cada clase se determina el rango de la muestra y se divide entre el número de clases.

Rango de la muestra = xmax- xmin

donde xmax y xmin son el máximo y el mínimo valor observado en la muestra.

Nº de datos por clase =

Ejemplo 1.1: Número de datos por clase

cada clase tiene longitud igual a 5.

Frecuencias

Frecuencia absoluta

Número de repeticiones de cada dato de la muestra se denota por f.

Frecuencia por clases

Suma de las frecuencias absolutas de los elementos de cada clase.

Frecuencia relativa

Cociente que resulta de dividir la frecuencia absoluta entre el número de datos f/n. La frecuencia relativa representa el tanto por uno.

Frecuencia acumulada

Se calcula como la suma de su frecuencia más todas las anteriores, dependiendo de la frecuencia que se elija, esta puede ser frecuencia absoluta acumulada o frecuencia relativa acumulada.

Regla general

Cuando los datos son numerosos (más de 30), es conveniente agrupar sus características en intervalos, con el fin de tener una mejor visión del conjunto de la encuesta, estos intervalos se llaman intervalos de clase.

Tabla Estadística de Frecuencias

Ejemplo 1.1: Tabla Estadística de Frecuencias

Clase F. absoluta F. relativa F. acumulada
82 - 86 3 0,075 0,075
87 - 91 7 0,175 0,250
92 - 96 8 0,2 0,450
97 - 101 8 0,2 0,650
102 - 106 7 0,175 0,825
107 - 111 7 0,175 1

Nota

Como puede observar en la tabla, tenemos 6 clases y 5 datos por clase, como se calculó en pasos anteriores. La suma total de la columna de las frecuencias absolutas debe ser igual al número de muestras (40), por otra parte, la suma total de la columna de las frecuencias relativas debe ser igual a uno.

Histogramas

La tabla estadística de frecuencias normalmente es representada utilizando histogramas.

Ejemplo 1.1: Distribución de Frecuencia Absoluta

Descripción del gráfico

  • Al agrupar los datos por clases obtenemos una mejor visión de como están distribuidos.
  • En la distribución de frecuencia absoluta la suma de las frecuencias de las clases debe ser igual al número de datos (40 en nuestro ejemplo).
  • Como puede ver, si observa el punto medio del gráfico, este no es simétrico.
  • Se puede observar claramente que sólo 3 compañías tienen cuotas por debajo de 87.
  • También se puede observar que las otras compañías (por encima de 86), se encuentran distribuidas casi en igual proporción entre los 5 intervalos restantes.

Ejemplo 1.1: Distribución de Frecuencia Absoluta Acumulada

Descripción del gráfico

  • Al agrupar los datos por clases la distribución de frecuencia acumulada nos proporciona una mejor visión del aporte de cada clase.
  • Note que el aporte de las clases por encima de 86 es prácticamente el mismo. Podemos encontrar prácticamente el mismo número de compañías, ofertando en todos los rangos de cuotas por encima de 86.

Asignación: Problema 1.1

Planteamiento

Sean dos distribuciones de frecuencias de la variable peso, medida en dos muestras de 100 personas cada una. En la Tabla I, la distribución corresponde a una muestra M1 de personas desnutridas; en la Tabla II, la distribución corresponde a una muestra M2 construida con las mismas personas de la muestra M1, luego de haber sido sometidas a un proceso de recuperación de su nutrición.

Tabla I

Peso en Kg Frecuencia
40 - 45 8
46 - 51 22
52 - 57 40
58 - 63 22
64 - 69 8

Tabla II

Peso en Kg Frecuencia
60 - 65 8
66 - 71 22
72 - 77 40
78 - 83 22
84 - 89 8

Preguntas

  1. Deduzca como se obtuvieron las clases y el número de elementos por clase en ambas tablas.
  2. Represente mediante histogramas estas distribuciones de frecuencias.
  3. Que puede decir de los histogramas (elaborados en la pregunta 2) al compararlos.

Descargar Clase 01

FELIZ AÑO 2009

Feliz Año 2009 para todos.

Les deseo salud y prosperidad para ustedes y sus seres queridos. Que todas sus metas se hagan realidad y que el aumento de su felicidad sea la medida de su progreso.

Recuerden ayudar al prójimo siempre que se pueda (empezando por la familia) para que con nuestro pequeño aporte contribuyamos a mejorar el mundo en que vivimos.

Es muy loable pensar en cambiar el mundo, sólo que en la mayoría de los casos es poco realista, para ello necesitaríamos del poder que otros desperdician, pero si hay algo que definitivamente podemos cambiar y eso es nuestro entorno. ¡HAGAMOS LA PRUEBA!

Saludos.

Instalar phpMyAdmin en Vista

Podemos hacer todo el trabajo con MySQL a través de la línea de comandos, pero es mucho más sencillo si usamos una interfaz gráfica.

Instalando phpMyAdmin 3.0.1.1 en Vista

phpMyAdmin es la interfaz gráfica para MySQL de uso libre más popular en el mundo. Si deseas mayor información visita http://www.phpmyadmin.net

Descarga desde aquí phpMyAdmin 3.0.1.1 (última a la fecha). Ve hasta phpMyAdmin 3.0.1.1 y selecciona zip para descargar el archivo:

phpMyAdmin-3.0.1.1-all-languages.zip

Ya que contamos con el archivo necesario para la instalación, sigue los siguientes pasos:

  1. Descomprime el archivo phpMyAdmin-3.0.1.1-all-languages.zip en el escritorio.
  2. Renombra la carpeta que aparece al descomprimir como phpMyAdmin.
  3. Mueve la carpeta a C:\webserver\htdocs (si seguiste nuestro post del 30/10/2008) o hasta donde se encuentre tú carpeta \htdocs.
  4. Abre el Bloc de notas y crea un archivo de configuración para phpMyAdmin siguiendo uno de estos caminos:
  5. 4.1 Si no deseas añadir una contraseña a phpMyAdmin:

    Sustituye clave por la clave root de MySQL.

    4.2 Si deseas usar una contraseña con phpMyAdmin:

  6. Guarda el archivo como config.inc.php en la carpeta phpMyAdmin.

Probando la instalación de phpMyAdmin

  1. Ejecuta tu explorador de Internet.
  2. Escribe http://localhost/phpMyAdmin/index.php
  3. Debe aparecer la página home de phpMyAdmin. Previamente deberás escribir la contraseña root de MySQL si escogiste la opción 4.2.

Que las apariencias no te engañen, phpMyAdmin es una herramienta muy potente y fácil de usar. Si ves un mensaje de error en vez de la página home de phpMyAdmin, verifica que MySQL se esté ejecutando.