Correlacion Lineal

50 %
50 %
Information about Correlacion Lineal

Published on December 19, 2016

Author: ELPHEGOTORRES

Source: slideshare.net

1. 5.3 MEDIDAS DE RELACION ENTRE DOS VARIABLES ALEATORIAS DISCRETAS. ESTADISTICA Y PROBABILIDAD GRUPO: 1EM14 EQUIPO: “PEARSON ”

2. INTEGRANTES: ARMANDO SOTO REYES KEVIN RUBIO GONZALEZ ELFEGO LOPEZ TORRES GONZALO ZETINA LIRA 5.3.2 CORRELACION

3. Con frecuencia, científicos e ingenieros reúnen datos con el propósito de determinar la naturaleza de la relación entre dos cantidades. Por ejemplo, un ingeniero químico puede realizar varias veces un proceso químico para estudiar la relación entre la concentración de cierto catalizador y la producción del proceso. Los MÉTODOS DE CORRELACIÓN y LA REGRESIÓN LINEAL SIMPLE; ambos se utilizan para: analizar datos bivariados con la finalidad de determinar si un ajuste lineal es adecuado, calcular la ecuación de la recta si es adecuado, y usar esta ecuación con el fin de hacer inferencias respecto de la relación entre ambas cantidades.Cada vez que realiza éste, registra la concentración X y la producción Y. Por consiguiente, el experimento genera datos bivariados; un conjunto de pares ordenados ( , ), . . . , ( , ).1x 1y nx ny El primer coeficiente de correlación publicado fue producto del trabajo de sir Francis Galton, quien, en 1888, midió la estatura y longitud del antebrazo, respectivamente, de 348 hombres adultos. (En realidad, midió la distancia del codo a la punta del dedo cordial, lo que se conocía como un cúbito.) 1 2 3 4 Si se denota la estatura del i-ésimo hombre mediante , y la longitud de su antebrazo como , entonces los datos de Galton consistían de 348 pares ordenados ( , ). La figura presenta una recreación simulada de estos datos, con base en una tabla que construyó Galton. ix iy ix iy

4. Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hombres más altos tienden a tener antebrazos más largos. La pendiente es casi constante en toda la gráfica, esto indica que los puntos están agrupados alrededor de una línea recta. La línea sobrepuesta sobre la gráfica representa una recta especial conocida como recta de mínimos cuadrados. Se dice que hay una asociación positiva entre la estatura y la longitud del antebrazo El grado en que los puntos en un diagrama similar tienden a agruparse alrededor de una recta refleja la fuerza de la relación lineal entre X y Y. La impresión visual de una gráfica de puntos puede ser engañosa respecto de lo anterior, debido al cambio de escala de los ejes, lo que puede hacer que el agrupamiento parezca más junto o más disperso. 1 2 3 En consecuencia, se define el coeficiente de correlación Es una medida numérica de la fuerza de la relación lineal entre dos variables. Este coeficiente se denota con la literal r. El coeficiente de correlación, creado por Karl Pearson alrededor de 1900, describe la fuerza de la relación entre dos conjuntos de variables en escala de intervalo o de razón. Se designa con la letra r, y con frecuencia se le conoce como r de Pearson y coeficiente de correlación producto-momento. 4

5. El coeficiente de correlación muestral proporciona un estimador del coeficiente de correlación poblacional xyr yx xy xy σσ σ ρ = xyρ yx xy xy ss s r =         −       − − = ∑= y i n i x i s yy s xx n r 11 1 ( )( ) ( ) ( )∑∑ ∑ −− −− == 22 ˆ YYXX YYXX R ii ii ρ

6. 1. El valor de r no depende de cuál de las dos variables estudiadas es X y cual es Y. 2. El valor de r es independiente de las unidades en las cuales X y Y estén medidas. 3. Si r=1, se dice que hay una correlación perfecta positiva Si r=-1, se dice que hay una correlación perfecta positiva Si r=0, se dice que no hay una correlación entre las dos variables 4. r =1 si y sólo si todos los pares ( , ) quedan en una línea recta con pendiente positiva y si y sólo si los pares ( , ) quedan en una línea recta con pendiente negativa. 5. El cuadrado del coeficiente de correlación muestral da el valor del coeficiente de determinación que resultaría de ajustar el modelo de regresión lineal simple, en símbolos . LAS PROPIEDADES MÁS IMPORTANTES DE r SON LAS SIGUIENTES: ix iy iyix 11 ≤≤− r 22 )( rr =

7. 1 2 3 4 5 6 Ejemplos de diferentes niveles de correlación positiva.

8. Ejemplos de diferentes niveles de correlación negativa. 1 3 6 52 4

9. ¿Por qué la fórmula r para el coeficiente de correlación r mide la fuerza de asociación lineal entre dos variables?        −       − − = ∑= y i n i x i s yy s xx n r 11 1 En este diagrama de puntos, el origen está colocado en el punto de los promedios . Por tanto, en el primer cuadrante, los puntajes z y son positivos, por lo que su producto también lo es. xxi −       − x i s xx         − y i s yy Por consiguiente, cada punto en el primer cuadrante aporta una cantidad positiva a la suma de la ecuación r . En el segundo cuadrante los puntajes z para las coordenadas X de los puntos son negativos, mientras que los z para las coordenadas Y, positivos. En consecuencia, los productos de los puntajes z son negativos, por lo que cada punto en el segundo cuadrante aporta una cantidad negativa a la suma de la ecuación r.De forma semejante, los puntos en el tercer cuadrante aportan cantidades positivas, y los del cuarto cuadrante, cantidades negativas. Evidentemente, en la figura hay más puntos en el primero y tercer cuadrantes que en el segundo y cuarto, así la correlación será positiva Si la gráfica tuviera una pendiente negativa, habría más puntos en el segundo y cuarto cuadrantes, y el coeficiente de correlación sería negativo. 1 2 3 4 CÓMO FUNCIONA EL COEFICIENTE DE CORRELACIÓN

10. Ejemplo | solo interpretación Si se tienen los precios de dos acciones de dos diferentes empresas y se calculan sus respectivas correlaciones con el índice del mercado. Si, por ejemplo, se obtienen los siguientes resultados: R1 = 0,30 y R2 = 0,8. Dada esta información se puede advertir que la segunda acción tiene una dependencia lineal con el mercado más fuerte que la primera acción. Es decir, si por ejemplo el índice de mercado se incrementa en 2%, la acción 1 se incrementará solo 0,6% (0,30 x 2%), mientras que la acción 2 se incrementará en 1,6% (0,8 x 2%). Asimismo, es importante notar que como el signo de la correlación es positivo en ambos casos, la dependencia lineal es directa; lo que implica que si el índice cae, el precio de las acciones también lo harán. En este caso hipotético, la acción cuyo precio caerá más será la de la acción 2, ya que tiene un coeficiente de correlación más grande.

11. Copier Sales of America vende copiadoras a empresas de todos tamaños en Estados Unidos y Canadá. Hace poco ascendieron a la señora Marcy Bancer al puesto de gerente nacional de ventas. A la siguiente junta de ventas asistirán los representantes de ventas de todo el país. Desea determinar si hay alguna relación entre el número de llamadas de ventas en un mes y el número de copiadoras vendidas ese mes. El gerente selecciona una muestra aleatoria de 10 representantes de ventas y determina el número de llamadas de ventas que cada uno hizo el mes pasado y el número de copiadoras vendidas. La información maestral es la siguiente tabla E. La señora Bancer por lo tanto desea saber como es la relación entre los datos obtenidos. Calcule el coeficiente de correlación e interprete el resultado EJEMPLO

12. Inicie con un diagrama de dispersión, similar a la gráfica TABLA 1. Se traza una recta vertical con los valores de datos en la media de los valores X y una recta horizontal en la media de los valores Y. En la tabla 1 se agregó una recta en 22.0 llamadas y una recta horizontal en 45.0 copiadoras . Estas rectas pasan por el “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes. Considere mover el origen de (0, 0) a (22, 45). Llamadas de ventas y copiadoras vendidas de 10 vendedores Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está por arriba de la media y el número de llamadas de ventas también se encuentra arriba de la media. Estos puntos aparecen en el cuadrante superior derecho (cuadrante I) de la tabla 1. De manera similar, cuando el número de copiadoras vendidas es menor que la media, también lo es el número de llamadas de ventas. Estos puntos se encuentran en el cuadrante inferior izquierdo de la tabla 1 (cuadrante III). 22 10 220 === ∑ n x x 45 10 450 === ∑ n y yT. E

13. Por ejemplo, la última persona en la lista de la tabla E, Soni Jones, hizo 30 llamadas de ventas y vendió 70 copiadoras. Estos valores se encuentran arriba de sus medias respectivas, por tanto, este punto se ubica en el cuadrante I, que es el cuadrante superior derecho. Soni hizo 8 más llamadas de ventas que la media y vendió 25 más copiadoras que la media. En los cuadrantes superior derecho e inferior izquierdo, el producto de es positivo debido a que los dos factores tienen el mismo signo. En el ejemplo, esto sucede con todos los representantes, excepto Mike Kiel. Por tanto, se espera que el coeficiente de correlación tenga un valor positivo. Tom Keller, el primer nombre en la lista de la tabla E, hizo 20 llamadas y vendió 30 copiadoras. Ambos valores son menores que sus respectivas medias, por lo que este punto se ubica en el cuadrante inferior derecho. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias respectivas. Las desviaciones del número medio de llamadas de ventas y para el número medio de copiadoras vendidas se resumen en la tabla A para los 10 representantes de ventas. La suma de los productos de las desviaciones de las medias respectivas es 900. Es decir, el término Si las dos variables tienen una relación inversa, una variable estará arriba de la media y la otra debajo de la media. La mayoría de los puntos en este caso suceden en los cuadrantes superior izquierdo e inferior derecho, es decir, en los cuadrantes II y IV. Ahora y tendrán signos opuestos, y su producto será negativo. El coeficiente de correlación resultante es negativo. Para calcular el coeficiente de correlación, se utilizan las desviaciones estándar de la muestra de 10 llamadas de ventas y 10 copiadoras vendidas. 20 30 -2 4 -15 225 30 40 60 18 324 15 225 270 20 40 -2 4 -5 25 10 30 60 8 64 15 225 120 10 30 -12 144 -15 225 180 10 40 -12 144 -5 25 60 20 40 -2 4 -5 25 10 20 50 -2 4 5 25 -10 20 30 -2 4 -15 225 30 30 70 8 64 25 625 200 0 760 0 1850 900 22 45 ( ) 2230 −=− xx ( ) 4570 −=− yy ( )( ) 900=−−∑ yyxx ii ( )( )yyxx ii −− ( )xxi − ( )yyi − T. A

14. ( )( ) 100 9 900 1 == − −− = ∑ n yyxx s ii xy ( ) 9.189 9 760 1 2 == − − = ∑ n xx s i x ( ) 14.337 9 1850 1 2 == − − = ∑ n yy s i y ( )( ) 0.7590 337.14189.9 900 === yx xy xy ss s r x y POR LO TANTO

15. La correlación de 0.759 indica una asociación positiva fuerte entre las variables. La señora Bancer acierta al motivar al personal de ventas para hacer llamadas adicionales, debido a que el número de llamadas de ventas hechas se relaciona con el número de copiadoras vendidas. Sin embargo, ¿más llamadas de ventas ocasionan más ventas? No, aquí no se ha demostrado la causa y el efecto, sólo que hay una relación entre las dos variables, llamadas de ventas y copiadoras vendidas. ¿Cómo se interpreta una correlación de 0.759? Primero, es positiva, por lo que se observa una relación directa entre el número de llamadas de ventas y el número de copiadoras vendidas. Esto confirma el razonamiento basado en el diagrama de dispersión, gráfica; Tabla 1. El valor de 0.759 está muy cercano a 1.00, y por ende se concluye que la asociación es fuerte. interpretación

16. El Promedio Industrial Dow Jones (DJIA, por sus siglas en inglés) y el Standard & Poor’s 500 Index (S&P 500) se usan para medir el mercado bursátil. El DJIA se basa en el precio de las acciones de 30 empresas grandes; el S&P 500 se basa en los precios de las acciones de 500 empresas. Si ambas miden el mercado bursátil, ¿cuál es la relación entre ellas? En los datos siguientes se muestra el aumento porcentual diario o la disminución porcentual diaria del DJIA y del S&P 500 en una muestra de nueve días durante tres meses (The Wall Street Journal, 15 de enero a 10 de marzo de 2006). Tarea DJIA 0.20 0.82 -0.99 0.04 -0.24 1.01 0.30 0.55 -0.25 S&P 0.24 0.19 -0.91 0.08 -0.33 0.87 0.36 0.83 -0.16 El Promedio Industrial Dow Jones (DJIA, por sus siglas en inglés) y el Standard & Poor’s 500 Index (S&P 500) se usan para medir el mercado bursátil. El DJIA se basa en el precio de las acciones de 30 empresas grandes; el S&P 500 se basa en los precios de las acciones de 500 empresas. Si ambas miden el mercado bursátil, ¿cuál es la relación entre ellas? En los datos siguientes se muestra el aumento porcentual diario o la disminución porcentual diaria del DJIA y del S&P 500 en una muestra de nueve días durante tres meses (The Wall Street Journal, 15 de enero a 10 de marzo de 2006). a. Muestre el diagrama de dispersión. b. Calcule el coeficiente de correlación muestral de estos datos. c. Discuta la asociación entre DJIA y S&P 500. ¿Es necesario consultar ambos para tener una idea general sobre el mercado bursátil diario?

17. -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1.5 -1 -0.5 0 0.5 1 1.5 DJIA S&P a) Diagrama de dispersión

18. 0.2 0.24 0.0400 0.0016 0.1100 0.0121 0.0044 0.82 0.19 0.6600 0.4356 0.0600 0.0036 0.0396 -0.99 -0.91 -1.1500 1.3225 -1.0400 1.0816 1.1960 0.04 0.08 -0.1200 0.0144 -0.0500 0.0025 0.0060 -0.24 -0.33 -0.4000 0.1600 -0.4600 0.2116 0.1840 1.01 0.87 0.8500 0.7225 0.7400 0.5476 0.6290 0.3 0.36 0.1400 0.0196 0.2300 0.0529 0.0322 0.55 0.83 0.3900 0.1521 0.7000 0.4900 0.2730 -0.25 -0.16 -0.4100 0.1681 -0.2900 0.0841 0.1189 0.0000 2.9964 0.0000 2.4860 2.4831 0.1600 0.1300 ( )( ) 3104.0 8 4831.2 1 == − −− = ∑ n yyxx s ii xy ( ) 6120.0 8 9964.2 1 2 == − − = ∑ n xx s i x ( ) 5574.0 8 4860.2 1 2 == − − = ∑ n yy s i y ( )( ) 9098.0 5574.06120.0 3104.0 === yx xy xy ss s r Covarianza muestral Desviación estándar muestral de x Desviación estándar muestral de y Coeficiente de correlación muestral Comando en Excel: Selección de la columna x Selección de la columna y Resultado b) Los procedimientos para el calculo de r se muestra a continuación

19. c) De acuerdo al resultado del coeficiente de correlación de 0.9098, se observa de que es positivo, por lo tanto refleja una relación directa entre El Promedio Industrial Dow Jones y el Standard & Poor’s 500 Index en la medición del mercado bursátil. El valor 0.9098 esta muy cercano a 1.00, se concluye que se trata de una relación lineal positiva fuerte. Se sabe que una de las relaciones en el mercado; Cuando el Dow Jones está más fuerte que el resto del mercado de los EE.UU., no suele ser un buen síntoma. De hecho, es un signo de miedo por parte de los inversores, las dos últimas veces que el Dow Jones superó el comportamiento del S&P 500 fue durante el mercado bajista 2000-2002 y otra vez durante la tendencia bajista 2007-2008. Por el contrario, las dos últimas subidas en esta relación coinciden con los techos del mercado (mediados de 2000 y principios de 2007), dado esto si el analista desea consultar ambos promedio de medición no parece útil realizarlo en este caso para tener una idea general en el mercado bursátil diariamente ya que el de correlación relaciona las dos variables de estudio.

Add a comment