Regresion Y Correlacion

100 %
0 %
Information about Regresion Y Correlacion

Published on August 16, 2008

Author: gracielacoach

Source: slideshare.net

Análisis de Regresión y Correlación Lic. Olga Susana Filippini por

Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos Dosis de fertilizantes aplicadas y rendimiento del cultivo. La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas. Relación entre tamaño de un lote de producción y horas –hombres utilizadas para realizarlo. Distinguiremos entre relaciones funcionales y relaciones estadísticas Introducción

Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos

Dosis de fertilizantes aplicadas y rendimiento del cultivo.

La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas.

Relación entre tamaño de un lote de producción y horas –hombres utilizadas para realizarlo.

Distinguiremos entre relaciones funcionales y relaciones estadísticas

Relación funcional entre dos variables Una relación funcional se expresa mediante una función matemática. Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma: Y=f(X) Ejemplo 1 260 130 3 50 25 2 150 75 1 Rend.(kg/h) Dosis Parcela

Una relación funcional se expresa mediante una función matemática.

Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:

Y=f(X)

Ejemplo 1

Figura 1 Nota: Las observaciones caen exactamente sobre la línea de relación funcional

Relación estadística entre dos variables A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la curva de relación entre las variables Ejemplo 2 87 40 5 170 80 4 128 60 3 50 20 2 73 30 1 Horas hombre Tamaño del lote Lote de prod.

A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la curva de relación entre las variables

Ejemplo 2

Figura 2 Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística. Esta dispersión de punto alrededor de la línea representa la variación aleatoria

Figura 3 Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relación estadística es de tipo curvilínea.

Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables.Con el objeto de predecir una en función de la/s otra/s. Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés . Variable dependiente (respuesta, predicha, endógena) : es la variable que se desea predecir o estimar Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar . Regresión simple: interviene una sola variable independiente Regresión múltiple: intervienen dos o más variables independientes . Regresión lineal: la función es una combinación lineal de los parámetros. Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal Conceptos básicos

Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables.Con el objeto de predecir una en función de la/s otra/s.

Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables

Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés .

Variable dependiente (respuesta, predicha, endógena) : es la variable que se desea predecir o estimar

Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar .

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes .

Regresión lineal: la función es una combinación lineal de los parámetros.

Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal

Gráfico de dispersión Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resalta n las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Coeficiente de correlación lineal El Coeficiente de Correlación ( r ) requiere variables medidas en escala de intervalos o de proporciones Varía entre -1 y 1. Valores de -1 ó 1 indican correlación perfecta. Valor igual a 0 indica ausencia de correlación. Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa

El Coeficiente de Correlación ( r ) requiere variables medidas en escala de intervalos o de proporciones

Varía entre -1 y 1.

Valores de -1 ó 1 indican correlación perfecta.

Valor igual a 0 indica ausencia de correlación.

Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa

Correlación Negativa Perfecta 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y

0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Correlación Positiva Perfecta

0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Ausencia de Correlación

0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Correlación Fuerte y Positiva

Fórmula para el coeficente de correlación (r) Pearson

Modelos de Regresión Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística: Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática Una dispersión de las observaciones alrededor de la curva de relación estadística

Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:

Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática

Una dispersión de las observaciones alrededor de la curva de relación estadística

Modelos de Regresión Estas dos características están implícitas en un modelo de regresión, postulando que: En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X. Las medias de estas distribuciones varían de manera sistemática al variar X.

Estas dos características están implícitas en un modelo de regresión, postulando que:

En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X.

Las medias de estas distribuciones varían de manera sistemática al variar X.

Representación gráfica del modelo de Regresión Lineal Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Análisis de Regresión Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente ( Y ) en base a la o las variables independientes ( X ). Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.

Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente ( Y ) en base a la o las variables independientes ( X ).

Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.

Supuestos de Regresión Lineal Clásica Cada error está normalmente distribuido con: Esperanza de los errores igual a 0 Variancia de los errores igual a una constante  2 . Covariancia de los errores nulas para todo i  j

Cada error está normalmente distribuido con:

Esperanza de los errores igual a 0

Variancia de los errores igual a una constante  2 .

Covariancia de los errores nulas para todo i  j

Proceso de estimación de la regresión lineal simple Modelo de regresión y=  0 +  1 x+  Ecuación de regresión E(y)=  0 +  1 x Parámetros desconocidos  0 .  1 Datos de la muestra b 0 y b 1 proporcionan estimados  0 y  1 Ecuación estimada de regresión y=b 0 +b 1 x Estadísticos de la muestra b 0 .b 1 x y x 1 y 1 x 2 y 2 . . . . . . x n y n

Líneas posibles de regresión en la regresión lineal simple x x E y Sección A Relación lineal positiva Línea de regresión La pendiente  1 es positiva * x E y Sección B Relación lineal negativa Línea de regresión La pendiente  1 es negativa * Sección C No hay relación E y Línea de regresión La pendiente  1 es 0 * Ordenada al origen  0 *

Estimación de la ecuación de Regresión Simple Y’= a + bX , donde : Y’ es el valor estimado de Y para distintos X . a es la intersección o el valor estimado de Y cuando X=0 b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de X el principio de mínimos cuadrados es usado para obtener a y b :

Y’= a + bX , donde :

Y’ es el valor estimado de Y para distintos X .

a es la intersección o el valor estimado de Y cuando X=0

b es la pendiente de la línea, o el cambio promedio de Y’ para cada cambio en una unidad de X

el principio de mínimos cuadrados es usado para obtener a y b :

Mínimos cuadrados - Supuestos El modelo de regresión es lineal en los parámetros. Los valores de X son fijos en muestreo repetido. El valor medio de la perturbación  i es igual a cero. Homocedasticidad o igual variancia de  i . No autocorrelación entre las perturbaciones. La covariancia entre  i y X i es cero. El número de observaciones n debe ser mayor que el número de parámetros a estimar. Variabilidad en los valores de X. El modelo de regresión está correctamente especificado. No hay relaciones lineales perfectas entre las explicativas.

El modelo de regresión es lineal en los parámetros.

Los valores de X son fijos en muestreo repetido.

El valor medio de la perturbación  i es igual a cero.

Homocedasticidad o igual variancia de  i .

No autocorrelación entre las perturbaciones.

La covariancia entre  i y X i es cero.

El número de observaciones n debe ser mayor que el número de parámetros a estimar.

Variabilidad en los valores de X.

El modelo de regresión está correctamente especificado.

No hay relaciones lineales perfectas entre las explicativas.

Estimación de la variancia de los términos del error (  2 ) Debe ser estimada por varios motivos Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y. Para realizar inferencias con respecto a la función de regresión y la predicción de Y. La lógica del desarrollo de un estimador de  2 para el modelo de regresión es la misma que cuando se muestrea una sola población La variancia de cada observación Y i es  2 , la misma que la de cada término del error

Debe ser estimada por varios motivos

Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

La lógica del desarrollo de un estimador de  2 para el modelo de regresión es la misma que cuando se muestrea una sola población

La variancia de cada observación Y i es  2 , la misma que la de cada término del error

Estimación de la variancia de los términos del error (  2 ) Dado que los Y i provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Y i debe ser calculada con respecto a su propia media estimada Y i . Por tanto, las desviaciones son los residuales Y la suma de cuadrados es:

Dado que los Y i provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Y i debe ser calculada con respecto a su propia media estimada Y i .

Por tanto, las desviaciones son los residuales

Estimación de la variancia de los términos del error (  2 ) La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de  2

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de  2

Análisis de Variancia en el análisis de regresión El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y. La variación de los Y i se mide convencionalmente en términos de las desviaciones La medida de la variación total Sc tot , es la suma de las desviaciones al cuadrado

El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

La variación de los Y i se mide convencionalmente en términos de las desviaciones

La medida de la variación total Sc tot , es la suma de las desviaciones al cuadrado

Desarrollo formal de la partición Consideremos la desviación Podemos descomponerla en T R E (T): desviación total (R): es la desviación del valor ajustado por la regresión con respecto a la media general (E): es la desviación de la observación con respecto a la línea de regresión

Consideremos la desviación

Podemos descomponerla en

T R E

(T): desviación total

(R): es la desviación del valor ajustado por la regresión con respecto a la media general

(E): es la desviación de la observación con respecto a la línea de regresión

Desarrollo formal de la partición Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen SC tot SC reg SC er (SC tot ): Suma de cuadrados total (SC reg ): Suma de cuadrados de la regresión (SC er ): Suma de cuadrados del error Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

SC tot SC reg SC er

(SC tot ): Suma de cuadrados total

(SC reg ): Suma de cuadrados de la regresión

(SC er ): Suma de cuadrados del error

Dividiendo por los grados de libertad, (n-1), (k) y

(n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.

Coeficiente de Determinación Coeficiente de Determinación, R 2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X . El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Coeficiente de Determinación, R 2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X .

El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Cálculo del R 2 a través de la siguiente fórmula

Inferencia en Regresión Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de regresión (prueba de hipòtesis e intervalos de confianza), ya que los estimadores de  0 y  1 pueden cambiar su valor si cambia la muestra. Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipòtesis e intervalos de confianza

Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de regresión (prueba de hipòtesis e intervalos de confianza), ya que los estimadores de  0 y  1 pueden cambiar su valor si cambia la muestra.

Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipòtesis e intervalos de confianza

Ejemplo Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se presentan a continuación ¿Qué sensor refleja mejor el rendimiento de esa zona?

Y = 338.71*X - 4.87 R2 = 0.32 Descripción Gráfica y cuantitativa de la relación entre cada sensor y el rendimiento

Y = 155.37*X – 13.25 R2 = 0.57

Y = - 1004 .34*X +112.24 R2 = 0.44

Add a comment

Related presentations

Related pages

REGRESION Y CORRELACION LINEAL SIMPLE - YouTube

Desarrollo de un ejemplo de regresión lineal, para estudiantes de la UNAD, para el curso de estadística descriptica
Read more

REGRESIÓN Y CORRELACION - YouTube

Standard YouTube License; Loading ... REGRESION Y CORRELACION CON EXCEL - Duration: 14:31. Martha Lucia Sanclemente Daza 76,141 views. 14:31
Read more

Correlación y regresión - Vitutor

Correlación y regresión. Teoría. D. Bidimensionales; Covarianza; Correlación; Coef. correlación; Recta regresión; Índice; Ejercicios. Ejercicios I ...
Read more

Regresión y Correlación Lineal - Monografias.com

Rectas de Regresion; Aplicaciones de la regresión lineal; ... Y : Evaluación que obtiene el estudiante en la materia. Definición de regresión lineal.
Read more

CORRELACIÓN LINEAL Y ANÁLISIS DE REGRESIÓN

Análisis de regresión y correlación lineal. Proyecto e-Math 2 Financiado por la Secretaría de Estado de Educación y Universidades (MECD) INTRODUCCIÓN
Read more

Análisis de Regresión y Correlación

Existe regresion lineal de Y en función de X. ... Analisis de Correlacion El análisis de correlación emplea métodos para medir la significación del ...
Read more

Regresión y correlación - Monografias.com

X1,X2: Variables Independientes. a: es la ordenada del punto de intersección con el eje Y. b1: Coeficiente de Regresión (es la variación neta ...
Read more

Regresión y correlación - html.rincondelvago.com

Regresión y Correlación. La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación. En forma ...
Read more