CORRELACIÓN LINEAL :
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos
variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las
notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al
problema consistiría en dibujar en el plano R2
un punto por cada alumno: la primera coordenada
de cada punto sería su nota en estadística, mientras que la segunda sería su nota en
matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado
y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos
un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año
de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en
publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De
esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente
entre ambas variables.
COEFICIENTE DE PEARSON
El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero no
de forma lineal, en cuyo caso no proceder a aplicarse la correlación de Pearson. Por
ejemplo, la relación entre la ansiedad y el rendimiento tiene forma de U invertida;
igualmente, si relacionamos población y tiempo la relación será de forma exponencial.
En estos casos (y en otros muchos) no es conveniente utilizar la correlación de Pearson.
Insistimos en este punto, que parece olvidarse con cierta frecuencia.
El coeficiente de correlación de Pearson es un índice de fácil ejecución e, igualmente, de
fácil interpretación. Digamos, en primera instancia, que sus valores absolutos oscilan
entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de
correlación de Pearson entre estas dos variables como xy r entonces:
0 ≤ ≤ 1 xy
r
Hemos especificado los términos "valores absolutos" ya que en realidad si se contempla
el signo el coeficiente de correlación de Pearson oscila entre –1 y +1. No obstante ha de
indicarse que la magnitud de la relación vienen especificada por el valor numérico
del coeficiente, reflejando el signo la dirección de tal valor. En este sentido, tan fuerte
es una relación de +1 como de -1. En el primer caso la relación es perfecta positiva y en
el segundo perfecta negativa.
EJERCICIO:
1- En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron los
siguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar con
respecto a los prototipos de las dos clases en que podía ser encuadrado y del número de
errores cometidos por los sujetos:
Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10 4 2 6 5 16 3 4 8
a) Calcule el coeficiente de correlación de Pearson e interprete el resultado.
b) Determine la recta de regresión que permite predecir el número de errores en función de la
diferencia entre las distancias.
c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que no
haya errores.
Solución:
a) Comenzamos calculando media, varianza y desviación típica de ambas variables
Dl S S
E S S
Dl Dl
E E
= = =
= = =
1 082 0 256 0 506
7 18 4 243
2
2
, , ,
,
Calculamos la covarianza
S
E Dl
n
E Dl EDl =
× å - × = 5,794 - 7,574 = -1,78
El coeficiente de correlación será:
r
S
S S
EDl
E Dl
=
×
=
-
×
= -
1 78
4 243 0 506
0 829 ,
, ,
,
El signo negativo del coeficiente de correlación nos indica que la relación entre ambas
variables es inversa, es decir que al aumentar la distancia disminuye el número de errores. El
valor absoluto nos indica que la relación lineal entre distancia y número de errores es bastante
alta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicar
y predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.
b) Para determinar la recta de regresión E = a·Dl + b calculamos los valores de los
coeficientes a y b mediante las expresiones obtenidas por el método de mínimos cuadrados:
a
S
S
EDl
Dl
= =
-
= - 2
1 78
0 256
6 953
COEFICIENTE DE PEARSON
El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero no
de forma lineal, en cuyo caso no proceder a aplicarse la correlación de Pearson. Por
ejemplo, la relación entre la ansiedad y el rendimiento tiene forma de U invertida;
igualmente, si relacionamos población y tiempo la relación será de forma exponencial.
En estos casos (y en otros muchos) no es conveniente utilizar la correlación de Pearson.
Insistimos en este punto, que parece olvidarse con cierta frecuencia.
El coeficiente de correlación de Pearson es un índice de fácil ejecución e, igualmente, de
fácil interpretación. Digamos, en primera instancia, que sus valores absolutos oscilan
entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de
correlación de Pearson entre estas dos variables como xy r entonces:
0 ≤ ≤ 1 xy
r
Hemos especificado los términos "valores absolutos" ya que en realidad si se contempla
el signo el coeficiente de correlación de Pearson oscila entre –1 y +1. No obstante ha de
indicarse que la magnitud de la relación vienen especificada por el valor numérico
del coeficiente, reflejando el signo la dirección de tal valor. En este sentido, tan fuerte
es una relación de +1 como de -1. En el primer caso la relación es perfecta positiva y en
el segundo perfecta negativa.
EJERCICIO:
1- En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron los
siguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar con
respecto a los prototipos de las dos clases en que podía ser encuadrado y del número de
errores cometidos por los sujetos:
Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10 4 2 6 5 16 3 4 8
a) Calcule el coeficiente de correlación de Pearson e interprete el resultado.
b) Determine la recta de regresión que permite predecir el número de errores en función de la
diferencia entre las distancias.
c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que no
haya errores.
Solución:
a) Comenzamos calculando media, varianza y desviación típica de ambas variables
Dl S S
E S S
Dl Dl
E E
= = =
= = =
1 082 0 256 0 506
7 18 4 243
2
2
, , ,
,
Calculamos la covarianza
S
E Dl
n
E Dl EDl =
× å - × = 5,794 - 7,574 = -1,78
El coeficiente de correlación será:
r
S
S S
EDl
E Dl
=
×
=
-
×
= -
1 78
4 243 0 506
0 829 ,
, ,
,
El signo negativo del coeficiente de correlación nos indica que la relación entre ambas
variables es inversa, es decir que al aumentar la distancia disminuye el número de errores. El
valor absoluto nos indica que la relación lineal entre distancia y número de errores es bastante
alta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicar
y predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.
b) Para determinar la recta de regresión E = a·Dl + b calculamos los valores de los
coeficientes a y b mediante las expresiones obtenidas por el método de mínimos cuadrados:
a
S
S
EDl
Dl
= =
-
= - 2
1 78
0 256
6 953
No hay comentarios:
Publicar un comentario