©Richard Lowry, 1999-
All rights reserved.
Cap’tulo 3. Introducci—n a la
correlaci—n lineal y a la regresi—n
Parte 3
| Traducción: Jorge Hern‡ndez Garc’a Universidad Nacional Aut—noma de MŽxico |
Regresi—n
La aparici—n del tŽrmino
regresi—n en este punto (literalmente, movimiento hacia atr‡s) es un poco un
accidente hist—rico. Podr’a haber sido simple y f‡cilmente llamado progresi—n. El concepto es el mismo que hemos encontrado para la correlaci—n, a pesar
que ahora se ha incluido en Žl la imaginer’a visual del movimiento
–esencialmente, de dos cosas, dos variables, moviŽndose juntas. Como se
indic— antes, la correlaci—n y la regresi—n son dos lados de la misma moneda
estad’stica. Cuando se mide la correlaci—n lineal de dos variables, lo que en
efecto se est‡ haciendo es trazar una l’nea recta que mejor ajuste el promedio
Òmovimiento conjuntoÓ de esas dos variables. Esa l’nea se conoce como l’nea de regresi—n, y su utilidad no es œnicamente como un dispositivo que nos ayuda a
visualizar la relaci—n entre las dos variables. TambiŽn puede servir de manera
muy œtil como base para hacer predicciones racionales.
Para ilustrarlo, considere
de nuevo nuestra correlaci—n del SAT de 1993. Suponiendo que la correlaci—n
negativa para ese a–o es probable que ocurra en a–os subsiguientes, se est‡
ahora en posici—n de predecir la puntuaci—n promedio SAT de un estado por algœn
a–o subsiguiente, antes que los resultados sean reportados, simplemente sobre
la base del conocimiento del porcentaje de estudiantes dentro del estado que
presentan el SAR ese a–o.
Si 10% de los quasi-graduados de un estado presentan el SAT, es una apuesta
casi segura que la puntuaci—n promedio combinada SAT para ese estado estar‡ m‡s
o menos en la vecindad de 1,010 –quiz‡ un poquito m‡s alto o m‡s bajo,
pero en cualquier caso en la vecindad. Si 70% de los quasi-graduados en algœn
otro estado presenta el SAT, es una apuesta casi segura que el promedio para
ese estado no estar‡ cerca de 1,010, sino en algœn lugar en la vecindad de 880.
El an‡lisis de regresi—n proporciona un fundamento racional para hacer tales
predicciones; tambiŽn proporciona una base para especificar con precisi—n lo
que queremos decir con Òen algœn lugar en la vecindad de.Ó
Como se hizo notar antes, cuando
se realizan los procedimientos de c‡lculo para la correlaci—n lineal y la
regresi—n, lo que se hace esencialmente es definir la l’nea recta que mejor
ajusta la distribuci—n divariada de los puntos. El criterio para Òmejor ajusteÓ
es que la suma de los cuadrados de las distancias verticales entre los puntos y
la l’nea de regresi—n deba ser tan peque–a como se pueda. La pendiente de la
recta resultante corresponder‡ con la direcci—n de la correlaci—n (hacia
arriba, +; hacia abajo, —); y la cercan’a de los puntos alrededor de la l’nea corresponder‡ a la
fuerza de la correlaci—n. Se puede imaginar la l’nea de regresi—n representando
la relaci—n promedio que existe entre X e Y, tal como se observ— dentro de la
muestra particular.
La posici—n y orientaci—n
de la recta de regresi—n est‡n definidas por dos cantidades, llamadas constantes de regresi—n, que pueden ser
f‡cilmente derivadas a partir de los resultados de los c‡lculos ya realizados
en la Tabla 3.2. Ellas son
|
|
a = |
El punto en que la l’nea
cruza el eje Y (la Ôintercepci—nÕ); y |
|
b = |
la
tasa a la que la l’nea se eleva o declina a lo largo del eje X (la 'pendiente').
|
Las f—rmulas de c‡lculo
para esas dos cantidades son bastante simples y se pueden presentar sin
comentario elaborado:
|
Para la pendiente: |
||
|
|
|
|
|
|
b = |
SCXY SSX |
|
|
|
|
|
y para la intercepci—n: |
|
|
|
|
|
|
a = MY — bMX |
|
|
|
Antes de que realicemos
estos c‡lculos para los datos del SAT, creo que ser’a œtil ilustrar el proceso
con un conjunto de datos m‡s simple. Para este prop—sito, considere de nuevo la
asociaci—n de valores Xi e Yi que produjo la correlaci—n
positiva mostrada en el ejemplo II de la Figura 3.3.
|
Par |
Xi |
Yi |
|
|
|
a |
1 |
6 |
||
|
Medias |
3.5 |
7.0 |
||
|
SSX = 17.5 |
||||
Dados estos valores previamente calculados:
|
|
pendiente: |
|||||
|
|
b = |
SCXY SSX |
= |
23.0
17.5 |
= +1.31 |
|
|
|
|
|
|
|||
|
|
intercepci—n: |
|||
|
|
a |
= MY — bMX= 7.0 — [1.31(3.5)] = 2.4 |
||
|
|
||||
En la siguiente gr‡fica se
muestra la misma figura que aparece arriba, pero ahora construida de tal manera
que enfatice la intercepci—n y la pendiente de la recta de regresi—n. La
intercepci—n, que se muestra en el lado izquierdo de la gr‡fica, es el punto en
que la recta de regresi—n cruza el eje vertical Y –supuesto que el eje
Y est‡ alineado con el punto del eje horizontal donde X es igual a cero. (Hay que tener cuidado con esto, porque los puntos del diagrama no
siempre inician el eje X en X=0.) La pendiente de la recta de regresi—n est‡
indicada en la gr‡fica por el patr—n verde que parece una escalinata. Lo que
muestra este patr—n es que para cada incremento de una unidad en el valor de X,
el valor de Y se incrementa en 1.31 unidades. As’, cuando X es igual a cero, Y
es igual a la intercepci—n, que es 2.4; cuando X=1.0, Y es igual a la
intercepci—n m‡s 1.31(i.e., 2.4+1.31=3.71); cuando X=2.0, Y es igual a la
intercepci—n m‡s 2.62 (i.e., 2.4+2.62=5.02); etc.
Ahora realizamos los mismos
c‡lculos para el conjunto de datos de nuestra correlaci—n del SAT de 1993. En
la Tabla 3.2
hemos llegado ya a los valores sumarios
|
|
media de X = 36.32 |
|
X = porcentaje de quasi-graduados que presentaron el
SAT |
Dados estos valores, la pendiente de la recta de regresi—n puede calcularse
como
|
|
|
||||||
|
|
b = |
SCXY SSX |
= |
.—79627.64 36,764.88 |
= —2.17 |
|
|
|
|
|
||||||
Y la
intercepci—n como
|
|
|
|
|
|
a |
= MY — bMX |
|
|
|
|
Para este conjunto de
datos, la recta de regresi—n intercepta el eje vertical en el punto donde Y es
igual a 1031.35, y entonces declina (—) 2.17 unidades de Y por cada
unidad de X. De este modo, cuando X es igual a cero, Y es igual a 1031.35; cuando
X=10, Y es igual a la intercepci—n menos 2.17x10 (i.e., 1031.35—21.7=1009.65); cuando X=20,
Y es igual a la intercepci—n menos 2.17x20 (i.e., 1031.35—43.4=987.95);
etcŽtera.

Tal es la mec‡nica de la
regresi—n de manera breve; ahora vamos a la l—gica y la estrategia de la
predicci—n. Si la correlaci—n observada entre dos variables, X e Y, muestra
evidencia de ser estad’sticamente significativa –el supuesto racional es
que pertenece no s—lo a la muestra particular de los pares XiYi,
sino a la relaci—n general entre X e Y. Y una vez que se conoce la relaci—n
general entre X e Y, se est‡ en posici—n de calcular el calor de Yi que
probablemente se puede asociar con algœn valor particular recientemente
observado Xi. El procedimiento para hacer tal predicci—n se ilustra
gr‡ficamente abajo.
A partir de la correlaci—n
observada en esta muestra de 1993, inferimos que la relaci—n general entre X e
Y puede describirse con una recta de regresi—n que tiene intercepci—n en a=1,031.35 y pendiente b=—2.17. Supongamos ahora
que, para un a–o subsiguiente un cierto estado tiene un porcentaje de
quasi-graduados Xi=10% que presentan el SAT. Si se quiere predecir
la puntuaci—n promedio Yi, para ese estado, la manera obvia de
proceder ser’a comenzar con el valor observado Xi=10%, ir
directamente a la recta de regresi—n e ir hacia la izquierda para ver d—nde
corta al eje Y. Esa ser’a la predicci—n de Yi que, como puede verse
en la gr‡fica, es un valor cercano a Y=1,010. Por otro lado, para Xi=50%,
la predicci—n est‡ en la vecinda de Y=925.
En la pr‡ctica, por
supuesto, la predicci—n de valores Yi no se obtienen gr‡ficamente,
sino mediante c‡lculos. Para cualquier correlaci—n observada entre dos
variables, X e Y, el valor de la predicci—n Yi, sobre la base de una
observaci—n reciente Xi, est‡ dado por la siguiente f—rmula. Note
que, sin embargo, esta versi—n de la f—rmula es s—lo preliminar. Hay algo nuevo que
agregaremos un poco despuŽs.
predicci—n Yi = a + bXi
Intente esta f—rmula con
cuantos valores diferentes Xi y se ver‡ que llega matem‡ticamente,
por lo tanto con mayor precisi—n, al mismo resultado que si lo hubiera obtenido
por el mŽtodo gr‡fico mostrado arriba. La f—rmula lo hace comenzando en a, el punto en que la
recta de regresi—n intercepta el eje Y, y moviŽndose entonces hacia arriba o
hacia abajo del eje Y (dependiendo de la direcci—n de la correlaci—n) una
unidad de pendiente (b) por cada unidad de X.
|
para Xi = 10% |
||
|
|
predicci—n Yi |
= 1,031.35+(—2.17 x 10) |
|
|
|
= 1,009.65 |
|
y para Xi = 50% |
||
|
|
Predicci—n Yi |
= 1,031.35+(—2.17 x 50) |
|
|
|
= 922.85 |
Por supuesto que no estamos
estableciendo que alguno de los casos de los valores reales Yi caer‡
precisamente en los puntos que calculamos. Todo lo que racionalmente podemos
aseverar es que los valores reales Yi para el caso en que Xi=10%
tender‡n a aproximarse al valor de la predicci—n de la recta de regresi—n 1,009.65;
estos valores reales Yi para el caso Xi=50%, tender‡n a
al valor de la predicci—n de la recta de regresi—n 922.85; y as’ para
cualquiera otros valores Xi que estŽn dentro del rango de valores Xi
observados en la muestra. Probablemente ser‡ intuitivamente obvio que la fuerza
de esta Òtendencia de aproximaci—nÓ estar‡ determinada por la fuerza de la
correlaci—n observada en la muestra original. Entre m‡s fuerte sea la
correlaci—n observada, m‡s cerca tender‡ la predicci—n a aproximar el valor
real Yi; e
inversamente, entre m‡s dŽbil sea la correlaci—n, mayor ser‡ la tendencia de
los valores reales Yi a desviarse de la predicci—n. Hace un momento
indicamos que a la f—rmula para una predicci—n de Yi
predicci—n Yi = a + bXi
necesitaba a–ad’rsele algo. Lo que necesita a–ad’rsele el una medida del error probable, algo que refleje la fuerza
de la correlaci—n observada y por tanto, la fuerza de la tendencia que tienen
los valores reales Yi a aproximarse a sus predicciones. Aunque el
antecedente conceptual para este paso no estŽ disponible hasta haber cubierto
algunos conceptos b‡sicos de probabilidad, es posible a estas alturas traer al
menos un conocimiento pr‡ctico al respecto. Dentro del contexto de la regresi—n
lineal, la medida del error probable es una cantidad denominada error
est‡ndar de la estimaci—n.
Esencialmente, es un tipo de desviaci—n est‡ndar. He aqu’ de nuevo el
diagrama de puntos para la correlaci—n del SAT de 1993.
Mentalmente, trate por
favor de visualizar una l’nea verde que se extiende horizontalmente por debajo
o por encima de cada uno de los puntos azules de la recta de regresi—n en rojo. Cada una de esas l’neas
imaginarias es una medida del grado en que los puntos asociados se desv’an
(sobre el eje Y) de la recta de regresi—n. Eleve al cuadrado cada una de esas
distancias, tome la suma de esos cuadrados y tendr‡ una suma de desviaciones
cuadradas. En jerga estad’stica, cada desviaci—n (la l’nea verde imaginaria) se
denomina residual, de manera que la
suma de sus cuadrados puede denotarse como la suma de residuales cuadrados, que
abreviaremos SSresidual. Para cualquier tasa, se divide la
suma de desviaciones cuadradas (residuales) por N y se tendr‡ la varianza.
T—mese la ra’z cuadrada de la varianza y se tendr‡ la desviaci—n est‡ndar.
Como bien sabemos, la suma
de residuales cuadrados puede obtenerse matem‡ticamente mediante la f—rmula
simple
|
|
SSresidual=SSY x (1—r2) |
|
|
Recuerde que r2
es la proporci—n de variabilidad en Y que se asocia con variabilidad en X, y
que 1—r2 es la proporci—n (residual) que no
est‡ asociada con variabilidad en X. Por lo tanto, multiplicando SSY
por 1—r2 se obtiene la cantidad
residual SSY
ÒolvidadaÓ, no considerada por la correlaci—n entre X e Y. |
|
Para el ejemplo del SAT de 1993, se llega a
|
|
SSresidual |
= 231,478.42 x (1—0.862) |
|
|
|
= 60,184.38 |
Divida esta cantidad por N, y obtendr‡ la varianza residual de Y:
60,184.38/50=1,203.69.
Tome la
ra’z cuadrada de este œltimo valor y tendr‡ la desviaci—n est‡ndar de los
residuales:
sqrt[1,203.69]=±34.69
Esta desviaci—n est‡ndar de
los residuales es casi, pero no muy, equivalente al error est‡ndar de la
estimaci—n. La diferencia es que la cantidad que hemos reciŽn calculado es
puramente descriptiva —pertenece s—lo a esta muestra particular de
valores asociados XiYi— mientras que el error
est‡ndar de la estimaci—n pretende ir m‡s all‡ de la muestra al dominio de
eventos aœn no observados. Esta extensi—n —de la muestra particular de
valores asociados XiYi a la relaci—n general entre X e Y—
se logra mediante la simple divisi—n de SSresidual por N—2 en lugar de N. La
raz—n para este denominador N-2 tendr‡ que esperar hasta un cap’tulo posterior.
Por ahora, baste decir que el error est‡ndar de la estimaci—n, que abreviaremos
SE,
est‡ dado por la f—rmula
SE = sqrt[(SSresidual) / (N—2)]
Por lo tanto, para el presente ejemplo, nuestro error est‡ndar de estimaci—n es
SE = sqrt[60,184.38 / (50—2)]=±35.41
En resumen: Sobre la base
de lo que observamos en nuestra muestra de valores asociados XiYi,
estimamos que si la recta de regresi—n de la muestra se aplicara a toda la
poblaci—n de pares XiYi, los residuales Y de la poblaci—n
tendr’an una desviaci—n est‡ndar de algo muy cercano a ±35.41.
La siguiente versi—n del
diagrama de puntos del SAT muestra c—mo se aplica todo esto a la tarea de
predicci—n. Una l’nea paralela tomada a 35.41 unidades de Y sobre la recta de
regresi—n dar‡ un error est‡ndar de estimaci—n de +1; una tomada por debajo a
35.41 unidades de Y dar‡ un error est‡ndar de estimaci—n de —1; y la inferencia
(detalles en un cap’tulo posterior) es que el rango entre +1SE y —1SE incluir‡
aproximadamente dos tercios de los pares XiYi de la
poblaci—n.
As’, cuando se predice un valor desconocido Yi de acuerdo con la
f—rmula
predicci—n Yi = a + bXi
el verdadero valor de Yi tiene casi dos tercios de probabilidad de
caer dentro de m‡s o menos 35.41 puntos de la predicci—n, esto es, dentro de
m‡s o menos 1 error est‡ndar de estimaci—n. Al hacer predicciones de este tipo,
la convenci—n es no establecer la predicci—n simplemente como
predicci—n Yi = a + bXi
sino m‡s bien como Ôpredicci—n YÕ m‡s o menos 1 error est‡ndar de estimaci—n. Esto es
predicci—n Yi = a + bXi±SE
De esta forma, nuestras
predicciones para la puntuaci—n promedio del SAT por estado, para los casos de
10% y 50% de quasi-graduados del estado que presentan el examen, son en su
forma completa
|
para Xi = 10% |
||
|
|
Predicci—n Yi |
= 1,031.35+(—2.17 x 10)±35.41 |
|
|
|
= 1,009.65±35.41 |
|
y para Xi = 50% |
||
|
|
predicci—n Yi |
= 1,031.35+(—2.17 x 50)±35.41 |
|
|
|
= 922.85±35.41 |
Es decir que, para Xi=10%
predecimos que el correspondiente valor Yi tiene dos tercios de
probabilidad de caer entre Y=974.24 y Y=1,045.06; para Xi=50%, predecimos
que el correspondiente valor Yi tiene dos tercios de probabilidad de
caer entre Y=887.44 y Y=958.26; y
as’. Supuesto que la muestra es adecuadamente representativa de la relaci—n
general entre X e Y, podemos esperar que aproximadamente dos tercios del total
de la Ôpoblaci—nÕ de pares XiYi estŽ dentro del rango
definido por m‡s o menos 1 error est‡ndar de estimaci—n, y s—lo un tercio caer‡
fuera del rango. Por lo tanto, cualquier predicci—n particular de la forma general
predicci—n Yi = a + bXi±SE
tendr‡ aproximadamente dos tercios de probabilidad de atrapar en su red el
valor verdadero Yi, y un tercio de probabilidad de perderlo. Otra
forma de expresar este concepto es en tŽrminos de confiabilidad. Para una
predicci—n hecha con regresi—n lineal de esta forma general, se puede tener
casi dos tercios de confiabilidad en que el valor verdadero Yi caer‡
dentro de ±1SE de la predicci—n. En un cap’tulo posterior examinaremos
los procedimientos por medio de los cuales se puede incrementar la confiabilidad
que se deber’a tener en una estimaci—n o predicci—n, a niveles mucho m‡s altos,
tales como 95% — 99%.
Pero la prueba, como se dice, es el postre. Si se examinan los datos del
SAT para cualquier a–o subsiguiente a 1993, se encontrar‡ que casi dos tercios
de los valores reales Yi caen efectivamente dentro del rango
definido por la recta de regresi—n de la muestra de 1993, m‡s o menos 1SE. Por lo tanto, cualquier
predicci—n particular de la forma
predicci—n Yi = a + bXi±SE
tendr‡ casi dos tercios de probabilidad de caer dentro de la red.
En la parte 2 de este cap’tulo
hicimos notar brevemente que la primera pregunta a ser contestada sobre una
correlaci—n observada es si surge o no de otra cosa que mera coincidencia. Es
el momento de tomar esta pregunta en m‡s profundidad; sin embargo, como esta es
una cuesti—n cuyas implicaciones se extienden m‡s all‡ de los confines de la
correlaci—n y la regresi—n, lo haremos en un cap’tulo por separado.
|
*Note,
sin embargo, que el Cap’tulo 3 tiene tambiŽn dos |
Fin del Cap’tulo 3.
Regresar al Inicio del Cap’tulo 3, Parte 3
Go to Subchapter 3a [Partial Correlation]
Go to Subchapter 3b [Rank-
Go to Chapter 4 [A First Glance at the Question of Statistical Significance]
|
Oprima aquí solo si no llegó aquí a travŽs de la página principal de Concepts
and Applications of Inferential Statistics |