Correlación

    Cuando en un problema físico o un sistema matemático existe dependencia funcional, a cada valor de la variable independiente de la función analizada le corresponde exactamente un valor de la variable dependiente. De esta forma, si los pares obtenidos (xi, yi) se representan en un diagrama cartesiano, se observará que todos ellos quedan sobre una línea, que es la gráfica de la función.

    Así, por ejemplo, si se consideramos la ley de Boyle-Mariotte, que relaciona la presión y el volumen de un gas a temperatura constante y se expresa matemáticamente como:

    PV = k

    todos los puntos obtenidos formarían una “nube” que quedaría, como enseña la Física, sobre una hipérbola equilátera, la cual sería la gráfica de la función representativa de dicha ley.

    Sin embargo, no siempre sucede así. Imagínese ahora que, en un determinado conjunto de personas, se desea representar sus pesos (x) y sus correspondientes tallas (y). Está claro que para un determinado peso x1no habrá una única talla, y1, sino más bien un conjunto de ellas y1, y2, ..., yn. Por ejemplo, para un peso de 70 kg habría personas que medirían 1,70 ; 1,68 ; 1,72, etcétera.

    En este caso, un valor de x no permite conocer exactamente el correspondiente valor de y, pero sí aporta alguna información sobre esta segunda variable. Esta dependencia, no tan estricta como la funcional, se denomina aleatoria y es tanto mayor cuanto menos dispersos se hallen los puntos sobre el plano.

    Se denomina ajuste al proceso mediante el cual se determina la línea que mejor se ciñe a la nube de puntos. Esta línea daría, para cada valor de x, el correspondiente valor más representativo de la y.

    No existe una normativa que permita predecir a priori la forma de la línea más idónea (recta, parábola, etc.) para llevar a cabo el ajuste. En principio, lo más lógico es representar gráficamente la nube de puntos para ver, a primera vista, qué línea sugiere. No obstante, posteriormente se requiere un estudio matemático más profundo que la determine con exactitud. A continuación se considerará únicamente la llamada regresión lineal, es decir, aquella situación en la que la línea apropiada de ajuste es una recta.

    Genéricamente, recibe el nombre de correlación el estudio de la dependencia entre las dos variables de una distribución estadística bidimensional. Dicha correlación puede ser:

    • Lineal, cuando la línea de ajuste es una recta.

    • Curvilínea, si la nube de puntos se ciñe a una curva.

    • Positiva, o directa, que se presenta cuando si una variable crece o disminuye, la otra también crece o disminuye, respectivamente.

    • Negativa o inversa, por la cual si una variable crece, la otra disminuye, o a la inversa.

    • Nula, cuando no existe relación alguna entre las dos variables. En este caso, la nube de puntos no se concentra en torno a una línea, sino que se halla diseminada al azar por el plano. En este caso, también se dice que las variables no están correlacionadas.

    • Funcional, si las variables están ligadas por una ley matemática expresable mediante una ecuación.

    Por otra parte, se denomina coeficiente de correlación lineal al que sirve para establecer el tipo de correlación que existe en la variable bidimensional. Aunque hay varios coeficientes de correlación, el más empleado es el de Pearson, que se define como

    Como las desviaciones típicas, x y y, son siempre positivas, el signo del coeficiente de correlación dependerá del que tenga la covarianza, xy. Así pues, se verifica que:

    • Si la covarianza es positiva, la correlación es directa.

    • Si la covarianza es negativa, la correlación es inversa.

    • Si la covarianza es nula, no existe correlación.

    Finalmente, se dice que el coeficiente de correlación está siempre comprendido entre +1 y -1. Fijados estos conceptos, se demuestra que:

    1. Si r = -1 o bien r = 1, todos los puntos se hallan sobre una recta, por lo que existe dependencia funcional.

    2. Si -1 < r < 0, la correlación es negativa. La dependencia entre las dos variables es tanto mayor cuanto más cercano esté r al valor –1.

    3. Si 0 < r < 1, la correlación es positiva. La dependencia entre las dos variables es tanto mayor cuanto más cerca esté r al valor 1.

    4. Si r = 0, no hay correlación. Las variables son, entonces, aleatoriamente independientes.

    Rectas de regresión

    Se conocen por rectas de regresión las empleadas para realizar el ajuste de la nube de puntos en la regresión lineal. Cabe considerar dos casos:

    • Recta de regresión de y sobre x:toma a x como variable independiente e y como función. Es decir, dado un valor de x, puede predecirse el valor más probable de y. Su ecuación es:

    • Recta de regresión de x sobre y:inversamente al caso anterior, toma y como variable y x como función. Su ecuación es:

    Problema. La variable x expresa la calificación obtenida en el primer curso de Bachillerato y la variable y es la nota final de Bachillerato. Se dispone de los siguientes datos correspondientes a 9 alumnos y se desea:

    x

    5,4

    2,9

    6,8

    6,9

    5,3

    7,4

    4,3

    5,1

    5,5

    y

    5,8

    3,5

    4,8

    6,4

    5,9

    7,4

    4,2

    6,2

    6,1

    1. Dibujar el diagrama de dispersión de datos

    2. Hallar la recta de regresión de y sobre x

    3. ¿Qué nota final se puede predecir para una persona que ha obtenido 5,9 en el primer curso de Bachillerato?

    Solución. Como nota previa a la resolución del problema, debe recordarse que, dada la ecuación de una recta, y = mx + n, para hallar el valor de y que corresponde a un determinado valor de x basta con sustituir este último en la ecuación de la recta.

    1. Representado los datos de la tabla en un diagrama cartesiano, la nube de dispersión sería:


    1. Las medidas estadísticas para hallar la recta de regresión pedida son:

    La recta de regresión de y sobre x es:

    Sustituyendo en ella los valores hallados, la recta pedida será:

    c) Dando a x el valor 5,9, se obtiene y = 5,9. Es decir, un alumno que en primero de Bachillerato haya obtenido 5,9, obtendrá, según los datos ofrecidos, la misma nota final. Naturalmente, la fiabilidad de esta predicción dependerá del valor que tome el coeficiente de correlación, que no se ha pedido en el problema.