Cuando estamos analizando los datos de un estudio de mercado, muchas veces nos encontramos con la necesidad de saber si entre dos variables de tipo cuantitativo existe algún tipo de relación. Por ejemplo, a la hora de evaluar un producto o un servicio de una compañía, podemos querer saber si existe alguna relación entre la puntuación que se le ha dado a ese producto y el nivel de ingresos. Hay diferentes formas de analizar estos datos, pero una de ellas es comprobar si existe correlación entre esas dos variables.
Artículos relacionados:
- ¿Qué métodos científicos diferentes existen?
- ¿Qué es la escala de Likert y cómo utilizarla en tus encuestas?
- Métodos para calcular precios en productos nuevos
Más específicamente, las preguntas que podemos hacernos son tres:
- ¿Existe alguna relación entre esas dos variables? Dicho de otro modo, si cambian los valores en una de esas dos variables, ¿cambian también en la otra? Una respuesta afirmativa a esta cuestión significaría que las variables están “asociadas”, es decir, que existe una correlación entre ellas.
- ¿En qué sentido se da esa correlación? Por ejemplo, si el nivel de ingresos es más alto, ¿es también más alta la valoración que se le da al producto o servicio? Si es así, la asociación entre ellas es positiva, es decir, las dos variables no sólo están asociadas, sino que, además, cambian o se mueven en la misma dirección. También puede ocurrir lo contrario: un incremento en los valores de una, se vincula con un descenso en los valores de la otra. Hay correlación, pero es negativa, de sentido inverso.
- Finalmente, ¿qué fuerza tiene esa correlación? ¿Es alta o es baja? Hay variables que están solo ligeramente correlacionadas, o lo están a un nivel medio, pero en otras ocasiones podemos encontrar una asociación muy alta (el ejemplo más extremo de esto es la correlación de una variable consigo misma, que como es lógico, es la más alta posible).
Una forma de contestar a estas cuestiones es utilizando el Coeficiente de Correlación de Pearson, un método propio de la estadística paramétrica, que no solo se usa para conocer la relación entre dos variables cuantitativas, sino también para la predicción de una variable (la regresión lineal, tema que no trataremos aquí).
Cómo se interpreta el coeficiente de correlación de Pearson
El coeficiente de correlación de Pearson oscila entre –1 y +1:
- Un valor menor que 0 indica que existe una correlación negativa, es decir, que las dos variables están asociadas en sentido inverso. Cuánto más se acerca a -1, mayor es la fuerza de esa relación invertida (cuando el valor en una sea muy alto, el valor en la otra será muy bajo). Cuando es exactamente -1, eso significa que tienen una correlación negativa perfecta.
- Un valor mayor que 0 indica que existe una correlación positiva. En este caso las variables estarían asociadas en sentido directo. Cuanto más cerca de +1, más alta es su asociación. Un valor exacto de +1 indicaría una relación lineal positiva perfecta.
- Finalmente, una correlación de 0, o próxima a 0, indica que no hay relación lineal entre las dos variables.
La representación gráfica de los datos es muy útil para visualizar la relación existente entre las variables, ya que hay que tener en cuenta que a veces existen relaciones entre variables que no son lineales.
Por ejemplo, los dos siguientes gráficos muestran relaciones lineales entre dos variables. La primera tiene un coeficiente de correlación de +1, indicando una relación lineal perfecta y positiva (el crecimiento en una variable se asocia con un crecimiento en la otra variable). La segunda tiene un coeficiente de correlación de -1, indicando también una relación lineal total, pero negativa, de sentido inverso (el crecimiento en una se asocia con un descenso en la otra).
Estos niveles de correlación lineal tan perfectos no suelen darse en la realidad, pero si que encontramos muchas veces alta correlación, bien en un sentido o en otro, con representaciones gráficas similares a las que siguen, donde el valor de “r” es cercano a 1. Puede verse como las nubes de puntos (pares de datos de valores para las dos variables), siguen un sentido y se acumulan en su recorrido cerca de la línea de tendencia, que es positiva en un caso y negativa en el otro:
Por el contrario, en el primero de los dos siguientes ejemplos podemos comprobar que la nube de puntos está bastante más dispersa, con un coeficiente de correlación de -0,31. Intuitivamente nos damos cuenta de que la correlación es baja, a pesar de que se apunta una ligera tendencia de correlación negativa. En el caso de la derecha, la dispersión es total y se ve perfectamente que se trata de dos variables no correlacionadas. Su coeficiente, valor “r” es de -0,05.
Existe bastante consenso a la hora de interpretar los valores del coeficiente de correlación de Pearson utilizando los siguientes criterios (y considerando los valores absolutos):
- Entre 0 y 0,10: correlación inexistente
- Entre 0,10 y 0,29: correlación débil
- Entre 0,30 y 0,50: correlación moderada
- Entre 0,50 y 1,00: correlación fuerte
Algunas características del coeficiente de correlación de Pearson
1. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir las variables, lo que sin duda es una ventaja.
2. Cuando hay valores extremos en alguna de las variables, el valor del coeficiente de correlación puede verse alterado de forma importante. En estas situaciones, si a pesar de ello queremos aplicarlo, conviene realizar una transformación de datos (por ejemplo, la transformación logarítmica), cambiando la escala de medición para moderar el efecto de valores extremos.
3. Cuanto más grande es la muestra, más preciso será el coeficiente de correlación. Con muestras muy pequeñas puede que esté indicado aplicar otro coeficiente de correlación, de tipo no paramétrico (el Coeficiente de Correlación de Spearman, por ejemplo).
4. Del mismo modo, se presupone normalidad en la distribución bivariante de las dos variables en análisis. Si esta condición no se cumple, será mejor aplicar otro (también el Coeficiente de Correlación de Spearman).
5. El coeficiente de correlación mide solo la relación con una línea recta, pero puede que nuestras dos variables tengan una relación diferente. Por ejemplo, al representarlas gráficamente podemos encontrar que tienen una relación curvilínea, y no en línea recta. En este caso el coeficiente de correlación de Pearson, que mide la relación lineal, nos daría un valor pequeño, a pesar de que en realidad las dos variables tienen asociación entre sí (solo que ésta es de tipo no lineal).
6. Debemos tener claro que decir que hay correlación no es lo mismo que decir que existe “causalidad”. Es decir, la “causa” de que una variable varíe en cierto sentido no es que la otra “se mueva” (o viceversa). Puede haber otros factores ajenos u otras variables, al margen de estas dos, que en realidad sean la causa de estos movimientos.
Como ocurre con muchos otros estadísticos, existen multitud de programas y opciones que facilitan el cálculo del coeficiente de correlación de Pearson. Realmente lo más importante, en el fondo, es saber cuándo y cómo utilizarlo para darle sentido al análisis de los datos, convirtiéndolos así en información relevante para el cliente. En CIMEC somos profesionales expertos y especializados en realizar estudios de mercado y análisis estadístico. Confía en nosotros.
Si quieres ampliar información, contáctanos. También puedes consultar nuestras soluciones CIMEC en: cimec@cimec.es.
[…] ¿Qué es el coeficiente de correlación de Pearson? […]
[…] via […]
[…] Coeficiente de correlación de Pearson, ¿qué es? […]
[…] Coeficiente de correlación […]
[…] Qué es el coeficiente de correlación de Pearson […]
[…] Coeficiente de correlación de Pearson […]
[…] Correlación de Pearson, qué es […]
[…] Coeficiente correlación de Pearson […]
[…] Coeficiente de correlación […]
[…] Coeficiente de correlación de Pearson […]
[…] Coeficiente de correlación de pearson […]
[…] Matriz de correlación de Pearson […]