Análisis cuantitativo

  1. Analizar variables individuales
  2. Analizar las relaciones entre variables
In English   In Finnish   Indice

Una vez recibidos los datos y antes de someterlos al análisis, suele ser útil llevar a cabo algunas operaciones preliminares. Esto puede incluir:

En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o estructura que nos interese a partir de los datos. Esto no significa que introduzcamos los datos en un ordenador y esperemos que el ordenador nos muestre qué estructuras pueden encontrarse en ellos. Los ordenadores no son lo bastante listos para eso.

En lugar de ello, es habitual que ya en un momento tan temprano como el inicio del proyecto, el investigador tenga un modelo matemático que aplicará a los datos. Este modelo también proporciona las hipótesis eventuales para el proyecto de investigación, o al menos actúa como una hipótesis de trabajo inicialmente no exacta que se puntualizará durante el análisis.

Los datos empíricos pueden entonces analizarse del modo siguiente: primero, el investigador dispone los datos de acuerdo con el modelo y después considera en qué grado el marco es adecuado a los datos o si ha de buscarse un modelo que se adapte mejor.

En otras palabras, el investigador suele primero decidir qué tipo de patrón es el que está buscando en los datos. Esto determinará los métodos para un análisis matemático. Así, la primera cuestión a la hora de elegir el método de análisis es: ¿Queremos usar las variables medidas para clasificar casos o individuos? ¿O deseamos analizar variables inconexas, o bien las relaciones entre diversas variables?

Otra decisión importante se refiere al propósito final de su proyecto. ¿Usted desea describir cómo es el actual (o anterior) estado de su objeto, o usted desea descubrir cómo el objeto debe ser: qué grado de las cualidades medidas sería óptimo? Este último tipo de análisis se discute bajo del título Agregar una dimensión normativa a un análisis descriptivo.

Analizar variables individuales

A continuación hay una lista de algunos métodos habituales para el análisis estadístico de una sola variable. Los métodos han sido dispuestos de acuerdo con la escala de medición de la variable.

- Escala nominal  Escala ordinal  Escala de intervalo Escala de proporción
Métodos de presentación de los datos - Tabulación ; Presentación gráfica -
Medias: - La moda -
- - La mediana -
- - - Media aritmética -
Medidas de dispersión: - - Desviación de cuartil -
- - El rango -
- - - Desviación estándar  -

Presentación gráfica de una variable

Un modo simple de presentar una distribución de valores es mostrar cada valor como un punto en una escala. Si hay un gran número de valores, puede ser mejor clasificarlos primero y entonces presentar la frecuencia de cada clase como un histograma (Fig. de la derecha).

Si nuestros estudios tienen que ver con personas, ocurrirá con bastante frecuencia que nuestras mediciones estarán distribuidas de acuerdo con cierta curva, la llamada curva de Gauss (a la izquierda) que es, por consiguiente, llamada la distribución normal. Una de sus propiedades es que el 68% de todas las mediciones diferirá de la media (en la figura: M) en no más que la desviación estándar, y el 95% en no más que el doble de la desviación estándar.

A veces querremos poner el énfasis no en la distribución absoluta, sino en la proporcional o de porcentaje. Un diagrama apropiado para esto es el gráfico de sectores, también llamado "de tarta" o "de queso" (a la derecha):

Medias

Una media es una estadística que caracteriza el valor típico de nuestros datos y elimina la dispersión aleatoria de valores. Para cada una de las distintas escalas de medición hay un tipo adecuado de media,

Moda es el valor más común en nuestro conjunto de datos.

Mediana es el valor en el medio de la selección, si todos los valores están dispuestos del menor al mayor.

Media (aritmética) es la suma de todos los valores dividido por su número, o

De entre las medias que se han presentado más arriba, el investigador puede elegir habitualmente aquella que muestra mejor el valor típico de la variable. La media aritmética es el más popular, pero puede ofrecer un cuadro equivocado por ejemplo en datos que incluyen un valor que difieren en gran medida de los otros (véase la imagen de abajo).

Lo mismo ocurre si la distribución está desviada, como en la imagen de la derecha. En el ejemplo, se relacionan los minutos que los distintos sujetos tardan en llevar a cabo una tarea. Los más rápidos necesitaron 5 minutos, pero el resultado más común (=la moda) fue de siete minutos. El valor en el medio, es decir, la mediana, se ha mostrado en "M" rojo en la imagen. La mediana tenía aquí el valor 11.

¿Qué pasa con la media? Como al sujeto más lento le llevó el acabar 34 minutos, la media se eleva a 11.98 minutos, lo que no da un cuadro exacto del resultado medio en este caso. Esto muestra que los datos están desviados; el tipo de media debe elegirse con cuidado. Una presentación gráfica muchas veces sería más ilustrativa que calcular una sola estadística.

La distribución mostrada en esta figura está escorada positivamente, porque las mediciones que han dado valores mayores que la mediana (11) se extienden en un amplio rango (de 11 a 34), mientras que las mediciones que han dado valores por debajo de la mediana se concentran pocos valores (5...11).

Se puede también, si es necesario, acudir a una estadística para describir la cantidad de desviación.

Al elegir la media más apropiada, debemos tener en cuenta la escala que fue usada en la recolección de los datos. Si la escala era nominal, la única media posible es la moda. Si la escala fue ordinal, podemos usar la mediana o la moda.

Finalmente, si la media fue calculada a partir de una muestra, debemos examinar su representatividad estadística, o qué probable es que la misma media sea cierta en la población de la que la muestra se extrajo. Una comprobación apropiada para esto es la prueba t.

Indicar la dispersión de los datos

Una vez que hemos calculado el valor medio, puede ser a veces interesante describir a qué distancia en torno a la media están diseminados los valores singulares. Para este fin, podemos elegir entre diversas estadísticas. La elección depende del tipo de media que hayamos usado:

Sin embargo, si la desviación estándar sólo se refiere a una muestra, la formula es,

En ambas fórmulas, n es el número de los valores, y los valores de cada variable sustituirán a x uno tras otro. Raramente un investigador se molestará en realizar por sí mismo el cálculo, porque el algoritmo necesario para esto existe incluso en calculadoras de bolsillo.

A la raíz cuadrada de la desviación estándar se llama varianza, y también ésta es usada con frecuencia para describir y analizar la dispersión.

Si la estadística de dispersión se ha calculado a partir de una muestra, su representatividad estadística debe también calcularse al final. La prueba t es adecuada para esto.

Analizar las relaciones entre variables

Si dos variables evolucionan modo tal que en alguna medida se siguen entre ellas, podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo, la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas pesen más que las personas bajas. Por otro lado los datos habitualmente incluyen también excepciones, lo que significa que una asociación estadística es inherentemente estocástica.

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simples son los medios de presentación gráfica y tabulación. La intensidad de la asociación entre variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.

Si, al analizar los datos, se descubre alguna asociación entre las variables, el investigador quisiera a menudo saber la razón de esta asociación en el mundo empírico, es decir él quisiera explicar esta asociación. Los tipos usuales de explicacion se enumeran en la página Descripción y Explicación. Común a todos es que dan la causa del fenómeno se está estudiando que. Cuando las medidas se han hecho de una serie de estos fenómenos, es usual que una serie de medidas, llamada variable independiente, se hace así de la causa presumida, y una otra serie de medidas, la variable dependiente, del efecto presumido en el fenómeno.

Nota que no hay métodos en el análisis estadístico para la tarea de descubrir la explicación causal para una asociación estadística. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:

El investigador debe encontrar así la causalidad o la otra explicación para la asociación de las variables en alguna otra parte que en las medidas. En muchos casos, la teoría original del investigador puede proporcionar una explicación; si no, el investigador debe usar su sentido común para clarificar la causa.

A continuación mencionamos algunos métodos usuales de análisis estadístico que pueden usarse al estudiar la interdependencia entre una o más variables. Los métodos han sido dispuestos siguiendo a qué escala de medición corresponden la mayor parte de las variables.

Meta de análisis Escala nominal Escala ordinal Escala de intervalo Escala de proporción
Presentar datos y su estructura a grandes rasgos Tabulación ; Gráficos
Medir la fuerza de la asociación entre dos variables Coeficiente de contingencia
- Correlación ordinal
- - Correlación r de Pearson
Encontrar qué variables entre varios son asociadas: Calcular contingencias o correlaciones para todos los pares de variables ; análisis factorial
Transcribir una asociación estadística en una función matemática: - - Análisis de regresión

Tabulación

La tabulación es una forma habitual de presentar las asociaciones entre dos o más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces revela algo más que las más obvias regularidades o interdependencias entre datos. Algunas abreviaturas convencionales usadas en tablas se presentan bajo el encabezado Clasificar.

Presentación gráfica

Los productos, como objetos de estudio, son presentados con frecuencia como imágenes, que son una forma de presentación gráfica. (Ejemplos de presentaciones gráficas.)
Si el investigador desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en un grupo de objetos, puede combinar varios objetos en un gráfico, como en la figura de la izquierda. En el diagrama, Sture Balgård muestra cómo los edificios viejos en Härnösand siguen proporciones uniformes de anchura y altura (la línea roja) con sólo algunas excepciones. Al inventar métodos ilustrativos de presentación de los hallazgos del estudio de productos, la más seria restricción es la imaginación del investigador.

Con frecuencia, no obstante, la apariencia del objeto en sí no es importante y sólo interesan los valores numéricos de sus mediciones. Si se considera así, lo primero que debiéramos plantearnos al elegir el tipo de gráficos es cuál es la estructura que queremos mostrar de los datos. Por supuesto tenemos que no "mentir con ayuda de la estadística", pero siempre es admisible elegir un estilo de presentación realce los patrones importantes al eliminar o dejar en segundo plano las relaciones y estructuras que no nos interesan.

Si nuestros datos consisten en solamente unas pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos. En el diagrama de la derecha, la variable z tiene dos valores que se indican respectivamente por un cuadrado y un signo +.

Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas, véanse los ejemplos.  Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior. La parte descartada debe estar vacía de valores medidos empíricamente. Para asegurarnos que el lector se da cuenta de la operación, es mejor mostrarlo no sólo en las escalas, sino también en la cuadrícula de fondo del diagrama.

Por otro lado, si el rango de variación de nuestros datos es muy amplio, podemos plantearnos usar una escala logarítmica en uno o ambos ejes (véase el diagrama de la izquierda). La escala logarítmica es apropiada solamente en una escala de proporción.

Si tenemos cientos de mediciones, es probable que no queramos mostrarlas todas en forma de diagrama de dispersión. Una posibilidad en este caso es clasificar los casos y presentarlos como un histograma.
El histograma puede adaptarse para presentar hasta cuatro o cinco variables. Podemos hacer esto variando las anchuras de las columnas, sus colores, sus tramados y por una representación tridimensional (fig. de la izquierda.). Todas estas variaciones se crean fácilmente con un programa de hoja de cálculo como Excel, pero no deben ser usadas sólo como adorno.
Los patrones que rellenan o marcan las columnas del histograma pueden ser elegidos de forma que simbolicen una de las variables. Por ejemplo, las columnas que describen el número de automóviles pueden estar formadas por una pila de automóviles unos sobre otros. Esto es correcto, con tal de que no variemos el tamaño de los símbolos usados en un histograma. De otro modo, la interpretación se le haría difícil al lector (¿se vincula el número de automóviles a la longitud, el área o el volumen de los símbolos de los automóviles?)

El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito).

No debemos producir una curva a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes. Ejemplos de ello son las evaluaciones personales que los investigadores suelen reunir con la ayuda de escalas semánticas diferenciales del tipo de la mostrada abajo:

Estime las características de su dormitorio. 
Tache un recuadro en cada línea.
Claro _ _ _ _ _ _ _ Oscuro
Ruidoso _ _ _ _ _ _ _ Tranquilo
Limpio _ _ _ _ _ _ _ Sucio
Grande _ _ _ _ _ _ _ Pequeño

Carecería ahora de sentido el presentar las distintas evaluaciones del dormitorio como un solo "perfil" como en el diagrama de la izquierda (aunque encontremos con frecuencia este tipo de presentaciones ilógicas en informes de investigación.)
Si queremos a toda costa poner el acento en que las variables han de ir juntas (por ejemplo porque todas son evaluaciones del mismo objeto), un método apropiado podría ser, por ejemplo, un grupo de histogramas (como el de la derecha).

Todos los diagramas mostrados arriba pueden combinarse con mapas y otras presentaciones topológicas. Por ejemplo, la variación en las diferentes áreas del país suele mostrarse como un cartograma que distinga los diferentes distritos con distintos colores o tramas. Otra forma es el cartopictograma en que pequeños diagramas de sectores ("de tarta" o "queso") o de columnas han sido colocados en el mapa. Las conexiones entre distintas áreas suele ser con frecuencia mostradas con filas cuyo grosor indica el número de conexiones. (Ejemplo.)

Una obra útil y concisa en español sobre el uso de diagramas para análisis estadístico es:  Antonio Alaminos, Gráficos, Madrid, Centro de Investigaciones Sociológicas, 1993 (Col. Cuadernos metodológicos, nº 7)

Contingencia y correlación

La covarianza estadística entre dos variables suele ser analizada haciendo una tabla o una presentación gráfica, pero también hay disponibles estadísticas especiales para indicar su intensidad. Los medios disponibles para el análisis de los vínculos entre las variables dependen de con qué tipo de escala se han medido las variables. Vea la tabla que se presentó anterior.

Las formulas para calcular las estadísticas de contingencia no se muestran aquí porque llevar a cabo los cálculos manualmente sería poco práctico y los investigadores habitualmente los hacen con un ordenador.

La correlación del momento-producto suele abreviarse con la letra r. Si el coeficiente de correlación es bajo, por ejemplo algo entre -0.3 y  +0.3, las dos variables no tienen mucho que ver entre sí (más exactamente, no tienen casi ninguna covariación lineal). Si es alto, en otras palabras, si su valor se aproxima ya sea a +1 o a -1, esto significa que la relación entre las dos variables se aproxima a la ecuación y = ax + b. El signo del coeficiente de correlación no es importante; el signo siempre es idéntico al signo del coeficiente a en la ecuación de arriba.

Debajo, se puede ver tres diagramas de dispersión que demuestren tres conjuntos diferentes de datos de dos variables. Cada conjunto consiste en ocho pares de valores. Las correlaciones entre las dos variables se han calculado y se demuestran bajo cada diagrama. Se puede ver que no hay correlación entre las variables en el conjunto en la izquierda, y los otros dos conjuntos demuestran las correlaciones de 0,5 y 1,0.

A pesar del hecho que el análisis de correlación es capaz de manejar solamente dos variables, puede utilizarlo para el análisis inicial de un gran número de variables, cuando no tenemos una idea clara de las relaciones mutuas entre ellas. Es fácil para un ordenador calcular una matriz de correlación entre todos los pares potenciales de variables. Podemos entonces elegir esos pares que presentan las correlaciones más fuertes, y continuar examinandolos con otras herramientas de análisis más refinadas.

Un aspecto débil del análisis de correlación es que no puede detectar otras relaciones lineales entre las variables. Por ejemplo, una relación que obedece a la ecuación y = ax2 pasaría inadvertida. Sin embargo, algunos de los nuevos programas de análisis son capaces de detectar incluso esta y algunas otras asociaciones habituales de variables. Además, se puede intentar:

Una vez que usted haya encontrado un par de variables con una correlación o contingencia fuerte usted puede continuar, por ejemplo, con las operaciones siguientes:

Si la correlación se calcula a partir de una muestra, debemos recordar probar su representatividad estadística con la prueba t.

Análisis de regresión

El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis de regresión clasico o "multivariate" es un método apropiado para desvelar el patrón exacto de esta asociación.

RegresiónEl análisis de la regresión encuentra la ecuación linear que se desvía lo menos posible de las observaciones empíricas. Por ejemplo, en el diagrama a la derecha, los puntos simbolizan las observaciones donde se han medido dos variables, y la línea representa la ecuación y = 8x + 45, obtenido con análisis de la regresión de modo que la suma de las diferencias cuadradas de los valores medidos de y llegue a ser mínima.

El esquema contiene sólo cuatro observaciones. Es demasiado poco para producir una ecuación plausible porque las observaciones podrían ser el resultado de coincidencia sólo, sin ninguna dependencia verdadera entre las variables. Si usted quiere hallazgos plausibles o "estadísticamente significativos" se necesitaría mucho más, quizás 40 observaciones multiplicados por el número de las variables independientes.

El algoritmo de análisis de regresión construye una ecuación, que tiene el siguiente patrón con una o más variables independientes. Además, da los parámetros a1 , a2 etc. y b valores tales que la ecuación corresponde a los valores empíricos con tanta precisión como es posible.

y = a1x1 + a2x2 + a3x3 + ... + b

En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independientes
a1 , a2 etc. = parámetros
b = constante.

Una desventaja del algoritmo del análisis de regresión es que puede discernir relaciones sólo lineales entre las variables. Así no puede manejar tales formatos usuales de ecuación como y = ax2 + bx + c. Esta dificultad, sin embargo, puede ser evitado por reemplazar temporalmente la variable no lineal con una transformación conveniente de ello, tal como su cuadrado, raíz cuadrada, el inverso, o logaritmo.

Si tenemos amplios datos con muchas variables, al principio del análisis no estaremos tal vez seguros de qué variables están mutuamente conectadas y cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar esto con una matriz de correlación, o podemos dejar al programa de análisis de regresión elegir las variables "correctas" (x1 , x2 etc.) para la ecuación. "Correctas" son aquellas variables que mejoran la exactitud del ajuste entre la ecuación y los valores empíricos.

Cuando una de las variables independientes es tiempo, y especialmente cuando tenemos una serie de tiempo de medidas en intervalos iguales, el análisis de regresión es una herramienta conveniente para revelar una tendencia o un desarrollo a largo plazo en una serie de tiempo, considera estudio histórico. Esta tendencia se puede a menudo utilizar para pronosticar el desarrollo futuro de la variable dependiente.

En el análisis clásico de la regresión la ecuación deseada contiene solamente una variable dependiente. En el caso que más que uno variable dependiente se parecen ser implicadas, una herramienta conveniente para su análisis es la correlación canónica, no discutida aquí.

Finalmente, la herramienta correcta para calcular la representatividad estadística de la ecuación obtenida por la análisis de regresión está la prueba t.

Análisis factorial

Todas las preguntas en un cuestionario se pueden considerar como variables, los valores de las cuales son encontrados estudiando las respuestas que cada pregunta recibe. Generalmente la mayor parte de las preguntas conciernen más o menos el mismo tema, y es por lo tanto normal que algunas de estas variables resultan tener una alta correlación mutua. El investigador ahora pudo desear descubrir si hay "variables de fondo" o los factores latentes que combinan algunas variables originales. Si se podría encontrar estas variables del fondo, los datos contenidos en los cuestionarios serían comprimidos grandemente y llegarían a ser más fáciles de comprender. El análisis factorial es el método normal de encontrar estas variables latentes.

Por ejemplo, en un estudio acerca de la ropa de gente finlandesa joven, Sinikka Ruohonen (2001, p. 97) examinó con un cuestionario las actividades del ocio de los respondedores, y descubrió que había una alta correlación entre pasar tiempo en conciertos, en galerías de arte, en teatros y en bibliotecas y también en lectura de libros. Todos éstos tenían una correlación negativa con mirar la televisión o las competiciónes deportivas. Ruohonen dio el nombre de "factor cultural" a esto factor. Él se asoció además con educación alta de madre y padre, y con independencia de las opiniones de otros al comprar ropas.

Otro factor que Ruohonen encontró y nombró "estético-social", incluyó objetivos de seleccionar ropas: destacar sus buenos o belleza, retratar confianza en sí mismo y personalidad, llamar atención, demostrar camaradería, valores comunes e ideologías. Este factor correlacionó también, en poco grado, con interés en la ecología, con se hacer la ropa por una misma, y no llevar pieles.

Un tercer factor, "gastar" contuvo varios indicadores de gastar dinero comprando la ropa, los cosméticos y las joyas, tan bien como el aprecio del estilo, de la calidad y de la moda.

Con la ayuda de un análisis factorial, las variables de combinación o factores latentes tras los atributos medidos pueden detectarse y especificarse, y el análisis también dice lo estrechamente que estos factores están vinculados con las variables originalmente verificadas.-- A veces se sitúa también una condición suplementaria sobre los factores, concretamente que no deben tener correlación alguna entre ellos y estén por lo tanto en "ángulo recto" uno con respecto a otro (= "rotación ortogonal" de los factores durante el análisis). Esta opción, no obstante, suele disminuir la correlación con las variables originales.

Un inconveniente del método del análisis factorial es que su uso formalmente correcto pero desconsiderado puede producir fácilmente los factores elegantes y matemáticamente exactos que sin embargo no tienen ningún significado empírico sensato. En el estudio citado arriba, Ruohonen evitó este callejón sin salida con el medio de entrevistar algunos respondedores desde una u otra extremidad de un factor, los cuales eran capaces clarificar sus actitudes y estilos de vida y dar el motivo para sus opiniones que difieren del promedio.

Es posible continuar el análisis factorial agrupando los respondedores (u otros casos empíricos) en grupos en base de sus valores en los factores que se encontraron en el análisis. Esta operación sufre de la misma inconveniencia que arriba: es difícil dar una explicación empírica a estos grupos artificiales y encontrar cualquier rastro de su existencia verdadera en empiria. Además, la dispersión de casos a lo largo de cada factor sigue casi siempre la distribución normal de Gauss, que significa que la mayoría de casos están cerca del punto medio y el investigador no puede encontrar ninguna división distinta en grupos. Esta trampa del investigador se discute también en la página Clasificación.

In English   In Finnish   Indice

3.ago.2007. Enviar los comentarios al autor:

Versión en español: con aumentos por Pentti Routio
Ubicación original: http://www2.uiah.fi/projects/metodi/