Evaluar los hallazgos

  1. Evaluar la entrada teórica
  2. Evaluar datos recogidos
  3. Evaluar la corrección del análisis
  4. Evaluar los resultados teóricos
  5. Valorar las consecuencias prácticas

Métodos de evaluar propuestas normativas se explican en una página separada.

In English   In Finnish   Indice

Una vez obtenidos los resultados, pero antes de informar de ellos, el investigador debe dedicar algún tiempo a una fase especial: la evaluación. Debe evaluar los resultados: ¿son lo que él quería?, ¿Es posible mejorar algo en el informe? ¿Debe ser dejado fuera algo o merece el informe publicarse en su totalidad?

El método normal al valorar un proyecto es comparar los resultados a los objetivos iniciales. La blanco del estudio descriptivo es descubrir cómo son las cosas acerca del objeto del estudio (o cómo ellas han sido, al estudiar el pasado). La primera tarea en la evaluación así deberá examinar si los datos deseados existen en el informe. Esto es normalmente una tarea trivial.

El segundo, mucho más difícil pregunta se refiere a la confiabilidad de los resultados: cuán es alto el riesgo de ellos estar falsos, o cómo es grande su error probable.

En la investigación normativa la evaluación del informe final es a menudo relativamente simple: usted (y los otros tenedores de apuestas en el proyecto) leen las propuestas finales y después cada uno declara si él conviene, o no. La situación es diferente en la investigación descriptiva. Apenas mirar el resumen no ayuda a determinar el valor del trabajo - los resultados se parecen normalmente muy confiables y exactos. Sólo raramente hay otra fuente segura con que se podría comparar los resultados. Normalmente la única manera de determinar la confiabilidad es ir más profundo en el informe y examinar todas las tareas que el investigador ha ejecutado antes de llegar en los resultados finales. Estas evaluaciones se discuten en Evaluar la entrada teórica, Evaluar datos recogidos y Evaluar la corrección del análisis.

Sólo después de que el proceso del proyecto haya sido aprobado en la inspección antedicha es el momento oportuno de tomar seriamente los resultados divulgados y de los comenzar a evaluar directamente. Dos puntos de vista más generalmente de esta examinación son Evaluar los resultados teóricos y Valorar las consecuencias prácticas. En estas evaluaciones finales no necesita se interesar mucho sobre las blancos iniciales del proyecto - es normal que un proyecto logra más (o menos) que fue planeado.

Evaluar la entrada teórica

"Basura adentro, basura fuera." En otras palabras, un proyecto de investigación no puede dar resultados significativos si hay controversias o absurdidades en los modelos teóricos que se han utilizado como puntos de partida cuando definir el problema ni cuándo seleccionar la población del estudio y los fenómenos que se observarán. Por supuesto, estas preguntas se deben haber puesto en orden ya antes de comenzar a recoger datos, pero la verdad triste es que a veces el investigador sabe bastante poco sobre el problema inicialmente, y solamente el estudio mismo puede hacerlo competente en juzgar los modelos teóricos pertinentes. De todas formas, más vale tarde que nunca.

En la historia de muchas ramas de la ciencia una teoría importante ha sido sustituta por un nuevo, y una gran cantidad de estudios que han confiado en la teoría vieja han llegado a ser apenas curiosidades históricas. En el estudio de productos esta cosa ocurrió, no obstante gradualmente, durante el siglo XIX, cuando la teoría de Baumgarten de la belleza como proceso de la percepción subjetiva reemplazó la doctrina de Platón en belleza como característica de objetos. Tales revoluciones científicas, sin embargo, suceden tan infrecuentemente que los investigadores no pueden esperar tomarlas en cuenta cuando evaluar su materia.

Evaluar datos recogidos

Los procedimientos de adquirir los datos para la investigación consisten generalmente en tres operaciones distintas que se deben evaluar separadamente:

Consistencia de la demarcación

El investigador tendrá que considerar la delimitación de su estudio en varias fases del proyecto y en varias ubicaciones de su informe. Tales situaciones típicas son:

Consistencia de la demarcación significa simplemente que durante el proyecto todas las definiciones de la población del estudio deben ser idénticas o por lo menos compatibles. Fallando esto, la estructura lógica del estudio corre un riesgo de desplomar.

En sí mismo, no hay demarcaciones "derechas" o "incorrectas" - el investigador tiene el derecho de elegir cualquier limitación él se siente útil o interesante. Un criterio apropiado, en lugar, es racionalidad de la demarcación. En los estudios que incluyen una aplicación práctica, una población útil está a menudo esa gente que beneficiará del proyecto, por ejemplo la clientela-objetivo que se han definido para el proyecto.

Como contraste, en la investigación básica teórica usted desearía a menudo utilizar una demarcación amplia que, por ejemplo, incluye todos los períodos históricos o todos los casos comparables en el universo. Sin embargo, las delimitaciones muy amplias causan a menudo dificultades cuando diseñar una muestra que se estudiará o cuando registrar datos (véase abajo), y estas complicaciones alternadamente pueden dañar la credibilidad de los resultados.

Corrección del muestreo no-aleatorio

Muestreo no-aleatorioCuando hemos reunido los resultados de una muestra no aleatoria a partir de una población, lo normal es que queramos generalizar nuestros resultados. Generalizar significa que afirmamos que los resultados son ciertos no sólo para la muestra, sino también respecto a la población. ¿Es posible evaluar la credibilidad de tal declaración?

La cuestión crucial en la evaluación es si la muestra se desvía de la población en aspectos relevantes. Por relevantes entendemos aquellas cuestiones que se incluyen en los objetivos del proyecto y que medimos en la muestra.

Cuándo la muestra está no aleatoria hay siempre el riesgo que la muestra contiene sesgo, un error sistemático que está a menudo difícil de detectar sin estudiar a la población entera. Un método entonces deberá estudiar cualquier materia que se puede encontrar acerca de la población, como archivos públicos demográficos sobre edad o estructura por sexos, y comparar estas cifras con nuestra muestra. Si encontramos desviaciones, tenemos que plantearnos si éstas nos dan razones para sospechar sobre desviaciones también en las variables "relevantes" arriba aludidas.

Para ayudarnos a la hora de plantearnos esto, podríamos calcular las contingencias o correlaciones entre la variable demográfica que aparece desviada y nuestras variables "relevantes" (si son numéricas). Por ejemplo, si la distribución por sexos no es igual a la distribución por sexos de la población, calcularemos las correlaciones entre sexo y nuestras variables "relevantes" en la muestra. Una contingencia alta significa que la tendencia en la muestra afectará probablemente los resultados, también.

Una otra manera de evaluar la representatividad de una muestra no aleatoria sería investigar otra muestra tomada de la misma población con otro método de muestreo.

Corrección del muestreo aleatorio

Muestreo aleatorioSi hemos reunido nuestros resultados empíricos a partir de una muestra aleatoria, la diferencia entre la muestra y la población no puede ser debido al sesgo. Sin embargo, hay normalmente más o menos diferencia que se ha causado por casualidad al seleccionar la muestra. Usted a menudo querrá evaluar cuán grande esta diferencia es, y verdaderamente su valor probable se puede calcular. Dos métodos usuales para lo son:

Encontrar el intervalo de confianza. Observa que a pesar del nombre prometedor del “margen del error’, este método mide solamente la diferencia entre población y muestra, exactamente como todos los otros procedimientos de estudiar el significativo estadístico. Ignora todos los errores en la colocación de los hechos, asimismo toda la variación que quizás ocurrirá luego en el objeto del estudio, por ejemplo que clientes en realidad no se comportan ni votan como ellos han dicho en una entrevista.

Cuándo usted tiene una muestra aleatoria y usted ha medido o ha calculado de lo un estadístico tal como un medio o un porcentaje, está generalmente posible calcular el intervalo de confianza, o el rango de los valores de la población que incluirá el valor obtenido de la muestra, con una probabilidad dada que usted puede elegir. Si usted selecciona la probabilidad de 95%, significa que hay un riesgo de 5% que la estadística en la población verdadera está fuera de este rango.

La fórmula para calcular el margen del error - i.e. la mitad del intervalo de confianza - para un medio o un variable simple es, con un riesgo de 5%:

Intervalo de confianza de un variable

donde
s = desviación estándar de la población
n = número de la muestra

El diagrama abajo a la izquierda demuestra la dispersión de una cierta variable en la población P, y también en dos muestras escogidas al azar de la población. El investigador está interesado en el medio de esta variable en la población P. Si se asume que la dispersión de esta variable en la población no está lejos de normal y la población no es más pequeña que cerca de ciento, podemos calcular el margen del error (m) que define los límites del intervalo de la confianza que incluye 95% de los medios de todas las muestras escogidas al azar de esta población. Las muestras aleatorias R1 y R2 aquí se han dibujado en los dos extremos del intervalo de la confianza del medio.

Dos muestras aleatoriasDos poblaciones

En el diagrama a la derecha el razonamiento va en la dirección opuesta a fin de resolver un problema común en la investigación empírica. Aquí usted sólo tiene una muestra aleatoria, y usted querría saber el medio aritmético de la población de quien la muestra origina. Para conseguir el intervalo de la confianza donde se encontrará este promedio, usted puede utilizar la misma fórmula que arriba, aunque hay la dificultad que ahora se no sabe la desviación estándar en la población. Sin embargo, se puede utilizar como substituto la desviación estándar de la muestra, que es generalmente casi igual.

Las fórmulas para calcular el margen del error son poco diferentes para varias estadísticas. La fórmula para manejar un porcentaje es:

Intervalo de confianza de un porcentaje

donde
p = porcentaje (por ejemplo, de clientes que están satisfechos) desde una muestra
n = número de la muestra.

En ambos casos el coeficiente, aquí 1,96, depende de la probabilidad deseada, por ejemplo para un riesgo de 1% sería 2,58 y para un 10% riesgo 1.64.

Calcular el significativo estadístico. La base del cálculo de probabilidad está igual que en el método del margen del error, pero aquí el nivel de la probabilidad y del riesgo no se miran como constantes. En lugar, la blanco es encontrar cuán probable es que los resultados de la muestra son verdad también en la población original. Para este examen, hay los métodos llamados comprobaciones estadísticas. Estos métodos nos ayudarán a elegir entre dos explicaciones alternativas para nuestros resultados:

Ahora es posible calcular la probabilidad de obtener, por azar sólo, ciertos resultados a partir de la muestra. Si esta probabilidad es muy pequeña, por ejemplo menos de un 0.1%, tenemos buenas razones para rechazar la hipótesis nula y creer que los mismos resultados son ciertos en la población. A tales resultados se les llama estadísticamente altamente significativos.

Sin embargo, si la probabilidad de recibir el resultado por azar es amplia, digamos que por encima de un 5%, no debemos afirmar que nuestros resultados son necesariamente válidos en la población. En este caso, nuestros resultados se llaman estadísticamente no significativos.

Los niveles de representatividad de los resultados de una investigación usados habitualmente se detallan abajo. Los porcentajes indican la probabilidad de obtener el resultado solamente al azar, incluso cuando el resultado no fuera cierto en la población.

La abreviatura se usa situando una o más estrellas tras el resultado de la investigación ya sometido a prueba.

Se usan nombres ligeramente distintos para los niveles de representatividad según el país, y eso es por lo que, para evitar confusiones, podría por ejemplo afirmarse en el informe de investigación que "el resultado es significativo en el nivel del 5%", queriendo esto decir que la probabilidad de que se produjese ese resultado por accidente es inferior al 5 %.

Al mismo tiempo, la representatividad también indica el riesgo para el investigador de cometer el "error de tipo 1", descartando equivocadamente la hipótesis nula y aceptando la hipótesis de investigación, a pesar del hecho de que la hipótesis de investigación en realidad ya no es válida. A pesar del riesgo, el investigador no debe poner el listón de la representatividad innecesariamente alto, porque entonces hay la amenaza del llamado "error de tipo 2", en que el investigador acepta la hipótesis nula y descarta equivocadamente la hipótesis de investigación a pesar de ser en realidad verdadera.

¿Hasta qué grado ha de ser significativo un resultado logrado en un estudio? En la práctica, la representatividad de un estudio suele depender de qué tipo de datos ha podido reunir. Un informe de investigación con frecuencia es juzgado adecuado para ser hecho público si al menos en alguna de las cuestiones estudiadas se alcanza el nivel de representatividad del 5%.

No hay una fórmula universal  para la comprobación estadística. En lugar de ello hay un cierto número de comprobaciones especiales para cada distinto tipo de estadísticas (para la media, la varianza, etc.). Sin embargo, la práctica general en las comprobaciones es siempre la misma:

  1. primero, en el manual de estadística, encontramos la fórmula específica para la estadística que queremos comprobar,
  2. entonces colocamos nuestra estadística en la fórmula, y junto a ella algunos parámetros (que indican el número de nuestras mediciones, su varianza, etc.). La fórmula entonces nos da una cantidad especial llamada Chi, t, F, etc., que describe la "fuerza" de nuestro hallazgo,
  3. comparamos esta cantidad con las tablas (en los manuales) que nos dicen cuál es la probabilidad de obtener nuestro conjunto de datos únicamente por coincidencia. Si la probabilidad es, pongamos, de menos de un 1%, nuestros resultados son significativos.
En la siguiente tabla encontraremos algunas comprobaciones estadísticas. Una tabla no puede dar todos los criterios que deben tenerse en cuenta en la elección; sería aconsejable consultar a un estadístico si tenemos la posibilidad.

DATOS QUE HAN DE SOMETERSE A PRUEBA: PRUEBA ADECUADA:
Distribución: prueba Chi
Estadísticas que describen una variable aritmética (por ej.: media): prueba t
Relaciones
entre dos
o más
variables
Variables medidas sobre una nominal escala: Cochran Q test
Variables medidas sobre una escala ordinal: Prueba Wilcoxon
Correlaciones (escala aritmética): prueba t
La diferencia de grupos: Análisis de varianza

Prueba Chi

La prueba Chi (letra griega que se pronuncia como en español "ji") puede usarse para valorar cómo están distribuidos en clases los objetos o sujetos en una muestra aleatoria.
Un ejemplo inventado:

Un fabricante vende grifos en España. Éstos pueden ser cromados en plateado o dorado. La empresa empezará pronto a lanzar al mercado estos productos en Portugal y necesita saber si los clientes portugueses están relativamente más interesados en los dorados que los clientes españoles.
Se ha enviado un cuestionario a 150 portugueses elegidos al azar y a un número igual de españoles. 100 cuestionarios no fueron devueltos. Las 200 respuestas obtenidas se distribuyeron como indican los números marcados con una T:
. Prefiere acabado cromado Prefiere acabado dorado Total
Españoles T = 50 T = 40 90
Portugueses T = 50 T = 60 110
Total 100 100 200
En este caso (inventado), la mayoría de portugueses preferían grifos dorados, mientras que la mayoría de españoles los preferían cromados. Ahora surge una pregunta: ¿esta diferencia es válida en todos los portugueses y españoles o es posible que una divergencia tal de las muestras esté causada sólo por el azar? Tenemos que plantearnos el hecho de que recibiéramos sólo 200 respuestas y es bastante posible que accidentalmente tengamos un grupo tan pequeño, varias personas que no son típicas en sus opiniones. La probabilidad de un resultado accidental puede calcularse con la prueba Chi.

Para llevar a cabo la prueba, primero vamos a investigar cómo estas 200 respuestas podrían estar distribuidas con mayor probabilidad, si no hubiese diferencias entre las dos poblaciones; en otras palabras, si todos los portugueses y todos los españoles tuviesen idénticas opiniones sobre los acabados de los grifos. Esta distribución hipotética se llama distribución esperada. En nuestro ejemplo sería como sigue. (Las frecuencias de clases en esta distribución van marcadas con la letra V):

. Prefiere acabado cromado Prefiere acabado dorado Total
Españoles V = 45 V = 45 90
Portugueses V = 55 V = 55 110
Total 100 100 200

Ahora necesitamos construir una medida para indicar cuánta discrepancia hay entre la distribución real y la esperada. Esta medida se llama Chi cuadrado, y se calcula como sigue:

(siendo x la discrepancia, T el total y V el valor de los que prefieren cromado o dorado y significando suma)

En la fórmula tenemos que sustituir sucesivamente T por cada valor T en la tabla de "distribución real" y, de la misma manera, a su vez, para V, cada valor de V en la  tabla de "distribución esperada"
En nuestro ejemplo, Chi al cuadrado da el siguiente valor:

= 0,56 + 0,56 + 0,45 + 0,45 = 2,02

El siguiente paso es calcular la probabilidad de obtener, sólo por accidente, los resultados de arriba (o, lo que es lo mismo, la divergencia mencionada anteriormente entre portugueses y españoles).
No necesitamos calcular esta probabilidad, ya que se indica para un gran número de valores en los manuales de estadística. Estas tablas nos dicen, por ejemplo, que hay un 5% de probabilidad de obtener el valor 3.84 para Chi cuadrado en un par de tablas de 4 celdas, cuando sólo actúa el azar y no hay diferencia entre las poblaciones.

En nuestro ejemplo, obtuvimos un valor Chi cuadrado de 2.02, que es menos de 3.84. Esto significa que la probabilidad de obtener un valor Chi cuadrado así por azar es más del 5%. En otras palabras, los resultados de nuestro cuestionario son estadísticamente no significativos. Así, nuestro cuestionario no permite hacer afirmación alguna sobre las diferencias entre portugueses y españoles.

Cuando la prueba Chi se aplica a distribuciones que consisten en más de cuatro clases, es probable que Chi cuadrado se haga mayor por la simple razón de que la fórmula Chi cuadrado incluye más de cuatro términos que han de agregarse. Para neutralizar este incremento, la prueba Chi requiere que demos una medida de la amplitud de nuestra tabla. La medida para esto tiene un nombre peculiar, grado de libertad. El nombre indica el número de las celdas de nuestra tabla que podrían cambiar cuando el número de casos es constante.

Por ejemplo, si vamos a estudiar distribuciones en que exactamente cien personas están clasificadas en seis grupos, el grado de libertad en cualquiera de esas distribuciones es cinco. La explicación para esto es que cinco celdas de las seis están siempre libres para recibir cualquier número de sujetos (entre 0 y 100); pero después de que las cinco celdas han recibido su contenido, la sexta no tiene libertad para cambiar; estará determinada por el total de 100.
Una tabla de 2 x 2 celdas tiene un grado de libertad de exactamente uno: si todas las celdas cambiasen, todas las demás celdas tendrían que cambiar de acuerdo con ello; tienen colectivamente un único grado de libertad.

En la tabla de abajo se dan los grados de libertad de algunas tablas pequeñas.
 
Tamaño de la tabla Grado de libertad f
2 x 2 1
2 x 3 2
2 x 4 3
2 x 5 4
3 x 3 4
3 x 4 6
La tabla siguiente da los valores que alcanza Chi cuadrado bajo la influencia sólo del azar, con una probabilidad de 5%, 1% o bien 0.1%. Esta tabla incluye sólo pequeñas distribuciones con un grado de libertad hasta 6. Encontraremos tablas mayores en los manuales.
 
Grado de libertad Probabilidad
f 5 % 1 % 0,1 %
1 3,841 6,635 10,828
2 5,991 9,210 13,816
3 7,815 11,341 16,266
4 9,488 13,277 18,467
5 11,070 15,086 20,515
6 12,592 16,812 22,458

Prueba Cochran Q

La prueba Cochran Q puede usarse para evaluar la relación entre dos variables que se miden en una escala nominal. Una de las variables puede incluso ser dicotómica, o consistir en sólo dos valores posibles.


En el ejemplo siguiente se evaluaron por 12 sujetos cuatro combinaciones distintas de asientos para camión y de cinturones de seguridad. La escala de evaluación era dicotómica: el cinturón podía molestar al usuario (=1) o no molestarle (=0). (El ejemplo es de Raimo Nikkanen: Seat and Seat-Belt Comfort in Heavy Commercial Vehicles in Finland.)
Las evaluaciones por sujetos A...L se dan en las filas 2...5. Además, la tabla indica las sumas para cada combinación de asiento/cinturón, sumas para cada sujeto, cuadrados de ambas sumas y sumas de estos cuadrados, que son entonces usados en la fórmula de la prueba Cochran.
 
1 Sujeto de la prueba: A B C D E F G H I J K L SV SV2
2 Asiento de tipo I: 1 1 1 1 1 1 1 0 0 1 0 0 8 64
3 Asiento de tipo II: 1 1 1 1 0 1 1 0 1 1 1 1 10 100
4 Asiento de tipo III: 0 0 1 1 0 1 1 0 0 1 0 0 5 25
5 Asiento de tipo IV: 0 1 1 1 0 1 1 0 1 1 1 1 9 81
6 Totales por cada sujeto = SH 2 3 4 4 1 4 4 0 2 4 2 2 Total 
S=32
Total 
=270
7 Cuadrados de la fila precedente = SH2 4 9 16 16 1 16 16 0 4 16 4 4 Total 
=106
-
En el siguiente paso, los valores de la tabla se sitúan en la siguiente fórmula, que da entonces el valor Q:

Todos los parámetros en esta fórmula se encuentran en la tabla, excepto k, que es el número de alternativas (aquí = 4).
El valor de Q se hace mayor si hay asociación estadística entre las variables. Si no hay asociación y solo actúa el azar, Q alcanza exactamente el mismo valor que Chi cuadrado. Esto significa que cuando se evalúa el valor de Q que hemos recibido en una prueba, podemos usar la Tabla Chi cuadrado mostrada anteriormente.

En una tabla de distribución del tipo de la de arriba, el grado de libertad es igual a k-1; en el ejemplo de arriba es igual a 3.
En el ejemplo de arriba, el valor obtenido para Q fue de 7.63. Consultando la tabla de Chi cuadrado encontramos que el resultado de arriba sería significativo solo sí Q tuviese un valor de al menos 7.815. La prueba Q Cochran mostró así que la diferencia encontrada empíricamente entre las alternativas de asientos no era estadísticamente significativa.

Prueba Wilcoxon

Con la prueba Wilcoxon podemos comprobar la representatividad de las preferencias entre dos (o más) alternativas. La escala al dar las preferencias es ordinal.

En su estudio Seat and Seat-Belt Comfort in Heavy Commercial Vehicles in Finland, Raimo Nikkanen quería comparar dos asientos distintos para camión. Doce sujetos probaron ambos asientos y evaluaron su comodidad sobre una escala de 7 puntos. Las valoraciones obtenidas se dan en las columnas 2 y 3 de la siguiente tabla.


La fila 5, Orden de rango de las diferencias (ignorando el signo) significa que la diferencia más pequeña de esta fila recibe el valor 1, la segunda el valor  2, etc. Los casos en que no hay diferencia se descartan completamente. El valor  6.5 significa que las diferencias situadas en el sexto y séptimo lugar eran iguales; con lo que les damos a ambas el mismo rango de 6.5.
La fila 6, Los casos de signo menos frecuente significa que tomamos de la fila 5 aquellos casos donde el signo de la diferencia era del tipo menos común. En este ejemplo, había una minoría de diferencias negativas. De aquellos casos únicamente tomamos sus rangos, de la fila 5. En el ejemplo, el único número que se tomará será el 3.
 
1 Sujeto de la prueba: A B C D E F G H I J K L
2 Comodidad del asiento estándar: 3 5 5 6 5 5 3 5 4 5 3 3
3 Comodidad del asiento anti-vibración: 2 3 2 2 2 2 2 3 3 2 2 4
4 Diferencia de los valores de arriba: 1 2 3 4 3 3 1 2 1 3 1 -1
5 Orden de rango de las diferencias (ignorando el signo): 3 6,5 9,5 12 9,5 9,5 3 6,5 3 9,5 3 3
6 Los casos de signo menos frecuente: - - - - - - - - - - - 3
En el siguiente paso, añadimos todos los números a la fila 6, ignorando sus signos. Llamamos a esto suma T. En el ejemplo será 3.
Ahora es momento de mirar en la tabla de la prueba Wilcoxon en nuestro manual. Las filas de la tabla son para diferentes números de pares (=N, aquí 12). En la fila correcta, encontramos, encontramos Tmax = valor que T no debe exceder, o los resultados no serán significativos en un nivel del 5%. Aquí debajo tenemos una parte de la tabla.
 
N= 6 7 8 9 10 11 12 13 14 15 16 17 18
Tmax= 1 2 4 6 8 11 14 17 21 25 30 35 40
En nuestro caso, el valor empírico (3) está claramente bajo el valor permisible, y así podemos llamar significativos a nuestros resultados. Sería altamente improbable que se obtuviese una diferencia tan amplia en las preferencias solamente por azar.

Arriba hemos comprobado distribuciones y mediciones en una escala ordinal. Estos tipos de pruebas son bien explicadas en Sidney Siegel: Nonparametric statistics for the behavioral sciences.

La prueba t

El efecto del azar hay que considerarlo siempre cuando calculamos una estadística descriptiva, por ejemplo, una media o una correlación. Estas estadísticas siempre proceden del algoritmo aparentemente exacto y digno de confianza, incluso en casos en que el material subyacente es a la vez escaso y poco fiable.

Esto puede ilustrarse por un ejemplo inventado (a la derecha) donde tenemos dos mediciones a partir de cuatro estudiantes elegidos al azar en una universidad.

En el diagrama de dispersión, se parece que hay una asociación entre las dos variables porque cuanta más alta está el curso del estudiante, más él pesa. El método usual de medir la fuerza de una asociación entre dos variables es calcular la correlación. En este caso su valor sería 0,956, es decir una bastante alta correlación.

Sin embargo, una alta correlación tiene aquí poca importancia, porque la muestra ha sido muy pequeña, solamente cuatro casos. Es bastante probable de obtener una alta correlación de una muestra tan pequeño, por ocasión sola. Es fácil calcular esta probabilidad. Su valor depende del tamaño de la muestra aleatoria, y puede encontrar valores típicos para ella en cualquier manual del análisis estadístico. Una porción de tal tabla se presenta abajo.

Numero de 
mediciones
Si la correlación es al menos:
4 pares 0.95 0.99
5 pares 0.88 0.96
7 pares 0.75 0.88
10 pares 0.63 0.77
20 pares 0.44 0.56
40 pares 0.31 0.40
100 pares 0.20 0.26
... ... entonces la correlación 
es significativa 
en un nivel de 5%.
... entonces la correlación 
es significativa 
en un nivel de 1%.

La tabla indica que cuando una correlación de 0,956 se ha obtenido de solamente cuatro pares de medidas, ella es significativa solamente en el nivel de 5%. Es decir si se ha estudiado veinte muestras de este tamaño, una de ellas demuestra probablemente tal correlación incluso en el caso que estas variables no han ninguna asociación en la población.

Cuantas más mediciones tenemos, la correlación más baja se convierte en significativa. El uso previsto del proyecto de investigación dicta a veces cuán alto un significado se debe obtener. El método de mejorarla entonces es utilizar una muestra más grande.

La tabla de arriba es un simple ejemplo de una prueba t. Además del cociente de correlación, la prueba t puede usarse para estimar la representatividad de otros muchos parámetros estadísticos. En la mayor parte de los casos, sin embargo, los valores para el parámetro t no pueden obtenerse directamente a partir de una tabla como la de arriba, sino que han de calcularse con fórmulas especiales que son desgraciadamente todas distintas.

Cuándo valorar el significado de una estadística medida de una muestra, es a menudo práctico calcular el intervalo de la confianza de esta estadística. Significa el rango donde la estadística caerá con una probabilidad dada, por ejemplo en 95% de los casos. En otras palabras, hay un 5% de riesgo que la estadística en la población está fuera del intervalo de la confianza.

Usted tiene, por ejemplo, encontró que entre una muestra aleatoria de sus clientes, p por ciento de gente prefiere su producto a que de competidores. Usted quiere saber que es este porcentaje entre la población entera de sus clientes. Es imposible saber este exactamente sin preguntar todo ellos, pero usted puede calcular los valores entre que el porcentaje en la población está con 95 %es de probabilidad. La fórmula para esto es:

donde

p = el porcentaje como se calcula de una muestra
n = tamaño de la muestra.

La prueba t puede también usarse para estimar la representatividad de la diferencia entre los parámetros obtenidos a partir de dos muestras distintas, es decir, lo probable que también las poblaciones correspondientes difieran entre ellas en una manera similar. El principio de la prueba es el mismo. Una limitación de la prueba t es que sólo puede usarse para estimar uno de dos parámetros a la vez.

Análisis de varianza

El análisis de varianza (en inglés ANOVA, ANalysis Of VAriance) examina dos o más conjuntos de mediciones e intenta detectar diferencias estadísticamente representativas entre los conjuntos.

El método de análisis de varianza se basa en el hecho matemáticamente probado de que hay una diferencia entre los grupos sólo si la varianza  inter-grupos  es mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Finalmente nos referimos a la tabla (en manuales estadísticos) que muestra qué valores puede alcanzar el coeficiente F cuando sólo actúa el azar. Si el F obtenido del ANOVA es mayor que el valor de la tabla, hay una diferencia entre los grupos que es significativa según muestra la tabla.

Confiabilidad de la registración

En el informe, el investigador presenta los resultados de sus mediciones u observaciones hechas en el mundo empírico. Son en su mayor parte afirmaciones aparentemente exactas: "Un 86% de los clientes estaban satisfechos"; "El peso del coche era de 1.550 kg". Ahora es posible que entre las muchas afirmaciones hechas en un informe haya algunas que no son ciertas, o son solamente aproximados, con lo que debe haber modo de evaluar la factualidad de toda la información dada.

¿Qué queremos decir con las palabras "factual" y "verdadero" y cómo determinamos la factualidad de una afirmación?

En el curso del tiempo, los investigadores han interpretado la palabra "factual" de distintos modos. Hoy la mayor parte de los investigadores están de acuerdo en que, en el mundo empírico, el criterio correcto de una afirmación es su correspondencia con la realidad, no con las autoridades, por ejemplo.

La dificultad es que una afirmación reside en el mundo de los conceptos y teorías, no en el mundo de las cosas empíricas sobre las que habla; de modo que la correspondencia no siempre es fácil de definir y registrar. Junto a ello, siempre hay la posibilidad de error en las mediciones. Como resultado, los investigadores ahora están de acuerdo en que nunca podemos alcanzar un 100% de certidumbre en la correspondencia con la realidad de ninguna afirmación empírica.
Las "ciencias formales" tales como las matemáticas son un caso diferente: podemos probar con absoluta certeza que el área del círculo es pi por el radio al cuadrado. Pero ello sólo es cierto si no estamos describiendo un círculo empírico, porque, si medimos un círculo empírico, probablemente encontremos que los últimos decimales de nuestra medición son incorrectos.

Tenemos que aceptar el hecho de que los estudios empíricos no pueden producir resultados que sean ciertos con absoluta certeza. Sin embargo, incluso cuando sabemos que los resultados pueden contener pequeños errores, los resultados pueden seguir siendo bastante útiles para muchos fines prácticos. Por ejemplo, si creemos que los resultados de una investigación son ciertos en un 99% de los casos, muy bien podemos asumir el riesgo de usarlos y aceptar que el 1% de nuestra aplicación será fallido. Los beneficios con el 99 de productos exitosos pueden compensar las pérdidas con el producto defectuoso.

1. Observaciónes cuantitativas. La dispersión de los datos, que se puede medir con e.g. su varianza, da a menudo una buena indicación de su confiabilidad también. Los métodos de prueba estadística de observaciones se discuten en Errores de Medición.

2. Observaciónes cualitativas. Puede que el investigador se quiera hacer las siguientes preguntas:

Fiabilidad de una fuente. La fiabilidad de los documentos escritos o impresos y su evaluación se trata bajo el encabezado   Crítica de fuentes. El método para valorar documentos es también adecuado para evaluar información factual que recibimos a través de entrevistas o cuestionarios (no debiéramos, sin embargo, evaluar o censurar las opiniones de nuestros entrevistados).
La información que se toma de estadística oficial, o de informes de la investigación publicó en una serie de publicación científica bien conocida, generalmente se considera confiable y no se comprueba con la crítica de la fuente.

La ética de la reunión de datos. Si hay gente (otros que los investigadores) o animales implicados en los procedimientos, éstos no se deben exponer al estrés o a la inconveniencia excesiva. Hay una página separada en las consideraciones éticas en la investigación.

Evaluar la corrección del análisis

La evaluación de la corrección del análisis es importante especialmente en la investigación básica que apunta a ampliar el conocimiento teórico, porque los blancos primarios para la evaluación, los hallazgos de la investigación, son a menudo difíciles de evaluar directamente. En proyectos de desarrollo usted a menudo enfoca la evaluación predominantemente al resultado práctico del proyecto y sólo si esta evaluación no da la conclusión inequívoca que usted comienza a escudriñar también los métodos del análisis que se han utilizado.

Un examen más detallado del análisis podría incluir algunas de las siguientes preguntas.

Evaluar los resultados teóricos

Resultados teóricosPor la definición, los resultados teóricos, o las ventajas de un proyecto de investigación a su rama de la ciencia son una edición central en proyectos de la investigación descriptiva. El mismo es verdad, a un cierto grado, también en la investigación normativa. Las ventajas pueden estar de tres clases:

  1. Agrandamiento de la teoría existente a un área donde conocimiento ha sido insuficiente hasta ahora. Esto es el caso más usual en la ciencia moderna, y por lo tanto es llamada a menudo por el nombre de la "ciencia normal".
  2. Conectar pedazos previamente separados de la teoría existente, mostrando que dos o más fenómenos, cada uno de los cuales ha sido el objeto del estudio más temprano, no son independientes pero los casos de una ley general, puede ser bastante benéfico al área apropiada de la ciencia.
  3. Corregir un error en teoría anterior no es ningún acontecimiento común en ciencias, y puede a veces (raramente) ocasiona una revisión completa de la teoría previamente mantenida. Tal un acontecimiento se puede llamar apropiadamente una "revolución científica".

Nótese que las ventajas antedichas son posibles solamente a condición de que el nuevo proyecto de investigación tenga conexiones inequívocas a teoría anterior en el campo de la investigación apropiado. Por esta razón es muy importante que usted deba utilizar tales definiciones que sean similares a ésas usadas en la investigación anterior. Entonces será fácil que usted (y para su público) estime si sus resultados son coherentes con teoría anterior o no. Coherencia no es una meta en sí mismo - apenas indica que su proyecto o está agrandando nuestro conocimiento que prevalece o está conectando pedazos previamente separados de la teoría existente con una teoría más grande.

La tercera alternativa en la lista, el desacuerdo con informes anteriores, significa que o éstos informes anteriores o sus nuevos resultados son culpables. Si usted se encuentra el hacer frente de tal situación es preferible verificar sus hallazgos una vez más y ser preparada para defender su trabajo contra ataques pesados. La razón es que en la mayoría de los campos de la ciencia que las personas influyentes tienden para valorar muy alto el mosaico existente de la teoría, aún cuando saben que puede contener algunas debilidades. Richard Milton ha dado en la libro Science prohibida (Forbidden Science, 1994) muchos ejemplos espectaculares de este fenómeno que se basa en los mecanismos sociológicos naturales de los equipos humanos que trabajan en instituciones científicas. Pierre Bourdieu también discute ellas en el libro Homo Academicus (1988).

A pesar de algunas refutaciones históricas notorias de propuestas valientes (como Galileo) está claro que la verdad y la confiabilidad de informes publicados se deben guardar en cualquier rama de la ciencia porque el progreso de la ciencia sería imposible si los investigadores no podrían confiar en los resultados de sus colegas anteriores. Ése es porqué todas las comunidades científicas modernas utilizan ciertos procedimientos convencionales para verificar la veracidad de informes publicados. Los acontecimientos habituales en la evaluación son los siguientes;

Mientras nadie entre las personas arriba mencionadas encuentre todos los fallos en nuestro informe, nuestros hallazgos ganarán, sin embargo, credibilidad durante el proceso. Los colegas y profesionales empezarán de forma gradual a ver nuestros hallazgos como una base fiable para su propio trabajo, del mismo modo que cuando ellos usan sus propias observaciones, las tablas que se encuentran en los manuales, o todo lo que todos aceptan como ajustado a los hechos y verdadero. A este proceso gradual se le llama en ocasiones método de confirmación por "consenso".
"La ciencia no reposa sobre un fondo de roca. La audaz estructura de sus teorías se levanta como si lo hiciera sobre un pantano. Es como un edificio erigido sobre pilones. Los pilones se clavan en el fondo del pantano, pero no en una base "natural" o "dada"; y cuando cesamos en nuestros intentos de hundir nuestros pilones en una capa más profunda, no es porque hayamos alcanzado una base firme. Simplemente nos detenemos cuando estamos satisfechos porque son lo bastante firmes como para aguantar la estructura, al menos por el momento". (Karl R. Popper: The Logic of Scientific Discovery, 1959, p. 111. Texto original.)

El tipo de proceso de confirmación por "consenso" no puede comenzar antes de que el informe sea público.

Valorar las consecuencias prácticas

Muchos proyectos descriptivos apuntan a encontrar conocimiento para un propósito práctico, aunque por definición un proyecto descriptivo no desarrolla propuestas para cambiar las cosas en la práctica, como hace el enfoque normativo.

El método normal para valorar el éxito práctico de un proyecto es comparar sus resultados a los objetivos iniciales del proyecto. Aparte de estos resultados previstos, sucede a menudo que áreas adicionales de aplicar los resultados han aparecido durante el proyecto. En todo caso, el capítulo final del informe de la investigación es el lugar correcto para una evaluación por el investigador de todas ventajas prácticas (y inconveniencias, si cualquiera) posibles del proyecto. Debido a la gran variación de estas ventajas es difícil nombrar cualquier método o lista de comprobación para el trabajo, pero algunas ideas para él se pueden quizás encontrar en las páginas Evaluar propuestas normativas o Ética de la aplicación.

In English   In Finnish   Indice

3.ago.2007. Enviar los comentarios al autor:

Versión en español: con aumentos por Pentti Routio
Ubicación original: http://www2.uiah.fi/projects/metodi/