Métodos de evaluar propuestas normativas se explican en una página separada.
Una vez obtenidos los resultados, pero antes de informar de ellos, el investigador debe dedicar algún tiempo a una fase especial: la evaluación. Debe evaluar los resultados: ¿son lo que él quería?, ¿Es posible mejorar algo en el informe? ¿Debe ser dejado fuera algo o merece el informe publicarse en su totalidad?
El método normal al valorar un proyecto es comparar los resultados a los objetivos iniciales. La blanco del estudio descriptivo es descubrir cómo son las cosas acerca del objeto del estudio (o cómo ellas han sido, al estudiar el pasado). La primera tarea en la evaluación así deberá examinar si los datos deseados existen en el informe. Esto es normalmente una tarea trivial.
El segundo, mucho más difícil pregunta se refiere a la confiabilidad de los resultados: cuán es alto el riesgo de ellos estar falsos, o cómo es grande su error probable.
En la investigación normativa la evaluación del informe final es a menudo relativamente simple: usted (y los otros tenedores de apuestas en el proyecto) leen las propuestas finales y después cada uno declara si él conviene, o no. La situación es diferente en la investigación descriptiva. Apenas mirar el resumen no ayuda a determinar el valor del trabajo - los resultados se parecen normalmente muy confiables y exactos. Sólo raramente hay otra fuente segura con que se podría comparar los resultados. Normalmente la única manera de determinar la confiabilidad es ir más profundo en el informe y examinar todas las tareas que el investigador ha ejecutado antes de llegar en los resultados finales. Estas evaluaciones se discuten en Evaluar la entrada teórica, Evaluar datos recogidos y Evaluar la corrección del análisis.
Sólo después de que el proceso del proyecto haya sido aprobado en la inspección antedicha es el momento oportuno de tomar seriamente los resultados divulgados y de los comenzar a evaluar directamente. Dos puntos de vista más generalmente de esta examinación son Evaluar los resultados teóricos y Valorar las consecuencias prácticas. En estas evaluaciones finales no necesita se interesar mucho sobre las blancos iniciales del proyecto - es normal que un proyecto logra más (o menos) que fue planeado.
"Basura adentro, basura fuera." En otras palabras, un proyecto de investigación no puede dar resultados significativos si hay controversias o absurdidades en los modelos teóricos que se han utilizado como puntos de partida cuando definir el problema ni cuándo seleccionar la población del estudio y los fenómenos que se observarán. Por supuesto, estas preguntas se deben haber puesto en orden ya antes de comenzar a recoger datos, pero la verdad triste es que a veces el investigador sabe bastante poco sobre el problema inicialmente, y solamente el estudio mismo puede hacerlo competente en juzgar los modelos teóricos pertinentes. De todas formas, más vale tarde que nunca.
En la historia de muchas ramas de la ciencia una teoría importante ha sido sustituta por un nuevo, y una gran cantidad de estudios que han confiado en la teoría vieja han llegado a ser apenas curiosidades históricas. En el estudio de productos esta cosa ocurrió, no obstante gradualmente, durante el siglo XIX, cuando la teoría de Baumgarten de la belleza como proceso de la percepción subjetiva reemplazó la doctrina de Platón en belleza como característica de objetos. Tales revoluciones científicas, sin embargo, suceden tan infrecuentemente que los investigadores no pueden esperar tomarlas en cuenta cuando evaluar su materia.
Los procedimientos de adquirir los datos para la investigación consisten generalmente en tres operaciones distintas que se deben evaluar separadamente:
El investigador tendrá que considerar la delimitación de su estudio en varias fases del proyecto y en varias ubicaciones de su informe. Tales situaciones típicas son:
Consistencia de la demarcación significa simplemente que durante el proyecto todas las definiciones de la población del estudio deben ser idénticas o por lo menos compatibles. Fallando esto, la estructura lógica del estudio corre un riesgo de desplomar.
En sí mismo, no hay demarcaciones "derechas" o "incorrectas" - el investigador tiene el derecho de elegir cualquier limitación él se siente útil o interesante. Un criterio apropiado, en lugar, es racionalidad de la demarcación. En los estudios que incluyen una aplicación práctica, una población útil está a menudo esa gente que beneficiará del proyecto, por ejemplo la clientela-objetivo que se han definido para el proyecto.
Como contraste, en la investigación básica teórica usted desearía a menudo utilizar una demarcación amplia que, por ejemplo, incluye todos los períodos históricos o todos los casos comparables en el universo. Sin embargo, las delimitaciones muy amplias causan a menudo dificultades cuando diseñar una muestra que se estudiará o cuando registrar datos (véase abajo), y estas complicaciones alternadamente pueden dañar la credibilidad de los resultados.
Cuando hemos reunido los resultados de una muestra no aleatoria a partir de una población, lo normal es que queramos generalizar nuestros resultados. Generalizar significa que afirmamos que los resultados son ciertos no sólo para la muestra, sino también respecto a la población. ¿Es posible evaluar la credibilidad de tal declaración?
La cuestión crucial en la evaluación es si la muestra se desvía de la población en aspectos relevantes. Por relevantes entendemos aquellas cuestiones que se incluyen en los objetivos del proyecto y que medimos en la muestra.
Cuándo la muestra está no aleatoria hay siempre el riesgo que la muestra contiene sesgo, un error sistemático que está a menudo difícil de detectar sin estudiar a la población entera. Un método entonces deberá estudiar cualquier materia que se puede encontrar acerca de la población, como archivos públicos demográficos sobre edad o estructura por sexos, y comparar estas cifras con nuestra muestra. Si encontramos desviaciones, tenemos que plantearnos si éstas nos dan razones para sospechar sobre desviaciones también en las variables "relevantes" arriba aludidas.
Para ayudarnos a la hora de plantearnos esto, podríamos calcular las contingencias o correlaciones entre la variable demográfica que aparece desviada y nuestras variables "relevantes" (si son numéricas). Por ejemplo, si la distribución por sexos no es igual a la distribución por sexos de la población, calcularemos las correlaciones entre sexo y nuestras variables "relevantes" en la muestra. Una contingencia alta significa que la tendencia en la muestra afectará probablemente los resultados, también.
Una otra manera de evaluar la representatividad de una muestra no aleatoria sería investigar otra muestra tomada de la misma población con otro método de muestreo.
Si hemos reunido nuestros resultados empíricos a partir de una muestra aleatoria, la diferencia entre la muestra y la población no puede ser debido al sesgo. Sin embargo, hay normalmente más o menos diferencia que se ha causado por casualidad al seleccionar la muestra. Usted a menudo querrá evaluar cuán grande esta diferencia es, y verdaderamente su valor probable se puede calcular. Dos métodos usuales para lo son:
Encontrar el intervalo de confianza. Observa que a pesar del nombre prometedor del margen del error’, este método mide solamente la diferencia entre población y muestra, exactamente como todos los otros procedimientos de estudiar el significativo estadístico. Ignora todos los errores en la colocación de los hechos, asimismo toda la variación que quizás ocurrirá luego en el objeto del estudio, por ejemplo que clientes en realidad no se comportan ni votan como ellos han dicho en una entrevista.
Cuándo usted tiene una muestra aleatoria y usted ha medido o ha calculado de lo un estadístico tal como un medio o un porcentaje, está generalmente posible calcular el intervalo de confianza, o el rango de los valores de la población que incluirá el valor obtenido de la muestra, con una probabilidad dada que usted puede elegir. Si usted selecciona la probabilidad de 95%, significa que hay un riesgo de 5% que la estadística en la población verdadera está fuera de este rango.
La fórmula para calcular el margen del error - i.e. la mitad del intervalo de confianza - para un medio o un variable simple es, con un riesgo de 5%:
![]()
donde
s = desviación estándar de la población
n = número de la muestra
El diagrama abajo a la izquierda demuestra la dispersión de una cierta variable en la población P, y también en dos muestras escogidas al azar de la población. El investigador está interesado en el medio de esta variable en la población P. Si se asume que la dispersión de esta variable en la población no está lejos de normal y la población no es más pequeña que cerca de ciento, podemos calcular el margen del error (m) que define los límites del intervalo de la confianza que incluye 95% de los medios de todas las muestras escogidas al azar de esta población. Las muestras aleatorias R1 y R2 aquí se han dibujado en los dos extremos del intervalo de la confianza del medio.


En el diagrama a la derecha el razonamiento va en la dirección opuesta a fin de resolver un problema común en la investigación empírica. Aquí usted sólo tiene una muestra aleatoria, y usted querría saber el medio aritmético de la población de quien la muestra origina. Para conseguir el intervalo de la confianza donde se encontrará este promedio, usted puede utilizar la misma fórmula que arriba, aunque hay la dificultad que ahora se no sabe la desviación estándar en la población. Sin embargo, se puede utilizar como substituto la desviación estándar de la muestra, que es generalmente casi igual.
Las fórmulas para calcular el margen del error son poco diferentes para varias estadísticas. La fórmula para manejar un porcentaje es:
donde
p = porcentaje (por ejemplo, de clientes que están satisfechos) desde una muestra
n = número de la muestra.
En ambos casos el coeficiente, aquí 1,96, depende de la probabilidad deseada, por ejemplo para un riesgo de 1% sería 2,58 y para un 10% riesgo 1.64.
Calcular el significativo estadístico. La base del cálculo de probabilidad está igual que en el método del margen del error, pero aquí el nivel de la probabilidad y del riesgo no se miran como constantes. En lugar, la blanco es encontrar cuán probable es que los resultados de la muestra son verdad también en la población original. Para este examen, hay los métodos llamados comprobaciones estadísticas. Estos métodos nos ayudarán a elegir entre dos explicaciones alternativas para nuestros resultados:
Ahora es posible calcular la probabilidad de obtener, por azar sólo, ciertos resultados a partir de la muestra. Si esta probabilidad es muy pequeña, por ejemplo menos de un 0.1%, tenemos buenas razones para rechazar la hipótesis nula y creer que los mismos resultados son ciertos en la población. A tales resultados se les llama estadísticamente altamente significativos.
Sin embargo, si la probabilidad de recibir el resultado por azar es amplia, digamos que por encima de un 5%, no debemos afirmar que nuestros resultados son necesariamente válidos en la población. En este caso, nuestros resultados se llaman estadísticamente no significativos.
Los niveles de representatividad de los resultados de una investigación usados habitualmente se detallan abajo. Los porcentajes indican la probabilidad de obtener el resultado solamente al azar, incluso cuando el resultado no fuera cierto en la población.
Se usan nombres ligeramente distintos para los niveles de representatividad según el país, y eso es por lo que, para evitar confusiones, podría por ejemplo afirmarse en el informe de investigación que "el resultado es significativo en el nivel del 5%", queriendo esto decir que la probabilidad de que se produjese ese resultado por accidente es inferior al 5 %.
Al mismo tiempo, la representatividad también indica el riesgo para el investigador de cometer el "error de tipo 1", descartando equivocadamente la hipótesis nula y aceptando la hipótesis de investigación, a pesar del hecho de que la hipótesis de investigación en realidad ya no es válida. A pesar del riesgo, el investigador no debe poner el listón de la representatividad innecesariamente alto, porque entonces hay la amenaza del llamado "error de tipo 2", en que el investigador acepta la hipótesis nula y descarta equivocadamente la hipótesis de investigación a pesar de ser en realidad verdadera.
¿Hasta qué grado ha de ser significativo un resultado logrado en un estudio? En la práctica, la representatividad de un estudio suele depender de qué tipo de datos ha podido reunir. Un informe de investigación con frecuencia es juzgado adecuado para ser hecho público si al menos en alguna de las cuestiones estudiadas se alcanza el nivel de representatividad del 5%.
No hay una fórmula universal para la comprobación estadística. En lugar de ello hay un cierto número de comprobaciones especiales para cada distinto tipo de estadísticas (para la media, la varianza, etc.). Sin embargo, la práctica general en las comprobaciones es siempre la misma:
| DATOS QUE HAN DE SOMETERSE A PRUEBA: | PRUEBA ADECUADA: | |
| Distribución: | prueba Chi | |
| Estadísticas que describen una variable aritmética (por ej.: media): | prueba t | |
| Relaciones
entre dos o más variables |
Variables medidas sobre una nominal escala: | Cochran Q test |
| Variables medidas sobre una escala ordinal: | Prueba Wilcoxon | |
| Correlaciones (escala aritmética): | prueba t | |
| La diferencia de grupos: | Análisis de varianza | |
La prueba Chi (letra griega que se pronuncia como en español "ji")
puede usarse para valorar cómo están distribuidos
en clases los objetos o sujetos en una muestra
aleatoria.
Un ejemplo inventado:
Un fabricante vende grifos en España. Éstos pueden ser
cromados en plateado o dorado. La empresa empezará pronto a lanzar
al mercado estos productos en Portugal y necesita saber si los clientes
portugueses están relativamente más interesados en los dorados
que los clientes españoles.
Se ha enviado un cuestionario a 150 portugueses elegidos al azar y
a un número igual de españoles. 100 cuestionarios no fueron
devueltos. Las 200 respuestas obtenidas se distribuyeron como indican los
números marcados con una T:
| . | Prefiere acabado cromado | Prefiere acabado dorado | Total |
|---|---|---|---|
| Españoles | T = 50 | T = 40 | 90 |
| Portugueses | T = 50 | T = 60 | 110 |
| Total | 100 | 100 | 200 |
Para llevar a cabo la prueba, primero vamos a investigar cómo estas 200 respuestas podrían estar distribuidas con mayor probabilidad, si no hubiese diferencias entre las dos poblaciones; en otras palabras, si todos los portugueses y todos los españoles tuviesen idénticas opiniones sobre los acabados de los grifos. Esta distribución hipotética se llama distribución esperada. En nuestro ejemplo sería como sigue. (Las frecuencias de clases en esta distribución van marcadas con la letra V):
| . | Prefiere acabado cromado | Prefiere acabado dorado | Total |
|---|---|---|---|
| Españoles | V = 45 | V = 45 | 90 |
| Portugueses | V = 55 | V = 55 | 110 |
| Total | 100 | 100 | 200 |
Ahora necesitamos construir una medida para indicar cuánta discrepancia hay entre la distribución real y la esperada. Esta medida se llama Chi cuadrado, y se calcula como sigue:
(siendo x la discrepancia, T el total y V el valor de los que prefieren cromado o dorado y significando suma)
En la fórmula tenemos que sustituir sucesivamente T por cada
valor T en la tabla de "distribución real" y, de la misma manera,
a su vez, para V, cada valor de V en la tabla de "distribución
esperada"
En nuestro ejemplo, Chi al cuadrado da el siguiente valor:
= 0,56 + 0,56 + 0,45 + 0,45 = 2,02
El siguiente paso es calcular la probabilidad de obtener, sólo
por accidente, los resultados de arriba (o, lo que es lo mismo, la divergencia
mencionada anteriormente entre portugueses y españoles).
No necesitamos calcular esta probabilidad, ya que se indica para un
gran número de valores en los manuales de estadística. Estas
tablas nos dicen, por ejemplo, que hay un 5% de probabilidad de obtener
el valor 3.84 para Chi cuadrado en un par de tablas de 4 celdas, cuando
sólo actúa el azar y no hay diferencia entre las poblaciones.
En nuestro ejemplo, obtuvimos un valor Chi cuadrado de 2.02, que es menos de 3.84. Esto significa que la probabilidad de obtener un valor Chi cuadrado así por azar es más del 5%. En otras palabras, los resultados de nuestro cuestionario son estadísticamente no significativos. Así, nuestro cuestionario no permite hacer afirmación alguna sobre las diferencias entre portugueses y españoles.
Cuando la prueba Chi se aplica a distribuciones que consisten en más de cuatro clases, es probable que Chi cuadrado se haga mayor por la simple razón de que la fórmula Chi cuadrado incluye más de cuatro términos que han de agregarse. Para neutralizar este incremento, la prueba Chi requiere que demos una medida de la amplitud de nuestra tabla. La medida para esto tiene un nombre peculiar, grado de libertad. El nombre indica el número de las celdas de nuestra tabla que podrían cambiar cuando el número de casos es constante.
Por ejemplo, si vamos a estudiar distribuciones en que exactamente
cien personas están clasificadas en seis grupos, el grado de libertad
en cualquiera de esas distribuciones es cinco. La explicación para
esto es que cinco celdas de las seis están siempre libres para recibir
cualquier número de sujetos (entre 0 y 100); pero después
de que las cinco celdas han recibido su contenido, la sexta no tiene libertad
para cambiar; estará determinada por el total de 100.
Una tabla de 2 x 2 celdas tiene un grado de libertad de exactamente
uno: si todas las celdas cambiasen, todas las demás celdas tendrían
que cambiar de acuerdo con ello; tienen colectivamente un único
grado de libertad.
En la tabla de abajo se dan los grados de libertad de algunas tablas
pequeñas.
| Tamaño de la tabla | Grado de libertad f |
|---|---|
| 2 x 2 | 1 |
| 2 x 3 | 2 |
| 2 x 4 | 3 |
| 2 x 5 | 4 |
| 3 x 3 | 4 |
| 3 x 4 | 6 |
| Grado de libertad | Probabilidad | ||
|---|---|---|---|
| f | 5 % | 1 % | 0,1 % |
| 1 | 3,841 | 6,635 | 10,828 |
| 2 | 5,991 | 9,210 | 13,816 |
| 3 | 7,815 | 11,341 | 16,266 |
| 4 | 9,488 | 13,277 | 18,467 |
| 5 | 11,070 | 15,086 | 20,515 |
| 6 | 12,592 | 16,812 | 22,458 |
La prueba Cochran Q puede usarse para evaluar la relación entre dos variables que se miden en una escala nominal. Una de las variables puede incluso ser dicotómica, o consistir en sólo dos valores posibles.
| 1 | Sujeto de la prueba: | A | B | C | D | E | F | G | H | I | J | K | L | SV | SV2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | Asiento de tipo I: | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 8 | 64 |
| 3 | Asiento de tipo II: | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 10 | 100 |
| 4 | Asiento de tipo III: | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 5 | 25 |
| 5 | Asiento de tipo IV: | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 9 | 81 |
| 6 | Totales por cada sujeto = SH | 2 | 3 | 4 | 4 | 1 | 4 | 4 | 0 | 2 | 4 | 2 | 2 | Total
S=32 |
Total
=270 |
| 7 | Cuadrados de la fila precedente = SH2 | 4 | 9 | 16 | 16 | 1 | 16 | 16 | 0 | 4 | 16 | 4 | 4 | Total
=106 |
- |
En una tabla de distribución del tipo de la de arriba, el grado
de libertad es igual a k-1; en el ejemplo de arriba es igual a 3.
En el ejemplo de arriba, el valor obtenido para Q fue de 7.63. Consultando
la tabla de Chi cuadrado encontramos que el resultado de arriba sería
significativo solo sí Q tuviese un valor de al menos 7.815. La prueba
Q Cochran mostró así que la diferencia encontrada empíricamente
entre las alternativas de asientos no era estadísticamente significativa.
Con la prueba Wilcoxon podemos comprobar la representatividad de las preferencias entre dos (o más) alternativas. La escala al dar las preferencias es ordinal.
En su estudio Seat and Seat-Belt Comfort in Heavy Commercial Vehicles in Finland, Raimo Nikkanen quería comparar dos asientos distintos para camión. Doce sujetos probaron ambos asientos y evaluaron su comodidad sobre una escala de 7 puntos. Las valoraciones obtenidas se dan en las columnas 2 y 3 de la siguiente tabla.
| 1 | Sujeto de la prueba: | A | B | C | D | E | F | G | H | I | J | K | L |
| 2 | Comodidad del asiento estándar: | 3 | 5 | 5 | 6 | 5 | 5 | 3 | 5 | 4 | 5 | 3 | 3 |
| 3 | Comodidad del asiento anti-vibración: | 2 | 3 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 2 | 2 | 4 |
| 4 | Diferencia de los valores de arriba: | 1 | 2 | 3 | 4 | 3 | 3 | 1 | 2 | 1 | 3 | 1 | -1 |
| 5 | Orden de rango de las diferencias (ignorando el signo): | 3 | 6,5 | 9,5 | 12 | 9,5 | 9,5 | 3 | 6,5 | 3 | 9,5 | 3 | 3 |
| 6 | Los casos de signo menos frecuente: | - | - | - | - | - | - | - | - | - | - | - | 3 |
| N= | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Tmax= | 1 | 2 | 4 | 6 | 8 | 11 | 14 | 17 | 21 | 25 | 30 | 35 | 40 |
Arriba hemos comprobado distribuciones y mediciones en una escala ordinal. Estos tipos de pruebas son bien explicadas en Sidney Siegel: Nonparametric statistics for the behavioral sciences.
El efecto del azar hay que considerarlo siempre cuando calculamos una estadística descriptiva, por ejemplo, una media o una correlación. Estas estadísticas siempre proceden del algoritmo aparentemente exacto y digno de confianza, incluso en casos en que el material subyacente es a la vez escaso y poco fiable.
Esto puede ilustrarse por un ejemplo inventado (a la derecha) donde tenemos dos mediciones
a partir de cuatro estudiantes elegidos al azar en una universidad.
En el diagrama de dispersión, se parece que hay una asociación entre las dos variables porque cuanta más alta está el curso del estudiante, más él pesa. El método usual de medir la fuerza de una asociación entre dos variables es calcular la correlación. En este caso su valor sería 0,956, es decir una bastante alta correlación.
Sin embargo, una alta correlación tiene aquí poca importancia, porque la muestra ha sido muy pequeña, solamente cuatro casos. Es bastante probable de obtener una alta correlación de una muestra tan pequeño, por ocasión sola. Es fácil calcular esta probabilidad. Su valor depende del tamaño de la muestra aleatoria, y puede encontrar valores típicos para ella en cualquier manual del análisis estadístico. Una porción de tal tabla se presenta abajo.
| Numero de
mediciones |
Si la correlación es al menos: | |
|---|---|---|
| 4 pares | 0.95 | 0.99 |
| 5 pares | 0.88 | 0.96 |
| 7 pares | 0.75 | 0.88 |
| 10 pares | 0.63 | 0.77 |
| 20 pares | 0.44 | 0.56 |
| 40 pares | 0.31 | 0.40 |
| 100 pares | 0.20 | 0.26 |
| ... | ... entonces la correlación
es significativa en un nivel de 5%. |
... entonces la correlación
es significativa en un nivel de 1%. |
La tabla indica que cuando una correlación de 0,956 se ha obtenido de solamente cuatro pares de medidas, ella es significativa solamente en el nivel de 5%. Es decir si se ha estudiado veinte muestras de este tamaño, una de ellas demuestra probablemente tal correlación incluso en el caso que estas variables no han ninguna asociación en la población.
Cuantas más mediciones tenemos, la correlación más baja se convierte en significativa. El uso previsto del proyecto de investigación dicta a veces cuán alto un significado se debe obtener. El método de mejorarla entonces es utilizar una muestra más grande.
La tabla de arriba es un simple ejemplo de una prueba t. Además del cociente de correlación, la prueba t puede usarse para estimar la representatividad de otros muchos parámetros estadísticos. En la mayor parte de los casos, sin embargo, los valores para el parámetro t no pueden obtenerse directamente a partir de una tabla como la de arriba, sino que han de calcularse con fórmulas especiales que son desgraciadamente todas distintas.
Cuándo valorar el significado de una estadística medida de una muestra, es a menudo práctico calcular el intervalo de la confianza de esta estadística. Significa el rango donde la estadística caerá con una probabilidad dada, por ejemplo en 95% de los casos. En otras palabras, hay un 5% de riesgo que la estadística en la población está fuera del intervalo de la confianza.
Usted tiene, por ejemplo, encontró que entre una muestra aleatoria de sus clientes, p por ciento de gente prefiere su producto a que de competidores. Usted quiere saber que es este porcentaje entre la población entera de sus clientes. Es imposible saber este exactamente sin preguntar todo ellos, pero usted puede calcular los valores entre que el porcentaje en la población está con 95 %es de probabilidad. La fórmula para esto es:
donde
p = el porcentaje como se calcula de una muestra
n = tamaño de la muestra.
La prueba t puede también usarse para estimar la representatividad de la diferencia entre los parámetros obtenidos a partir de dos muestras distintas, es decir, lo probable que también las poblaciones correspondientes difieran entre ellas en una manera similar. El principio de la prueba es el mismo. Una limitación de la prueba t es que sólo puede usarse para estimar uno de dos parámetros a la vez.
El análisis de varianza (en inglés ANOVA, ANalysis Of VAriance) examina dos o más conjuntos de mediciones e intenta detectar diferencias estadísticamente representativas entre los conjuntos.
El método de análisis de varianza se basa en el hecho
matemáticamente probado de que hay una diferencia entre los grupos
sólo si la varianza inter-grupos
es mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo
para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces
la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos
de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Finalmente nos referimos a la tabla (en manuales estadísticos)
que muestra qué valores puede alcanzar el coeficiente F cuando sólo
actúa el azar. Si el F obtenido del ANOVA es mayor que el valor
de la tabla, hay una diferencia entre los grupos que es significativa según muestra la tabla.
En el informe, el investigador presenta los resultados de sus mediciones u observaciones hechas en el mundo empírico. Son en su mayor parte afirmaciones aparentemente exactas: "Un 86% de los clientes estaban satisfechos"; "El peso del coche era de 1.550 kg". Ahora es posible que entre las muchas afirmaciones hechas en un informe haya algunas que no son ciertas, o son solamente aproximados, con lo que debe haber modo de evaluar la factualidad de toda la información dada.
¿Qué queremos decir con las palabras "factual" y "verdadero" y cómo determinamos la factualidad de una afirmación?
En el curso del tiempo, los investigadores han interpretado la palabra "factual" de distintos modos. Hoy la mayor parte de los investigadores están de acuerdo en que, en el mundo empírico, el criterio correcto de una afirmación es su correspondencia con la realidad, no con las autoridades, por ejemplo.
La dificultad es que una afirmación reside en el mundo de los
conceptos y teorías, no en el mundo de las cosas empíricas
sobre las que habla; de modo que la correspondencia no siempre es fácil
de definir y registrar.
Junto a ello, siempre hay la posibilidad de error
en las mediciones. Como resultado, los investigadores ahora están
de acuerdo en que nunca podemos alcanzar un 100% de certidumbre en la correspondencia
con la realidad de ninguna afirmación empírica.
Las "ciencias formales" tales como las matemáticas son un caso
diferente: podemos probar con absoluta certeza que el área del círculo
es pi por el radio al cuadrado. Pero ello sólo es cierto si no estamos
describiendo un círculo empírico, porque, si medimos un círculo
empírico, probablemente encontremos que los últimos decimales
de nuestra medición son incorrectos.
Tenemos que aceptar el hecho de que los estudios empíricos no pueden producir resultados que sean ciertos con absoluta certeza. Sin embargo, incluso cuando sabemos que los resultados pueden contener pequeños errores, los resultados pueden seguir siendo bastante útiles para muchos fines prácticos. Por ejemplo, si creemos que los resultados de una investigación son ciertos en un 99% de los casos, muy bien podemos asumir el riesgo de usarlos y aceptar que el 1% de nuestra aplicación será fallido. Los beneficios con el 99 de productos exitosos pueden compensar las pérdidas con el producto defectuoso.
1. Observaciónes cuantitativas. La dispersión de los datos, que se puede medir con e.g. su varianza, da a menudo una buena indicación de su confiabilidad también. Los métodos de prueba estadística de observaciones se discuten en Errores de Medición.
2. Observaciónes cualitativas. Puede que el investigador se quiera hacer las siguientes preguntas:
Fiabilidad de una fuente. La fiabilidad de
los documentos escritos o impresos y su evaluación se trata bajo
el encabezado Crítica de fuentes.
El método para valorar documentos es también adecuado para
evaluar información factual que recibimos a través
de entrevistas o cuestionarios (no debiéramos, sin embargo, evaluar
o censurar las opiniones de nuestros entrevistados).
La información que se toma de estadística oficial, o de informes de la investigación publicó en una serie de publicación científica bien conocida, generalmente se considera confiable y no se comprueba con la crítica de la fuente.
La ética de la reunión de datos. Si hay gente (otros que los investigadores) o animales implicados en los procedimientos, éstos no se deben exponer al estrés o a la inconveniencia excesiva. Hay una página separada en las consideraciones éticas en la investigación.
La evaluación de la corrección del análisis es importante especialmente en la investigación básica que apunta a ampliar el conocimiento teórico, porque los blancos primarios para la evaluación, los hallazgos de la investigación, son a menudo difíciles de evaluar directamente. En proyectos de desarrollo usted a menudo enfoca la evaluación predominantemente al resultado práctico del proyecto y sólo si esta evaluación no da la conclusión inequívoca que usted comienza a escudriñar también los métodos del análisis que se han utilizado.
Un examen más detallado del análisis podría incluir algunas de las siguientes preguntas.
Una tercera explicación posible para las anomalías es simplemente que el fenómeno era débil y tenía muchas irregularidades, que quizás pueden disminuir el valor práctico de su trabajo. Según algunos filósofos, aún un solo caso donde su hipótesis se ha encontrado falsa rendiría inútil la hipótesis entera. Otros dicen que un porcentaje pequeño de anomalías es aceptable, porque otros investigadores pueden explicarlas quizás más adelante. Para ayudar al trabajo de investigadores posteriores del asunto usted debe dar los detalles completos sobre las anomalías en su informe.
Por la definición, los resultados teóricos, o las ventajas de un proyecto de investigación a su rama de la ciencia son una edición central en proyectos de la investigación descriptiva. El mismo es verdad, a un cierto grado, también en la investigación normativa. Las ventajas pueden estar de tres clases:
Nótese que las ventajas antedichas son posibles solamente a condición de que el nuevo proyecto de investigación tenga conexiones inequívocas a teoría anterior en el campo de la investigación apropiado. Por esta razón es muy importante que usted deba utilizar tales definiciones que sean similares a ésas usadas en la investigación anterior. Entonces será fácil que usted (y para su público) estime si sus resultados son coherentes con teoría anterior o no. Coherencia no es una meta en sí mismo - apenas indica que su proyecto o está agrandando nuestro conocimiento que prevalece o está conectando pedazos previamente separados de la teoría existente con una teoría más grande.
La tercera alternativa en la lista, el desacuerdo con informes anteriores, significa que o éstos informes anteriores o sus nuevos resultados son culpables. Si usted se encuentra el hacer frente de tal situación es preferible verificar sus hallazgos una vez más y ser preparada para defender su trabajo contra ataques pesados. La razón es que en la mayoría de los campos de la ciencia que las personas influyentes tienden para valorar muy alto el mosaico existente de la teoría, aún cuando saben que puede contener algunas debilidades. Richard Milton ha dado en la libro Science prohibida (Forbidden Science, 1994) muchos ejemplos espectaculares de este fenómeno que se basa en los mecanismos sociológicos naturales de los equipos humanos que trabajan en instituciones científicas. Pierre Bourdieu también discute ellas en el libro Homo Academicus (1988).
A pesar de algunas refutaciones históricas notorias de propuestas valientes (como Galileo) está claro que la verdad y la confiabilidad de informes publicados se deben guardar en cualquier rama de la ciencia porque el progreso de la ciencia sería imposible si los investigadores no podrían confiar en los resultados de sus colegas anteriores. Ése es porqué todas las comunidades científicas modernas utilizan ciertos procedimientos convencionales para verificar la veracidad de informes publicados. Los acontecimientos habituales en la evaluación son los siguientes;
"La ciencia no reposa sobre un fondo de roca. La audaz estructura de sus teorías se levanta como si lo hiciera sobre un pantano. Es como un edificio erigido sobre pilones. Los pilones se clavan en el fondo del pantano, pero no en una base "natural" o "dada"; y cuando cesamos en nuestros intentos de hundir nuestros pilones en una capa más profunda, no es porque hayamos alcanzado una base firme. Simplemente nos detenemos cuando estamos satisfechos porque son lo bastante firmes como para aguantar la estructura, al menos por el momento". (Karl R. Popper: The Logic of Scientific Discovery, 1959, p. 111. Texto original.)
El tipo de proceso de confirmación por "consenso" no puede comenzar antes de que el informe sea público.
Muchos proyectos descriptivos apuntan a encontrar conocimiento para un propósito práctico, aunque por definición un proyecto descriptivo no desarrolla propuestas para cambiar las cosas en la práctica, como hace el enfoque normativo.
El método normal para valorar el éxito práctico de un proyecto es comparar sus resultados a los objetivos iniciales del proyecto. Aparte de estos resultados previstos, sucede a menudo que áreas adicionales de aplicar los resultados han aparecido durante el proyecto. En todo caso, el capítulo final del informe de la investigación es el lugar correcto para una evaluación por el investigador de todas ventajas prácticas (y inconveniencias, si cualquiera) posibles del proyecto. Debido a la gran variación de estas ventajas es difícil nombrar cualquier método o lista de comprobación para el trabajo, pero algunas ideas para él se pueden quizás encontrar en las páginas Evaluar propuestas normativas o Ética de la aplicación.
3.ago.2007. Enviar los comentarios al autor:
Versión en español:
con aumentos por Pentti Routio
Ubicación original: http://www2.uiah.fi/projects/metodi/