Statistical Analysis

Preparing data for statistical analysis (Datos que se preparan para el análisis estadístico)

La selección apropiada de métodos de análisis estadístico y la interpretación precisa de los resultados de la prueba son esenciales para los estudios de usuarios.

Las pruebas de usabilidad, estudios de campo, encuestas y otros necesitan ser procesados cuidadosamente antes de cualquier análisis estadístico puede llevarse a cabo.

• En primer lugar, los datos originales recopilados, especialmente cuando son introducidos manualmente por los participantes, pueden tener errores o pueden presentarse en formatos inconsistentes.
• En segundo lugar, los datos originales recolectados pueden ser demasiado primitivos y puede ser necesario codificar con mayor nivel para ayudar a identificar los temas subyacentes.
• En tercer lugar, el método o software de análisis estadístico específico puede requerir que los datos se organicen en un formato o formato predefinidos para que puedan procesarse.

Cleaning up data (La limpieza de los datos)
• La primera cosa que debe hacer después de la recolección de datos es seleccionar los datos para
detectar posibles errores.
• Se puede identificar errores mediante la realización de una verificación de razonabilidad.
• A veces es necesario comprobar múltiples campos de datos con el fin de identificar posibles errores.
• Para los datos recogidos de forma automática, comprobación de errores por lo general se reduce a problemas de coherencia de tiempo o si el rendimiento está dentro de un rango razonable

Coding data (Codificación de datos)
• En diversos estudios, tales como encuestas, entrevistas y grupos de enfoque, el contenido de análisis de las necesidades que se realizará en la que el texto que reflejan diferentes temas o eventos críticos.
• La codificación de los datos, es fundamental para asegurar que la codificación es consistente. Esto es particularmente difícil cuando la codificación se completa con más de una persona. Si la codificación es inconsistente, la validez de los resultados del análisis se verá muy afectada.

Organizing data (Organización de los datos)
• El software estadístico y otros softwares de procesamiento de datos normalmente tiene requisitos predefinidos para la forma en que se deben establecer los datos para el análisis estadístico específico.

Descriptive statistics (Estadística descriptiva)
• Ejecutar una serie de pruebas estadísticas, descriptivas básicas para entender la naturaleza de su conjunto de datos y para saber como se distribuyen.
• Las medidas descriptivas utilizados más comúnmente incluyen medias, medianas, modas, varianzas, desviaciones estándar, y rangos.

Measures of central tendency (Medidas de tendencia central)
• Cuando estudiamos un conjunto de datos, muchas veces queremos averiguar dónde se encuentra la mayor parte de los datos. esta característica se le llama la "tendencia
central“.
• La media es también llamada la "media aritmética“. Cuando varios grupos están involucrados en un estudio proporciona ideas preliminares sobre como los grupos se relacionan.
• La mediana es la puntuación media de un conjunto de datos.
• La moda es el valor que se produce con la mayor frecuencia en un conjunto de datos.

Measures of spread (Medidas de difusión)
• Queremos saber cual es la cantidad de puntos de los datos que se desvían desde el centro del
conjunto de datos.
• Las medidas son: Gama, Varianza y Desviación estándar.
• El rango mide la distancia entre las puntuaciones más altas y más bajas en el conjunto de datos.
• La varianza de un conjunto de datos es la media de las distancias al cuadrado de todas las
puntuaciones de la media del conjunto de datos.
• La raíz cuadrada de la varianza se llama la desviación estándar. Al igual que con gama, varianzas mayores o desviaciones estándar indican que el conjunto de datos se distribuye más.

El patrón de distribución normal es muy importante y útil para el análisis de datos, ya que muchos de los atributos de diversos campos de estudio se distribuyen normalmente: las alturas de una población, los grados del estudiante, y diversas medidas de rendimiento.
Prueba de un conjunto de datos para determinar si se distribuye normalmente es un paso necesario en la selección del tipo de pruebas de significación para llevar a cabo.

Comparing means (Medios de comparación)
• Para los estudios que adoptan un diseño de grupos dentro, si el estudio investiga sólo una variable independiente con dos condiciones, una prueba t para muestras pareadas se puede utilizar.
• Si las variables independientes del estudio tienen tres o más condiciones, una prueba de ANOVA de medidas repetidas puede ser utilizado.

Elementos de un experimento:

• Variable independiente
Un variable independiente es una variable que representa una cantidad que se modifica en un experimento.
• Variables dependientes
Una variable dependiente representa una cantidad cuyo valor depende de cómo se modifica la variable independiente.

Tipos de Pruebas de Hipótesis:

Prueba t
• La prueba t es el procedimiento estadístico más ampliamente adoptado para la comparación de dos medias.
• La prueba t de student para datos independientes se utiliza cuando deseamos comparar única y exclusivamente las medias entre dos grupos (por ejemplo, deseamos saber si la cantidad de ingresos a la aplicación al día varía según el género).
• También se puede dar esta prueba cuando se tienen dos muestras pareadas en el experimento, esto es, que el conjunto de datos de la muestra 1, están relacionados o repercuten en cierta forma en la obtención de los datos de la muestra 2.

Para la interpretación de los resultados de esta prueba se aplica un intervalo de confianza de 95%. En el que cualquier valor t que es más alto que el correspondiente valor t en el intervalo de confianza del 95% sugiere que hay una diferencia significativa entre los participantes.
Cuanto menor sea el valor p, más significativo será el resultado.

ANOVA (Análisis de Varianza)
El análisis de la varianza (anova) es un método estadístico ampliamente utilizado para comparar las medias de dos o más grupos.

One-way ANOVA

En este diseño de experimento, se investigan sólo una variable independiente con tres o más condiciones de significación: si es menor de 0,05 es que las dos variables están relacionadas y por tanto que hay diferencias significativas entre los grupos valor de f: cuanto más alto sea f, más están relacionadas las variables, lo que significa que las medias de la variable dependiente difieren o varían mucho entre los grupos de la variable independiente.

Factorial ANOVA
El este experimento, se investigan dos o más variables independientes. Los modelos factoriales de análisis de varianza sirven para evaluar el efecto individual y conjunto de dos o más factores. En un modelo de dos factores los efectos de interés son tres los dos efectos principales, (uno por cada factor) y el efecto de la interacción entre ambos factores.

Repeated Measures Anova
Usar un diseño dentro del grupo, en cuyo caso reclutará sólo un grupo de participantes y hará que cada participante complete las tareas bajo todas las condiciones.

Anova for Split-Plot Design
A veces puede elegir un diseño de estudio que involucra tanto a factores entre los grupos y los factores intra-grupo.
por ejemplo, ciertas variedades de cultivo se podían sembrar en áreas diferentes (parcelas grandes), una variedad en cada parcela. luego cada área se divide en k parcelas pequeñas y cada una de estas puede ser tratada con un tipo de fertilizante diferente

Asunciones de las pruebas T y pruebas F

Antes de ejecutar una t prueba o una f prueba, es importante examinar si sus datos cumplen los supuestos de las dos pruebas.

1) los errores de todos los puntos de datos deben ser independientes el uno del otro.

2) los errores necesitan ser distribuido de forma idéntica. “homogeneidad de la varianza”

3) los errores deben ser distribuidos normalmente. al contrastar las distribuciones gráficamente, compruebe que son simétricas y que no contienen valores atípicos

Identificar Relaciones

Coeficiente de Correlación

En HCI, es importante identificar relaciones.
Ejemplo de ello es saber si existe relación entre edad y otro factor
2 factores se relacionan si hay relación significativa entre ambos
cualquier aumento de la variable predecirá el valor de la siguiente

Regresión

permite el análisis de una variable independiente y una serie de variables dependientes
dos usos: construcción de modelos y predicción
se encuentra un porcentaje en las variaciones de la var. dependiente y explicada por las var. independientes como un grupo

Pruebas Estadísticas No Paramétricas

las anteriores mencionadas son pruebas paramétricas – requieren varias suposiciones
en pruebas paramétricas los datos recogidos de la población con una distribución normal
se usa cuando no se cumplen los supuestos
hacen menos suposiciones

Chi Cuadrada

Prueba de significancia para datos categóricos(cualitativos), es decir analizar los recuentos de frecuencia

• podemos determinar si en realidad existe relación o es mera causalidad

• ejemplo: impacto de edad en sobre las preferencias hacia pantalla táctil o

• 20 usuarios > 65 o más

Bitácora by Ulises Ancona Graniel

Buscar este blog