Análisis de datos y creación de modelos
Análisis de datos y creación de modelos
Aquí te dejo una pequeña guía para entender el análisis de datos y la creación de modelos
FASES
Se trata del proceso para identificar el problema que queremos resolver y las ventajas de diferente índole que queremos obtener (Empresariales, personales, etc.).
En el ámbito de una tesis doctoral, hablamos genéricamente de “la pregunta principal de investigación”, que es la pregunta que tu tesis pretende responder y deriva del planteamiento del problema que has formulado previamente.
Es posible que las preguntas principales se dividan, por lo general, en sub-preguntas y/o hipótesis de investigación que te permiten abordar tu investigación paso a paso, y te permitirán ir contrastando mediante el experimento que se lleve a cabo, para terminar contestando la pregunta.
En resumen, tus hallazgos servirán para aceptar o rechazar las hipótesis y proporcionarán una respuesta completa a tu pregunta principal.
En esta fase tratamos de conocer y comprender lo mejor posible la naturaleza de nuestros datos. Este proceso se lleva a cabo mediante técnicas de estadística descriptiva y técnicas gráficas. La visualización gráfica de los datos es quizá la mejor forma de entender el fenómeno que estamos analizando.
Descripción univariada:
Tipo de relación entre la variable explicada y las explicativas.
Clases no balanceadas. Problemas de clasificación.
Histogramas y diagramas de dispersión de probabilidad de las variables.
Diagramas de densidad de probabilidad de las variables.
Diagramas de caja y bigotes (boxplots).
Diagramas de barras.
Descripción bivariada:
Medidas de relación entre variables (Correlación, covarianza, etc.)
Diagramas de entre las variables.
Tablas de contingencia.
En cada caso, utilizaremos unas técnicas dependiendo la naturaleza del problema (regresión, clasificación, etc.).
Antes de comenzar a usar los modelos estadísticos necesitamos preparar nuestros datos con el fin de minimizar posibles errores, y llevar a cabo un análisis de la información más ágil y eficaz. Esta etapa suele ser la más laboriosa, pero es esencial para eliminar cualquier rastro de mala calidad en los datos, datos de mala calidad nunca nos permitirán inferir un buen resultado.
Los pasos a seguir en esta etapa son:
Limpieza de datos: El objetivo es eliminar datos extraños, valores atípicos (outliers), si ello es posible o conveniente, variables que aportan poca varianza, registros repetidos, etc.
Transformación de datos: Dependiendo del modelo estadístico o algoritmo que se utilice, puede ser necesario utilizar técnicas como el centrado, escalado y normalizado de las variables que sean necesarias. Transformaciones Box-Cox, o Yeo-Johnson, pueden ser necesarias en el caso de que la distribución de la variable explicada no siga una distribución normal.
Equilibrado de clases: Equilibrar las muestras para disponer de las mismas (o similar) número de muestras para cada clase, para el caso de variables dependientes categóricas.
Análisis de componentes principales (PCA): Es un tipo de transformación lineal que permite reducir el número de covariables, transformando éstas en otras variables diferentes, conservando la máxima varianza explicada posible.
En muchos casos, el investigador, como mejor conocedor de su campo de estudio ya sabe que tipo de técnica estadística o que algoritmo se adapta mejor para extraer la información que necesita de los datos obtenidos durante el experimento. No existe una forma estructurada para encontrar el mejor algoritmo.
Algoritmos lineales (Regresión lineal, regresión logística, análisis discriminante, análisis cluster, regresión robusta, bayesiana, etc.).
Algoritmos no lineales (K-Nearest Neighbors, Naive Bayes, Support Vector Machine, Classification and Regression Trees, etc.).
Redes neuronales.
A veces es necesario usar los modelos con distribuciones que no son normales, ya que la variable respuesta no se corresponde con una normal, entonces podemos utilizar los modelos lineales generalizados (GLM) con funciones de enlace acorde a la distribución que necesitamos.
También nos podemos encontrar que en nuestro conjunto de variables se den cita variables de efectos fijos y otras de efectos aleatorios, esto es lo que se denomina efectos mixtos, que pueden ser lineales o también generalizados (GLMM).
Tendremos que seleccionar las variables independientes que mejor explican nuestro fenómeno.
En todos los casos tendremos que ver si el modelo elegido se adapta bien a nuestro caso de estudio mediante las técnicas apropiadas (cálculo de errores, precisión, sensibilidad, curvas ROC, AUC), etc.
Es complejo encontrar un modelo que se adate bien a nuestro problema. Pero una vez que ya lo tenemos elegido mediante el procedimiento de prueba y error (automatizable), debemos preguntarnos cómo lo parametrizaremos para obtener el mejor rendimiento del mismo.
Normalmente nos fijaremos en un parámetro de calidad para elegirlo, por ejemplo “Accuracy”, y compararemos modelos. Después pasaremos a una fase de ajuste dónde trataremos de encontrar los mejores valores para lo que se denomina “hiperparámetros”. Es posible que ajustando el valor de éstos parámetros obtengamos un plus de precisión comparando con el ajuste por defecto, aunque no siempre es así. De nuevo, no hay una varita mágica para saberlo. Habrá que probar muchas veces hasta dar con los valores óptimos, aunque algo se puede automatizar.
Tendremos que atender a varios efectos, como el sobreajuste (overfitting) o el subajuste (underfitting), para que el modelo responda bien a los datos de entrada que nunca antes ha visto durante el proceso de entrenamiento.
Durante esta fase tendremos que llevar a cabo las siguientes tareas:
Entrenamiento final del modelo ajustado con los datos obtenidos de nuestro experimento
Someter el modelo a predicciones con datos que nunca antes ha visto.
Salvar nuestro modelo
Presentación de los resultados obtenidos con el modelo final.
La presentación de los resultados depende mucho del caso, pero suele ser un conjunto de gráficos, test de hipótesis para ofrecer seguridad de que hemos tomado las decisiones correctas y no hemos violado los principios para aplicar tal o cual técnica (p.e. regresión lineal), hipótesis que podemos confirmar y cuales no, etc.
En el caso más concreto de una tesis doctoral, se deben incluir los resultados en forma tabular, y/o gráfica y además explicar las conclusiones que se obtienen desde el punto de vista estadístico, que son distintas de las conclusiones que ofrecemos como resultado de la tesis doctoral.