Cómo analizar datos (cuando no sabes lo que no sabes)

Foto de Vitaly Vlasov de Pexels

por Kyle Kristiansen

Opex Analytics
Opex Analytics
25 de octubre, 2019 – 5 min read

Como consultor de investigación de operaciones con muchos datos que analizar y sin tiempo que perder, he descubierto que es fácil perderse si no tienes cuidado.

Es muy parecido a cuando vas en bicicleta. Puede que veas a gente jugando al fútbol en el parque, el llamativo cartel de un nuevo restaurante en tu barrio o a viajeros descontentos en el tráfico de parachoques. Pero, ¿qué es más valioso: captar todos los detalles de tu entorno u observar el monovolumen que hay a tu derecha y que se está acercando demasiado para ser cómodo?

Como consultores de análisis, ayudamos a nuestros clientes a tomar mejores decisiones con sus datos. Para asegurarnos de que nuestro análisis es sólido, necesitamos conocer los entresijos de sus datos: puntos fuertes, puntos débiles, suposiciones, patrones y mucho más.

En este post, compartiré mi marco de trabajo para abordar cualquier dato nuevo que encuentre. Me centro en tres tareas principales: limpieza, alcance y exploración. Utilizo este andamiaje para convertir los datos sin procesar en información que pueda utilizar para tomar decisiones, explorar tendencias o construir un modelo de investigación de operaciones a gran escala.

¿Qué campos o registros pueden suponer un obstáculo para mi análisis?

Recientemente procesé un gran conjunto de datos de pedidos, que incluía información general de los mismos, tiempos de envío y tiempos de recepción. Necesitaba visualizar los tiempos de tránsito, así que resté la fecha de envío de cada pedido de su fecha de recepción. Para mi sorpresa, encontré un número no trivial de valores negativos. Tras investigar un poco, descubrí que estas secuencias de tiempo ilógicas eran el resultado de errores en la introducción de datos. Comenté este hallazgo con mi cliente y acordamos eliminar todos los registros con desajustes de fecha (que suponían alrededor del 8% de todos los registros). Ahora que los datos estaban limpios, estaba un paso más cerca de entenderlos.

La limpieza de datos puede implicar muchas cosas, pero los valores perdidos, los valores atípicos y las observaciones que violan los supuestos suelen ser mis tres mayores obstáculos. Cuando encuentro columnas dispersas dominadas por valores nulos o faltantes, a menudo las elimino por completo o pienso en formas sensatas de imputar sus valores. Si observo valores irrealmente altos o bajos, me aseguro de investigarlos más a fondo (porque no todos los valores atípicos son malos). Y ciertamente miro los tiempos de espera negativos.

Un análisis sin la eliminación de estos errores puede parecer extraño, y podría invalidar las conclusiones extraídas de su trabajo. Haz que los datos sean lo más limpios posible para garantizar que tu trabajo sea claro, eficaz e intrínsecamente valioso.

Escopia

¿Hay segmentos específicos de los datos que son relevantes para el problema que quiero resolver?

Como parte de mi proyecto antes mencionado, quería sacar todos los receipt registros del segundo trimestre de 2019. Estos recibos, aunque se registraron en 2019, abarcan shipped y ordered registros desde agosto de 2018. Si hubiera delimitado ciegamente mis datos a shipped en el segundo trimestre de 2019, habría dejado de lado un montón de productos con plazos de entrega más largos, y mi análisis habría estado incompleto.

Además, un atributo más sigiloso estaba metido en el identificador único de cada registro: su última letra actuaba como un sufijo que indicaba si el pedido era acelerado o una muestra. Estos dos tipos de pedidos son anormales y no deberían tenerse en cuenta al analizar la distribución general del plazo de entrega.

Piense en los atributos de los datos que puede utilizar para centrar su análisis. Su proyecto puede exigir que se centre en partes específicas de una jerarquía de productos, en determinadas zonas del país o en ciertos tipos de pedidos. En esta etapa, las conversaciones con los expertos en la materia serán cruciales para conocer la forma en que cada campo de datos habla de un registro determinado. Averigua cuál debe ser tu área de enfoque y asegúrate de cubrirla por completo; ni más ni menos.

Foto by Sara Garnica from Pexels

Explorando

¿Qué me dicen las estadísticas sobre mis datos?

Al revisar el tiempo de entrega por producto para mi análisis, necesitaba modelar la distribución de probabilidad de los datos para simular escenarios futuros. Echar un vistazo a las estadísticas de cada campo me proporcionó la intuición de si podía probar la distribución normal (donde los PP-plots son muy útiles) o la de Poisson. Si los datos estuvieran especialmente concentrados, los pedidos podrían programarse para su entrega con una penalización por retraso, lo que cambiaría por completo mi forma de enfocar las simulaciones de pedidos.

En general, calcular la media, la moda, la mediana, el mínimo, el máximo y la desviación estándar de cada campo numérico le ayudará a tener una mejor idea de su distribución. Una mediana que está significativamente desplazada de la media puede sugerir que el campo está sesgado, mientras que la comprobación de la desviación estándar le dará una idea de la variabilidad general del campo. Además de las estadísticas, la representación gráfica de los datos puede ser una buena forma de entenderlos. Los gráficos univariantes (es decir, descriptivos de una sola variable), como los histogramas o los gráficos de caja y bigotes, te permitirán centrarte en la información de la distribución. Los gráficos bivariantes (es decir descriptivos de dos variables, como los gráficos de dispersión o los gráficos de series temporales, pueden darle una idea de las relaciones que existen entre dos características cualesquiera.

Si es un fanático del uso de Python para la exploración de datos, el módulo –pandas_profile (compruebe aquí su GitHub) es una gran herramienta para automatizar gran parte del trabajo descriptivo en el análisis exploratorio, lo que liberará su tiempo para esfuerzos más complicados. Una sólida comprensión de sus datos pagará dividendos a medida que construya modelos, cree informes y piense en el problema.

Foto de Ylanite Koppens de Pexels

Conclusión

Utilizar este marco de trabajo (limpieza → alcance → exploración) no te garantizará la libertad total de los rompecabezas que acompañan a los nuevos datos, pero puede ayudarte a estructurar la forma de abordar la información en bruto en un formato que esté listo para ser analizado. En mi experiencia, pensar en un plan de preparación de datos con antelación le ayudará a realizar un análisis significativo de forma más eficiente. Con un poco de práctica, encontrará lo que le funciona y adaptará este proceso a sus propias necesidades.

Ya sea para prepararse para el día o para realizar el análisis de datos, conseguir el orden correcto es importante. Así que cuando sientas el impulso de saltarte la preparación y vestir inmediatamente tus datos con visualizaciones nítidas, ve más despacio y conócelos primero – te alegrarás de haberlo hecho.

Si te ha gustado esta entrada del blog, echa un vistazo a más de nuestro trabajo, síguenos en las redes sociales (Twitter, LinkedIn y Facebook) o únete a nuestros webinars mensuales gratuitos de la Academia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *