Como consultor de investigación de operaciones con muchos datos que analizar y sin tiempo que perder, he descubierto que es fácil perderse si no tienes cuidado.
Es muy parecido a cuando vas en bicicleta. Puede que veas a gente jugando al fútbol en el parque, el llamativo cartel de un nuevo restaurante en tu barrio o a viajeros descontentos en el tráfico de parachoques. Pero, ¿qué es más valioso: captar todos los detalles de tu entorno u observar el monovolumen que hay a tu derecha y que se está acercando demasiado para ser cómodo?
Como consultores de análisis, ayudamos a nuestros clientes a tomar mejores decisiones con sus datos. Para asegurarnos de que nuestro análisis es sólido, necesitamos conocer los entresijos de sus datos: puntos fuertes, puntos débiles, suposiciones, patrones y mucho más.
En este post, compartiré mi marco de trabajo para abordar cualquier dato nuevo que encuentre. Me centro en tres tareas principales: limpieza, alcance y exploración. Utilizo este andamiaje para convertir los datos sin procesar en información que pueda utilizar para tomar decisiones, explorar tendencias o construir un modelo de investigación de operaciones a gran escala.
¿Qué campos o registros pueden suponer un obstáculo para mi análisis?
Recientemente procesé un gran conjunto de datos de pedidos, que incluía información general de los mismos, tiempos de envío y tiempos de recepción. Necesitaba visualizar los tiempos de tránsito, así que resté la fecha de envío de cada pedido de su fecha de recepción. Para mi sorpresa, encontré un número no trivial de valores negativos. Tras investigar un poco, descubrí que estas secuencias de tiempo ilógicas eran el resultado de errores en la introducción de datos. Comenté este hallazgo con mi cliente y acordamos eliminar todos los registros con desajustes de fecha (que suponían alrededor del 8% de todos los registros). Ahora que los datos estaban limpios, estaba un paso más cerca de entenderlos.
La limpieza de datos puede implicar muchas cosas, pero los valores perdidos, los valores atípicos y las observaciones que violan los supuestos suelen ser mis tres mayores obstáculos. Cuando encuentro columnas dispersas dominadas por valores nulos o faltantes, a menudo las elimino por completo o pienso en formas sensatas de imputar sus valores. Si observo valores irrealmente altos o bajos, me aseguro de investigarlos más a fondo (porque no todos los valores atípicos son malos). Y ciertamente miro los tiempos de espera negativos.
Un análisis sin la eliminación de estos errores puede parecer extraño, y podría invalidar las conclusiones extraídas de su trabajo. Haz que los datos sean lo más limpios posible para garantizar que tu trabajo sea claro, eficaz e intrínsecamente valioso.