por Kyle Kristiansen
Como consultor de pesquisa de operações com muitos dados para analisar e sem tempo a perder, descobri que é fácil perder-se se não se tiver cuidado.
É muito parecido com quando se anda de bicicleta. Poderá ver pessoas a jogar futebol no parque, o sinal cintilante de um novo restaurante no seu bairro, ou pessoas descontentes com o trânsito de pára-choques. Mas o que é mais valioso: capturar todos os detalhes sobre o seu ambiente, ou observar o monovolume à sua direita que está a desviar-se demasiado para o conforto?
Como consultores analíticos, ajudamos os nossos clientes a tomar melhores decisões com os seus dados. Para garantir que a nossa análise é sólida, precisamos de conhecer as entradas e saídas dos seus dados – forças, fraquezas, suposições, padrões, e mais.
Neste post, partilharei a minha estrutura para abordar quaisquer novos dados que encontre. Concentro-me em três tarefas principais: limpeza, delimitação do âmbito, e exploração. Utilizo este andaime para converter dados brutos em informação que posso utilizar para tomar decisões, explorar tendências, ou construir um modelo de investigação de operações em escala real.
Que campos ou registos podem atirar uma chave na minha análise?
Processei recentemente um grande conjunto de dados de encomendas, que incluía informações gerais sobre encomendas, tempos de expedição, e tempos de recepção. Precisava de visualizar os tempos de trânsito, pelo que subtraí a data de envio de cada encomenda da sua data de recepção. Para minha surpresa, encontrei um número não trivial de valores negativos! Após alguma investigação, descobri que estas sequências de tempo ilógicas eram o resultado de erros de introdução de dados. Discuti esta descoberta com o meu cliente, e concordámos em eliminar quaisquer registos com desalinhamento de datas (que constituíam cerca de 8% de todos os registos). Com os dados agora bem limpos, estava um passo mais perto de fazer sentido.
A limpeza de dados pode envolver muitas coisas, mas os valores em falta, os valores aberrantes e as observações que violam pressupostos são normalmente as minhas três maiores lombadas de velocidade. Quando encontro colunas esparsas dominadas por valores nulos ou em falta, muitas vezes deixo-as cair por completo ou penso em formas sensatas de imputar os seus valores. Se notar valores irrealistamente altos ou baixos, asseguro-me de os investigar mais minuciosamente (porque nem todos os valores aberrantes são maus). E olho certamente para os tempos de espera negativos.
Análise sem a remoção destes erros pode parecer estranha, e pode invalidar as conclusões tiradas do seu trabalho. Torne os dados tão limpos quanto possível para assegurar que o seu trabalho é claro, eficaz e inerentemente valioso.
Scoping
Existem segmentos específicos dos dados que são relevantes para o problema que eu quero resolver?
Como parte do meu projecto acima mencionado, eu queria puxar todos os receipt
registos do segundo trimestre de 2019. Estes recibos, embora registados em 2019, abrangem shipped
e ordered
registos de já em Agosto de 2018. Se eu tivesse feito um scan cego aos meus dados para shipped
em Q2 2019, teria deixado cair um monte de produtos com prazos de entrega mais longos, e a minha análise teria sido incompleta.
Além disso, um atributo mais furtivo foi colocado no identificador único de cada registo – a sua última letra funcionava como um sufixo que indicava se a encomenda era expedita ou uma amostra. Ambos os tipos de ordem são anormais, e não devem ser considerados ao analisar a distribuição geral do lead time.
P>Pense nos atributos nos dados que pode utilizar para focar a sua análise. O seu projecto pode exigir que saliente partes específicas de uma hierarquia de produtos, certas áreas do país, ou certos tipos de encomenda. Nesta fase, as discussões com especialistas no assunto serão cruciais para obter uma visão da forma como cada campo de dados fala de um dado registo. Descubra qual deve ser a sua área de enfoque e certifique-se de que a cobre completamente; nem mais, nem menos.