Como Analisar Dados (Quando Não Sabe o Que Não Sabe)

  • by
Photo por Vitaly Vlasov de Pexels

por Kyle Kristiansen

Opex Analytics
Opex Analytics

div>Follow

Oct 25, 2019 – 5 min ler

Como consultor de pesquisa de operações com muitos dados para analisar e sem tempo a perder, descobri que é fácil perder-se se não se tiver cuidado.

É muito parecido com quando se anda de bicicleta. Poderá ver pessoas a jogar futebol no parque, o sinal cintilante de um novo restaurante no seu bairro, ou pessoas descontentes com o trânsito de pára-choques. Mas o que é mais valioso: capturar todos os detalhes sobre o seu ambiente, ou observar o monovolume à sua direita que está a desviar-se demasiado para o conforto?

Como consultores analíticos, ajudamos os nossos clientes a tomar melhores decisões com os seus dados. Para garantir que a nossa análise é sólida, precisamos de conhecer as entradas e saídas dos seus dados – forças, fraquezas, suposições, padrões, e mais.

Neste post, partilharei a minha estrutura para abordar quaisquer novos dados que encontre. Concentro-me em três tarefas principais: limpeza, delimitação do âmbito, e exploração. Utilizo este andaime para converter dados brutos em informação que posso utilizar para tomar decisões, explorar tendências, ou construir um modelo de investigação de operações em escala real.

Que campos ou registos podem atirar uma chave na minha análise?

Processei recentemente um grande conjunto de dados de encomendas, que incluía informações gerais sobre encomendas, tempos de expedição, e tempos de recepção. Precisava de visualizar os tempos de trânsito, pelo que subtraí a data de envio de cada encomenda da sua data de recepção. Para minha surpresa, encontrei um número não trivial de valores negativos! Após alguma investigação, descobri que estas sequências de tempo ilógicas eram o resultado de erros de introdução de dados. Discuti esta descoberta com o meu cliente, e concordámos em eliminar quaisquer registos com desalinhamento de datas (que constituíam cerca de 8% de todos os registos). Com os dados agora bem limpos, estava um passo mais perto de fazer sentido.

A limpeza de dados pode envolver muitas coisas, mas os valores em falta, os valores aberrantes e as observações que violam pressupostos são normalmente as minhas três maiores lombadas de velocidade. Quando encontro colunas esparsas dominadas por valores nulos ou em falta, muitas vezes deixo-as cair por completo ou penso em formas sensatas de imputar os seus valores. Se notar valores irrealistamente altos ou baixos, asseguro-me de os investigar mais minuciosamente (porque nem todos os valores aberrantes são maus). E olho certamente para os tempos de espera negativos.

Análise sem a remoção destes erros pode parecer estranha, e pode invalidar as conclusões tiradas do seu trabalho. Torne os dados tão limpos quanto possível para assegurar que o seu trabalho é claro, eficaz e inerentemente valioso.

/div>/div>

Scoping

Existem segmentos específicos dos dados que são relevantes para o problema que eu quero resolver?

Como parte do meu projecto acima mencionado, eu queria puxar todos os receipt registos do segundo trimestre de 2019. Estes recibos, embora registados em 2019, abrangem shipped e ordered registos de já em Agosto de 2018. Se eu tivesse feito um scan cego aos meus dados para shipped em Q2 2019, teria deixado cair um monte de produtos com prazos de entrega mais longos, e a minha análise teria sido incompleta.

Além disso, um atributo mais furtivo foi colocado no identificador único de cada registo – a sua última letra funcionava como um sufixo que indicava se a encomenda era expedita ou uma amostra. Ambos os tipos de ordem são anormais, e não devem ser considerados ao analisar a distribuição geral do lead time.

P>Pense nos atributos nos dados que pode utilizar para focar a sua análise. O seu projecto pode exigir que saliente partes específicas de uma hierarquia de produtos, certas áreas do país, ou certos tipos de encomenda. Nesta fase, as discussões com especialistas no assunto serão cruciais para obter uma visão da forma como cada campo de dados fala de um dado registo. Descubra qual deve ser a sua área de enfoque e certifique-se de que a cobre completamente; nem mais, nem menos.

>/div>>>/div>

Photo por Sara Garnica de Pexels

Exploração

Que me dizem as estatísticas sobre os meus dados?

Ao rever o lead time por produto para a minha análise, precisei de modelar a distribuição de probabilidade dos dados para simular cenários futuros. Olhar para as estatísticas de cada campo forneceu intuição sobre se eu poderia testar para distribuições normais (onde as distribuições PP-plots são muito úteis) ou Poisson. Se os dados fossem especialmente concentrados, as encomendas poderiam ser programadas para entrega com uma penalização por atraso, alterando completamente a forma como me aproximo das simulações de encomenda.

Em geral, calcular a média, modo, mediana, min, max, e desvio padrão de cada campo numérico irá ajudá-lo a ter uma melhor noção da sua distribuição. Uma mediana que é significativamente compensada pela média pode sugerir que o campo está enviesado, enquanto que a verificação do desvio padrão dar-lhe-á alguma percepção da variabilidade geral do campo. Juntamente com as estatísticas, traçar os seus dados pode ser uma óptima forma de o compreender. Os gráficos univariados (ou seja, descritivos de uma única variável), como histogramas ou gráficos de caixas e de wisker, permitir-lhe-ão obter informações sobre a distribuição. Bivariados (i.e., descritivos gráficos descritivos de duas variáveis), como gráficos de dispersão ou gráficos de séries temporais, podem dar-lhe uma visão das relações que existem entre quaisquer duas características.

Se é adepto da utilização de Python para exploração de dados, o módulo –pandas_profile (verifique aqui o seu GitHub) é uma grande ferramenta para automatizar grande parte do trabalho descritivo na análise exploratória, o que lhe libertará tempo para esforços mais complicados. Uma compreensão sólida dos seus dados dará dividendos à medida que constrói modelos, cria relatórios e pensa sobre o problema.

Photo by Ylanite Koppens from Pexels

Conclusion

Usar esta estrutura (limpeza → scoping → exploring) não lhe garantirá total liberdade em relação aos puzzles que acompanham os novos dados, mas pode ajudá-lo a estruturar a forma como aborda a informação em bruto num formato pronto a ser analisado. Na minha experiência, pensar num plano de preparação de dados antes do tempo ajudá-lo-á a realizar análises significativas de forma mais eficiente. Com alguma prática, encontrará o que funciona para si e adaptará este processo às suas próprias necessidades.

Se está a preparar-se para o dia ou a realizar a análise de dados, é importante obter a ordem correcta. Assim, quando tiver vontade de saltar a preparação e vestir imediatamente os seus dados com visualizações nítidas, abrande e conheça-o primeiro – ficará satisfeito por o ter feito.

Se gostou deste post no blog, veja mais do nosso trabalho, siga-nos nas redes sociais (Twitter, LinkedIn, e Facebook), ou junte-se a nós para os nossos webinars mensais gratuitos da Academia.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *