di Kyle Kristiansen
Come consulente di ricerca operativa con un sacco di dati da analizzare e nessun tempo da perdere, ho scoperto che è facile perdersi se non stai attento.
È un po’ come quando vai in bicicletta. Potresti vedere persone che giocano a calcio nel parco, l’insegna appariscente di un nuovo ristorante nel tuo quartiere, o pendolari scontenti nel traffico. Ma cos’è più prezioso: catturare ogni dettaglio di ciò che ti circonda o osservare il minivan alla tua destra che si sta avvicinando troppo?
Come consulenti di analisi, aiutiamo i nostri clienti a prendere decisioni migliori con i loro dati. Per assicurarci che la nostra analisi sia solida, abbiamo bisogno di conoscere i pro e i contro dei loro dati – punti di forza, debolezze, ipotesi, modelli e altro ancora.
In questo post, condividerò la mia struttura per approcciare qualsiasi nuovo dato che incontro. Mi concentro su tre compiti principali: pulizia, analisi ed esplorazione. Uso questa impalcatura per convertire i dati grezzi in informazioni che posso usare per prendere decisioni, esplorare le tendenze o costruire un modello di ricerca operativa su larga scala.
Quali campi o record potrebbero ostacolare la mia analisi?
Di recente ho elaborato un grande set di dati di ordini, che includeva informazioni generali sugli ordini, tempi di spedizione e di ricezione. Avevo bisogno di visualizzare i tempi di transito, quindi ho sottratto la data di spedizione di ogni ordine dalla sua data di ricezione. Con mia sorpresa, ho trovato un numero non banale di valori negativi! Dopo alcune indagini, ho scoperto che queste sequenze temporali illogiche erano il risultato di errori di inserimento dei dati. Ho discusso questa scoperta con il mio cliente, e abbiamo concordato di eliminare tutti i record con disallineamento di data (che costituivano circa l’8% di tutti i record). Con i dati ora belli e puliti, ero un passo più vicino a dargli un senso.
La pulizia dei dati può comportare molte cose, ma i valori mancanti, i valori anomali e le osservazioni che violano le ipotesi sono di solito i miei tre maggiori ostacoli. Quando trovo colonne sparse dominate da valori nulli o mancanti, spesso le abbandono completamente o penso a modi ragionevoli per imputare i loro valori. Se noto valori irrealisticamente alti o bassi, mi assicuro di investigarli più a fondo (perché non tutti i valori anomali sono cattivi). E certamente guardo i tempi di consegna negativi.
Un’analisi senza la rimozione di questi errori può sembrare strana, e potrebbe invalidare le conclusioni tratte dal tuo lavoro. Rendete i dati il più puliti possibile per garantire che il vostro lavoro sia chiaro, efficace e intrinsecamente prezioso.
Scoping
Ci sono segmenti specifici dei dati che sono rilevanti per il problema che voglio risolvere?
Nell’ambito del mio suddetto progetto, volevo estrarre tutti i receipt
record del secondo trimestre del 2019. Queste ricevute, anche se registrate nel 2019, comprendono shipped
e ordered
record dal lontano agosto del 2018. Se avessi ciecamente limitato i miei dati a shipped
nel Q2 2019, avrei eliminato un sacco di prodotti con tempi di consegna più lunghi, e la mia analisi sarebbe stata incompleta.
In cima a questo, un attributo più subdolo era nascosto nell’identificatore unico di ogni record – la sua ultima lettera fungeva da suffisso che indicava se l’ordine era accelerato o un campione. Entrambi questi tipi di ordine sono anormali, e non dovrebbero essere considerati quando si analizza la distribuzione generale dei tempi di consegna.
Pensa agli attributi nei dati che puoi usare per focalizzare la tua analisi. Il tuo progetto potrebbe richiedere di evidenziare parti specifiche di una gerarchia di prodotti, certe aree del paese o certi tipi di ordini. In questa fase, le discussioni con gli esperti in materia saranno cruciali per ottenere una visione del modo in cui ogni campo di dati parla di un dato record. Scoprite quale dovrebbe essere la vostra area di interesse e assicuratevi di coprirla completamente; né più né meno.
Esplorazione
Cosa mi dicono le statistiche sui miei dati?
Esaminando il lead time per prodotto per la mia analisi, ho dovuto modellare la distribuzione di probabilità dei dati per simulare scenari futuri. Dando un’occhiata alle statistiche di ogni campo ho intuito se potevo testare per distribuzioni normali (dove i PP-plot sono molto utili) o di Poisson. Se i dati fossero particolarmente concentrati, gli ordini potrebbero essere programmati per la consegna con una penalità per il ritardo, cambiando completamente il mio approccio alle simulazioni degli ordini.
In generale, calcolare la media, la modalità, la mediana, il minimo, il massimo e la deviazione standard di ogni campo numerico vi aiuterà ad avere un senso migliore della sua distribuzione. Una mediana che è significativamente spostata dalla media può suggerire che il campo è obliquo, mentre controllare la deviazione standard vi darà un’idea della variabilità generale del campo. Insieme alle statistiche, tracciare i vostri dati può essere un ottimo modo per capirli. I grafici univariati (cioè descrittivi di una sola variabile), come gli istogrammi o i grafici box-and-whisker, vi permetteranno di mettere a fuoco le informazioni sulla distribuzione. I grafici bivariati (cioè descrittivi di due variabili), come gli scatterplot o i grafici di serie temporali, possono darvi un’idea delle relazioni che esistono tra due caratteristiche qualsiasi.
Se siete fan dell’uso di Python per l’esplorazione dei dati, il modulo –pandas_profile
(controllate qui per il loro GitHub) è un ottimo strumento per automatizzare gran parte del lavoro descrittivo nell’analisi esplorativa, che libererà il vostro tempo per sforzi più complessi. Una solida comprensione dei vostri dati pagherà dividendi mentre costruite modelli, create report e pensate al problema.
Conclusione
Utilizzare questa struttura (cleaning → scoping → exploring) non vi garantirà la totale libertà dai rompicapi che accompagnano i nuovi dati, ma può aiutarvi a strutturare il modo in cui vi avvicinate alle informazioni grezze in un formato pronto per essere analizzato. Nella mia esperienza, pensare a un piano di preparazione dei dati in anticipo vi aiuterà a condurre un’analisi significativa in modo più efficiente. Con un po’ di pratica, troverete ciò che funziona per voi e adatterete questo processo alle vostre esigenze.
Che si tratti di prepararsi per la giornata o di eseguire l’analisi dei dati, l’ordine giusto è importante. Quindi, quando vi viene l’impulso di saltare la preparazione e vestire immediatamente i vostri dati con visualizzazioni nitide, rallentate e imparate a conoscerli prima – sarete contenti di averlo fatto.
Se vi è piaciuto questo post sul blog, date un’occhiata ad altri nostri lavori, seguiteci sui social media (Twitter, LinkedIn e Facebook), o unitevi a noi per i nostri webinar mensili gratuiti Academy.