.
Scoping
Y a-t-il des segments spécifiques des données qui sont pertinents pour le problème que je veux résoudre ?
Dans le cadre de mon projet susmentionné, je voulais tirer tous les receipt
enregistrements du deuxième trimestre de 2019. Ces reçus, bien qu’enregistrés en 2019, englobent des shipped
et ordered
enregistrements remontant jusqu’en août 2018. Si j’avais aveuglément scoré mes données à shipped
au deuxième trimestre 2019, j’aurais laissé tomber un tas de produits avec des délais plus longs, et mon analyse aurait été incomplète.
En plus de cela, un attribut plus sournois était glissé dans l’identifiant unique de chaque enregistrement – sa dernière lettre agissait comme un suffixe qui indiquait si la commande était accélérée ou un échantillon. Ces deux types de commande sont anormaux, et ne devraient pas être pris en compte lors de l’analyse de la distribution générale des délais.
Pensez aux attributs des données que vous pouvez utiliser pour cibler votre analyse. Votre projet peut exiger que vous mettiez en lumière des parties spécifiques d’une hiérarchie de produits, certaines régions du pays ou certains types de commandes. À ce stade, les discussions avec les experts en la matière seront cruciales pour comprendre la façon dont chaque champ de données parle d’un enregistrement donné. Déterminez quel doit être votre domaine d’intérêt et assurez-vous de le couvrir complètement ; ni plus, ni moins.
Exploration
Que me disent les statistiques sur mes données ?
Lorsque j’ai examiné le délai d’exécution par produit pour mon analyse, j’ai dû modéliser la distribution de probabilité des données pour simuler des scénarios futurs. En jetant un œil aux statistiques de chaque champ, j’ai eu l’intuition de savoir si je pouvais tester des distributions normales (où les PP-plots sont très utiles) ou de Poisson. Si les données étaient particulièrement concentrées, les commandes pourraient être programmées pour la livraison avec une pénalité de retard, ce qui changerait complètement ma façon d’aborder les simulations de commandes.
En général, le calcul de la moyenne, du mode, de la médiane, du min, du max et de l’écart type de chaque champ numérique vous aidera à avoir une meilleure idée de sa distribution. Une médiane sensiblement décalée par rapport à la moyenne peut suggérer que le champ est asymétrique, tandis que la vérification de l’écart type vous donnera un aperçu de la variabilité générale du champ. Outre les statistiques, le tracé de vos données peut être un excellent moyen de les comprendre. Les graphiques univariés (c’est-à-dire descriptifs à une seule variable), tels que les histogrammes ou les diagrammes en boîte et moustaches, vous permettront d’obtenir des informations précises sur la distribution. Les graphiques bivariés (c’est-à-dire, descriptifs à deux variables), comme les diagrammes de dispersion ou les diagrammes de séries chronologiques, peuvent vous donner un aperçu des relations qui existent entre deux caractéristiques quelconques.
Si vous êtes un fan de l’utilisation de Python pour l’exploration des données, le module –pandas_profile
(vérifiez ici pour leur GitHub) est un excellent outil pour automatiser une grande partie du travail descriptif dans l’analyse exploratoire, ce qui vous libérera du temps pour des efforts plus compliqués. Une solide compréhension de vos données portera ses fruits lorsque vous construirez des modèles, créerez des rapports et réfléchirez au problème.