Comment analyser des données (quand vous ne savez pas ce que vous ne savez pas)

  • par
Photo de Vitaly Vlasov de Pexels
.

par Kyle Kristiansen

Opex Analytics
Opex Analytics

Follow

25 oct, 2019 – 5 min de lecture

En tant que consultant en recherche opérationnelle avec beaucoup de données à analyser et pas de temps à perdre, j’ai constaté qu’il est facile de se perdre si vous ne faites pas attention.

C’est un peu comme lorsque vous faites du vélo. Vous pouvez voir des gens qui jouent au foot dans le parc, l’enseigne flashy d’un nouveau restaurant dans votre quartier, ou des navetteurs mécontents dans le trafic pare-chocs à pare-chocs. Mais qu’est-ce qui est le plus précieux : capturer chaque détail de votre environnement, ou observer le minivan à votre droite qui s’approche trop près pour être confortable ?

En tant que consultants en analyse, nous aidons nos clients à prendre de meilleures décisions avec leurs données. Pour nous assurer que notre analyse est solide, nous devons connaître les tenants et les aboutissants de leurs données – forces, faiblesses, hypothèses, modèles, et plus encore.

Dans ce billet, je vais partager mon cadre pour aborder toutes les nouvelles données que je rencontre. Je me concentre sur trois tâches principales : le nettoyage, le cadrage et l’exploration. J’utilise cet échafaudage pour convertir les données brutes en informations que je peux utiliser pour prendre des décisions, explorer des tendances ou construire un modèle de recherche opérationnelle à grande échelle.

Quels champs ou enregistrements pourraient jeter un trouble dans mon analyse ?

J’ai récemment traité un grand ensemble de données de commandes, qui comprenait des informations générales sur les commandes, les délais d’expédition et les délais de réception. J’avais besoin de visualiser les délais de transit, j’ai donc soustrait la date d’expédition de chaque commande de sa date de réception. À ma grande surprise, j’ai trouvé un nombre non négligeable de valeurs négatives ! Après quelques recherches, j’ai découvert que ces séquences temporelles illogiques étaient le résultat d’erreurs de saisie de données. J’ai discuté de cette découverte avec mon client, et nous avons convenu d’éliminer tous les enregistrements présentant un décalage de date (qui représentaient environ 8 % de tous les enregistrements). Avec les données maintenant belles et propres, j’étais à un pas de plus pour leur donner un sens.

Le nettoyage des données peut impliquer beaucoup de choses, mais les valeurs manquantes, les valeurs aberrantes et les observations qui violent les hypothèses sont généralement mes trois plus grands ralentisseurs. Lorsque je trouve des colonnes éparses dominées par des valeurs nulles ou manquantes, je les abandonne souvent entièrement ou je réfléchis à des moyens judicieux d’imputer leurs valeurs. Si je remarque des valeurs anormalement élevées ou basses, je m’assure de les examiner de manière plus approfondie (car toutes les valeurs aberrantes ne sont pas mauvaises). Et je regarde certainement les délais négatifs.

Une analyse sans la suppression de ces erreurs peut sembler étrange, et pourrait invalider les conclusions tirées de votre travail. Rendez les données aussi propres qu’elles peuvent l’être pour que votre travail soit clair, efficace et intrinsèquement précieux.

.

Scoping

Y a-t-il des segments spécifiques des données qui sont pertinents pour le problème que je veux résoudre ?

Dans le cadre de mon projet susmentionné, je voulais tirer tous les receipt enregistrements du deuxième trimestre de 2019. Ces reçus, bien qu’enregistrés en 2019, englobent des shipped et ordered enregistrements remontant jusqu’en août 2018. Si j’avais aveuglément scoré mes données à shipped au deuxième trimestre 2019, j’aurais laissé tomber un tas de produits avec des délais plus longs, et mon analyse aurait été incomplète.

En plus de cela, un attribut plus sournois était glissé dans l’identifiant unique de chaque enregistrement – sa dernière lettre agissait comme un suffixe qui indiquait si la commande était accélérée ou un échantillon. Ces deux types de commande sont anormaux, et ne devraient pas être pris en compte lors de l’analyse de la distribution générale des délais.

Pensez aux attributs des données que vous pouvez utiliser pour cibler votre analyse. Votre projet peut exiger que vous mettiez en lumière des parties spécifiques d’une hiérarchie de produits, certaines régions du pays ou certains types de commandes. À ce stade, les discussions avec les experts en la matière seront cruciales pour comprendre la façon dont chaque champ de données parle d’un enregistrement donné. Déterminez quel doit être votre domaine d’intérêt et assurez-vous de le couvrir complètement ; ni plus, ni moins.

Photo par Sara Garnica de Pexels

Exploration

Que me disent les statistiques sur mes données ?

Lorsque j’ai examiné le délai d’exécution par produit pour mon analyse, j’ai dû modéliser la distribution de probabilité des données pour simuler des scénarios futurs. En jetant un œil aux statistiques de chaque champ, j’ai eu l’intuition de savoir si je pouvais tester des distributions normales (où les PP-plots sont très utiles) ou de Poisson. Si les données étaient particulièrement concentrées, les commandes pourraient être programmées pour la livraison avec une pénalité de retard, ce qui changerait complètement ma façon d’aborder les simulations de commandes.

En général, le calcul de la moyenne, du mode, de la médiane, du min, du max et de l’écart type de chaque champ numérique vous aidera à avoir une meilleure idée de sa distribution. Une médiane sensiblement décalée par rapport à la moyenne peut suggérer que le champ est asymétrique, tandis que la vérification de l’écart type vous donnera un aperçu de la variabilité générale du champ. Outre les statistiques, le tracé de vos données peut être un excellent moyen de les comprendre. Les graphiques univariés (c’est-à-dire descriptifs à une seule variable), tels que les histogrammes ou les diagrammes en boîte et moustaches, vous permettront d’obtenir des informations précises sur la distribution. Les graphiques bivariés (c’est-à-dire, descriptifs à deux variables), comme les diagrammes de dispersion ou les diagrammes de séries chronologiques, peuvent vous donner un aperçu des relations qui existent entre deux caractéristiques quelconques.

Si vous êtes un fan de l’utilisation de Python pour l’exploration des données, le module –pandas_profile (vérifiez ici pour leur GitHub) est un excellent outil pour automatiser une grande partie du travail descriptif dans l’analyse exploratoire, ce qui vous libérera du temps pour des efforts plus compliqués. Une solide compréhension de vos données portera ses fruits lorsque vous construirez des modèles, créerez des rapports et réfléchirez au problème.

Photo de Ylanite Koppens provenant de. Pexels

Conclusion

L’utilisation de ce cadre (nettoyage → cadrage → exploration) ne vous garantira pas une libération totale des casse-tête qui accompagnent les nouvelles données, mais peut vous aider à structurer la façon dont vous abordez les informations brutes dans un format prêt à être analysé. D’après mon expérience, réfléchir à l’avance à un plan de préparation des données vous aidera à mener une analyse significative plus efficacement. Avec un peu de pratique, vous trouverez ce qui fonctionne pour vous et adapterez ce processus à vos propres besoins.

Qu’il s’agisse de se préparer pour la journée ou de réaliser une analyse de données, il est important de respecter l’ordre. Donc, lorsque l’envie vous prend de sauter la préparation et d’habiller immédiatement vos données avec des visualisations pointues, ralentissez et apprenez d’abord à les connaître – vous serez heureux de l’avoir fait.

Si vous avez aimé cet article de blog, découvrez d’autres de nos travaux, suivez-nous sur les médias sociaux (Twitter, LinkedIn et Facebook) ou rejoignez-nous pour nos webinaires mensuels gratuits de l’Académie.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *