Introduzione all’analisi statistica dei dati

  • di

“Il numero di persone che pensano di capire la statistica supera pericolosamente quelli che la capiscono davvero, e la matematica può causare problemi fondamentali quando è usata male.”- Rory Sutherland

Nell’era dell’informazione, i dati non scarseggiano, anzi, sono irresistibili. Dall’addentrarsi nella quantità schiacciante di dati all’interpretare con precisione la sua complessità al fine di fornire intuizioni per un intenso progresso delle organizzazioni e delle imprese, tutti i tipi di dati e informazioni vengono sfruttati nella loro totalità ed è qui che l’analisi statistica dei dati ha una parte significativa.

“La statistica è il ramo specifico della scienza da cui i professionisti portano conclusioni/interferenze distinte sotto gli stessi dati”

Passando la discussione ad un altro passo, discuteremo;

  1. Che cos’è l’analisi statistica dei dati?

  2. Significatività dei dati nell’analisi statistica dei dati

  3. Strumenti di analisi statistica dei dati

  4. Quali sono i tipi di analisi statistica dei dati

  5. 4 passi del processo di analisi statistica dei dati

Cosa è l’analisi statistica dei dati?

Essendo una branca della scienza, la statistica incorpora l’acquisizione dei dati, l’interpretazione e la convalida dei dati, e l’analisi statistica dei dati è l’approccio di condurre varie operazioni statistiche, cioè una ricerca quantitativa approfondita che tenta di quantificare i dati e impiega alcuni tipi di analisi statistica. Qui, i dati quantitativi includono tipicamente i dati descrittivi come i dati dei sondaggi e i dati di osservazione.

Nel contesto delle applicazioni aziendali, è una tecnica molto cruciale per le organizzazioni di business intelligence che hanno bisogno di operare con grandi volumi di dati.

L’obiettivo fondamentale dell’analisi dei dati statistici è quello di identificare le tendenze, per esempio, nel business della vendita al dettaglio, questo metodo può essere affrontato per scoprire i modelli nei dati non strutturati e semi-strutturati dei consumatori che possono essere utilizzati per prendere decisioni più potenti per migliorare l’esperienza del cliente e far progredire le vendite.

Oltre a questo, l’analisi statistica dei dati ha varie applicazioni nel campo dell’analisi statistica delle ricerche di mercato, della business intelligence (BI), dell’analisi dei dati nei big data, del machine learning e del deep learning, e dell’analisi finanziaria ed economica.

(blog consigliato: Top Business Intelligence Tools and Techniques in 2020)

Significato dei dati nell’analisi statistica dei dati,

  1. I dati comprendono variabili che sono univariate o multivariate, ed estremamente basate sul numero di variabili, gli esperti eseguono diverse tecniche statistiche.

  • Se i dati hanno una variabile singolare, l’analisi statistica univariata dei dati può essere condotta includendo il test t per la significatività, il test z, il test f, il test ANOVA a senso unico, ecc.

  • E se i dati hanno molte variabili allora si possono eseguire diverse tecniche multivariate come l’analisi statistica dei dati, o l’analisi statistica discriminante dei dati, ecc.

Qui, la variabile è una caratteristica, che passa da un tratto individuale di una popolazione ad un altro tratto. L’immagine qui sotto mostra la classificazione dei dati-variabili.

Visualizza la classificazione delle variabili in termini qualitativi e quantitativi.

Classificazione delle variabili, fonte

(Blog correlato: Introduzione alla distribuzione delle probabilità)

  1. I dati sono di due tipi, dati continui e dati discreti. I dati continui non possono essere contati e cambiano nel tempo, per esempio l’intensità della luce, la temperatura di una stanza, ecc.

I dati discreti possono essere contati e hanno un certo numero di valori, per esempio il numero di lampadine, il numero di persone in un gruppo, ecc.

(Blog collegato: Tipi di dati in statistica)

  1. Nell’analisi statistica dei dati,

  • i dati continui sono distribuiti sotto una funzione di distribuzione continua, detta anche funzione di densità di probabilità, e

  • i dati discreti sono distribuiti sotto una funzione di distribuzione discreta, detta anche funzione di massa di probabilità.

  1. I dati possono essere quantitativi o qualitativi.

  • I dati qualitativi sono etichette o nomi che vengono implementati per trovare una caratteristica di ogni elemento, mentre

  • i dati quantitativi sono sempre sotto forma di numeri che indicano o quanto o quanti.

(Altro da leggere: Passi per l’analisi dei dati qualitativi)

  1. Nell’analisi statistica dei dati, sono importanti i dati trasversali e le serie temporali. Per una definizione, i dati trasversali sono i dati accumulati nello stesso momento o relativamente allo stesso punto nel tempo, mentre i dati della serie temporale sono i dati raccolti attraverso certi periodi di tempo.

L’analisi statistica dei dati può essere adottata in;

  • Esistono risultati/conclusioni essenziali svelati attraverso un set di dati.

  • Assemblare e compilare informazioni.

  • Computare misure di coesione, rilevanza o diversità nei dati.

  • Originare profezie future sulla base di dati precedentemente riportati.

  • Testare le previsioni sperimentali.

Strumenti di analisi statistica dei dati

Generalmente, sotto l’analisi statistica dei dati, si pratica qualche forma di strumenti di analisi statistica che un profano non può fare senza avere conoscenze statistiche.

Vari programmi software sono disponibili per eseguire l’analisi statistica dei dati, questi software includono Statistical Analysis System (SAS), Statistical Package for Social Science (SPSS), Stat soft e molti altri.

Questi strumenti permettono ampie capacità di gestione dei dati e diversi metodi di analisi statistica che potrebbero esaminare un piccolo pezzo fino a statistiche di dati molto complete.

Anche se i computer servono come un fattore importante nell’analisi statistica dei dati che può aiutare nella sintesi dei dati, l’analisi statistica dei dati si concentra sull’interpretazione del risultato al fine di guidare inferenze e profezie.

(Da controllare: tecniche di analisi statistica dei dati)

Quali sono i tipi di analisi statistica dei dati?

Ci sono due componenti importanti di uno studio statistico, che sono:

  • Popolazione – un assemblaggio di tutti gli elementi di interesse in uno studio, e

  • Campione – un sottoinsieme della popolazione.

E, ci sono due tipi di metodi statistici ampiamente usati sotto le tecniche di analisi dei dati statistici;

  1. Statistica descrittiva

È una forma di analisi dei dati che è fondamentalmente usata per descrivere, mostrare o riassumere i dati di un campione in un modo significativo. Per esempio, media, mediana, deviazione standard e varianza.

In altre parole, la statistica descrittiva cerca di illustrare la relazione tra le variabili in un campione o popolazione e fornisce un riassunto sotto forma di media, mediana e modalità.

  1. Statistica inferenziale

Questo metodo è utilizzato per trarre conclusioni dal campione di dati utilizzando le ipotesi nulla e alternativa che sono soggette a variazione casuale.

Anche la distribuzione delle probabilità, il test di correlazione e l’analisi di regressione rientrano in questa categoria. In parole semplici, la statistica inferenziale impiega un campione casuale di dati, presi da una popolazione, per fare e spiegare inferenze sull’intera popolazione.

(Più correlati: Cos’è il valore p in statistica?)

La tabella sottostante mostra le differenze fattuali tra le statistiche descrittive e le statistiche inferenziali;

S.No

Statistiche descrittive

Statistiche inferenziali

Relativo alla specificazione della popolazione target.

Fare inferenze dal campione e farle generalizzare anche in base alla popolazione.

Organizzare, analizzare e riflettere i dati in modo significativo.

Correlare, testare e anticipare i risultati futuri.

I risultati finali sono rappresentati sotto forma di diagrammi, tabelle e grafici.

I risultati finali sono i punteggi di probabilità.

Spiega i dati riconosciuti in precedenza.

Tenta di trarre conclusioni riguardo alla popolazione che va oltre i dati disponibili.

Strumenti impiegati-Misura della tendenza centrale (media, mediana, modalità), Diffusione dei dati (Range, deviazione standard, ecc.)

Strumenti impiegati- Test di ipotesi, Analisi della varianza, ecc.

Differenza tra statistiche descrittive e statistiche inferenziali

4 passi fondamentali per l’analisi statistica dei dati

Per analizzare qualsiasi problema con l’uso dell’analisi statistica dei dati comprende quattro passi fondamentali;

Definizione del problema

La definizione precisa e attuariale del problema è indispensabile per ottenere dati accurati su di esso. Diventa estremamente difficile raccogliere dati senza conoscere l’esatta definizione/indirizzo del problema.

Accumulare i dati

Dopo aver affrontato il problema specifico, progettare diversi modi per accumulare dati è un compito importante nell’analisi statistica dei dati.

I dati possono essere raccolti dalle fonti reali o possono essere ottenuti dall’osservazione e da studi di ricerca sperimentale, condotti per ottenere nuovi dati.

  • In uno studio sperimentale, la variabile importante è identificata secondo il problema definito, poi uno o più elementi nello studio sono controllati per ottenere dati su come questi elementi influenzano altre variabili.

  • In uno studio osservazionale, nessun processo viene eseguito per controllare o influenzare la variabile importante. Per esempio, un surrey condotto è l’esempio o un tipo comune di studio osservazionale.

Analisi dei dati

Nell’analisi statistica dei dati, i metodi di analisi sono divisi in due categorie;

  • Metodi esplorativi, questo metodo è utilizzato per determinare ciò che i dati stanno rivelando utilizzando una semplice aritmetica e grafici/descrizioni facili da disegnare per riassumere i dati.

  • Metodi confermativi, questo metodo adotta concetti e idee dalla teoria della probabilità per cercare di rispondere a problemi particolari.

La probabilità è estremamente imperativa nel processo decisionale in quanto fornisce una procedura per stimare, rappresentare e spiegare le possibilità associate ai prossimi eventi.

Relazione dei risultati

Con le inferenze, una stima o un test che pretende di essere la caratteristica di una popolazione può essere derivata da un campione, questi risultati potrebbero essere riportati sotto forma di una tabella, un grafico o un insieme di percentuali.

Siccome solo una piccola parte dei dati è stata studiata, quindi il risultato riportato può rappresentare alcune incertezze implementando dichiarazioni di probabilità e intervalli di valori.

Con l’aiuto dell’analisi statistica dei dati, gli esperti possono prevedere e anticipare aspetti futuri dai dati. Comprendendo le informazioni disponibili e utilizzandole in modo efficace possono portare a un adeguato processo decisionale. (Fonte)

Conclusione

L’analisi statistica dei dati fornisce un senso ai numeri senza senso e quindi dà vita a dati senza vita. Pertanto, è imperativo per un ricercatore avere un’adeguata conoscenza della statistica e dei metodi statistici per eseguire qualsiasi studio di ricerca.

Questo aiuterà a condurre uno studio appropriato e ben progettato preminentemente a risultati accurati e affidabili. Inoltre, i risultati e le inferenze sono espliciti solo e soltanto se si praticano test statistici adeguati.

“L’analisi di regressione è la bomba a idrogeno dell’arsenale statistico”- Charles Wheelan

Concludendo il blog, possiamo dire che l’analisi statistica dei dati non è altro che la compilazione e l’interpretazione dei dati allo scopo di rivelare modelli e tendenze nascoste.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *