Loading AI tools
Da Wikipedia, l'enciclopedia libera
In statistica, in particolare nella statistica descrittiva, una distribuzione è una rappresentazione del modo in cui le diverse modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio.[1]
Le distribuzioni in statistica vengono anche distinte in semplici se si rileva un solo carattere, multiple se si rilevano più caratteri sullo stesso collettivo.
In una distribuzione unitaria semplice vengono presentate le modalità osservate per ciascuna unità statistica. Ad esempio, se si rileva il carattere "titolo di studio" tra gli n dipendenti di un'azienda, la distribuzione unitaria è un insieme di n coppie in cui il primo elemento indica l'unità (il nome, o altro dato identificativo, di ciascun dipendente), il secondo indica il suo titolo di studio (licenza media, diploma di maturità, laurea triennale ecc.).
Analogamente, una distribuzione multipla è un insieme di n-uple in cui il primo elemento indica l'unità ed i successivi indicano le modalità degli n – 1 caratteri osservate su quella unità.
L'insieme di coppie o n-uple viene rappresentato mediante una tabella. Nel caso di una distribuzione semplice si ha una tabella a due colonne, la prima contenente le singole unità e la seconda le modalità osservate.
In generale le distribuzioni unitarie rappresentano il primo risultato di una rilevazione, che viene poi organizzato nella forma di una distribuzione di frequenze o di quantità. Fanno eccezione le cosiddette serie di intensità, che presentano le diverse intensità di un fenomeno rilevate secondo un criterio qualitativo o comunque non quantitativo in senso stretto (non una misura o un conteggio). Ne sono esempi:
In una distribuzione di frequenze viene presentato il numero di unità sulle quali viene rilevata ciascuna modalità del carattere. In una rilevazione del titolo di studio, ad esempio, la distribuzione di frequenze è un insieme di k coppie, dove k è il numero delle modalità del carattere; in ciascuna coppia il primo elemento indica la modalità ed il secondo indica il numero ni di unità su cui quella modalità è stata osservata (la frequenza assoluta con cui viene osservata).
Se il carattere è quantitativo continuo, o presenta comunque numerose modalità, queste vengono raggruppate in classi. Ad esempio, se si rileva la statura le diverse stature possibili vengono raggruppate in intervalli ("meno di 150", "da 150 a 160" ecc.), se si rileva il numero dei dipendenti di un insieme di aziende si usano classi del tipo "fino a 5 addetti", "da 6 a 20", "da 21 a 50" ecc.
Nella tabella che rappresenta una distribuzione di frequenza semplice, la prima colonna contiene le modalità o le loro classi, la seconda contiene i numeri delle unità che presentano le diverse modalità. La somma della seconda colonna è uguale al numero totale n delle unità. Da una distribuzione di frequenze si possono derivare distribuzioni di frequenze relative (o percentuali). Nel primo caso, le frequenze ni, dette assolute, vengono sostituite dai rapporti fi=ni/n; nel secondo tali rapporti vengono moltiplicati per 100.
Infine, se il carattere è qualitativo ordinato o quantitativo, le sue diverse modalità vengono esposte in ordine crescente e si possono calcolare le frequenze cumulate assolute o relative; le frequenze assolute cumulate si calcolano come segue:
Le altre si calcolano in modo analogo.
Lo schema generale delle corrispondenti tabelle è il seguente:
Modalità | Frequenze assolute | Frequenze relative | Frequenze percentuali |
Frequenze assolute cumulate | Frequenze relative cumulate |
Frequenze percentuali cumulate | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
dove:
Le frequenze relative cumulate sono utilizzate per calcolare la funzione di ripartizione empirica.
Le distribuzioni di frequenza vengono talvolta dette:
In altre parole la serie è una collezione ordinata di dati ovvero un insieme di dati disposti in ordine consecutivo (sequenza), dove ogni dato rappresenta una modalità o un valore del carattere osservato su ciascuna delle unità statistiche considerate.
In una distribuzione di quantità viene presentato il modo in cui un carattere quantitativo si distribuisce tra le sue varie modalità. Ad esempio, supponendo che si rilevi il numero dei dipendenti di un insieme di aziende, si ha una distribuzione di frequenze se per ciascun numero di dipendenti, o per ciascuna sua classe, si mostra il numero delle aziende che hanno quel numero di dipendenti; si ha invece una distribuzione di quantità se si mostra il numero dei dipendenti in quella classe. Rappresentando le due distribuzioni mediante tabelle, nel primo caso la somma della seconda colonna sarà il numero totale delle unità (le aziende), nel secondo sarà il numero totale dei loro dipendenti (l'ammontare complessivo del carattere quantitativo rilevato).
Nella tabella che segue si suppone di aver rilevato il numero di dipendenti (il carattere quantitativo) presso 3.443.915 aziende (le unità statistiche):
Numero dipendenti | Numero aziende | |
---|---|---|
Fino a 5 | 5.275.084 | 3.013.879 |
da 6 a 20 | 3.123.203 | 324.478 |
da 21 a 50 | 2.028.302 | 67.610 |
da 51 a 100 | 1.567.439 | 22.952 |
da 101 a 500 | 2.506.534 | 13.305 |
da 501 a 1000 | 740.280 | 1.088 |
oltre 1000 | 1.384.302 | 603 |
Totale | 16.625.144 | 3.443.915 |
La prima colonna contiene le modalità del carattere raggruppate in classi.
La seconda colonna contiene la distribuzione di quantità; nella seconda riga, ad esempio, si legge che il numero dei dipendenti occupati presso aziende che hanno da 6 a 20 dipendenti è 3.123.203. Il totale della colonna esprime il numero complessivo dei dipendenti delle aziende oggetto di rilevazione, quindi con l'ammontare complessivo del carattere.
La terza colonna contiene la distribuzione di frequenze; nella quarta riga, ad esempio, si legge che il numero delle aziende presso le quali si rileva la modalità "da 51 a 100 dipendenti" è 22.952. Il totale della colonna coincide con il numero complessivo delle aziende su cui è stata condotta l'indagine (il numero delle unità statistiche).
Per le serie territoriali, si usano spesso cartogrammi, nei quali viene rappresentato l'intero territorio considerato (ad esempio una cartina dell'Italia) e si usano diversi colori per mostrare la diversa intensità del fenomeno rilevato nelle diverse province o regioni.
Le serie storiche vengono normalmente rappresentate con linee spezzate.
Le distribuzioni di frequenza sono rappresentate graficamente con diagrammi a barre o a torta se il carattere è qualitativo o quantitativo discreto, con istogrammi se il carattere è quantitativo continuo.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.