Indice |
Premessa
Siamo giunti alla 3a e ultima parte di questa breve rassegna, in cui vengono illustraste sommariamente le variabili casuali (random variables) sia discrete che continue, tramite le quali vengono applicati in maniera più sistematica i concetti visti nelle due parti precedenti.
Variabili casuali discrete
Una variabile casuale rappresenta con un numero i possibili risultati che potrebbero verificarsi per qualche esperimento casuale. Una variabile casuale discreta X ha un insieme di valori possibili distinti. Ad esempio, X potrebbe essere:
a) il numero di case nel vostro quartiere che hanno un camino
b) il numero di biciclette nuove vendute ogni anno da un negozio di biciclette
c) il numero di lampadine difettose nell'ordine di acquisto di un negozio di rivendita al dettaglio
Per determinare il valore di una variabile casuale discreta dobbiamo contare.
Riassumendo, se è possibile mettere in corrispondenza tutti gli eventi relativi ad un particolare fenomeno con dei numeri in modo tale che agli eventi E1, E2, ..., EN corrispondano i numeri x1, x2, ..., xN allora: si definisce variabile casuale la variabile X = {x1, x2, ..., xN}.
È questo il significato di variabile casuale: si tratta di una variabile che assume particolari valori non in base a leggi deterministiche (come nelle funzioni matematiche tipo la retta o la parabola) ma al caso.
Se, invece di un insieme discreto, è necessario un insieme continuo di numeri reali per la corrispondenza eventi-numeri, la variabile casuale è detta continua (come spesso accade qualora S rappresenti lo spazio dei risultati di misure). Una variabile casuale continua X potrebbe assumere gli infiniti valori
possibili in un certo intervallo numerico.
Ad esempio, X potrebbe essere:
- le altezze in cm degli abitanti di un territorio, comprese nell'intervallo 50 <X < 220 cm
- il volume d'acqua in un serbatoio di acqua piovana, che potrebbe trovarsi nell'intervallo 0 < X < 100 m3.
Per determinare il valore di una variabile casuale continua dobbiamo quindi misurare.
DISTRIBUZIONI DI PROBABILITÀ
Per ogni variabile casuale c'è una distribuzione di probabilità corrispondente che descrive la probabilità che la variabile assuma uno dei valori possibili.
La probabilità che la variabile X assuma il valore x è indicata con P(X = x).
Per esempio, quando si lanciano due monete, la variabile casuale X potrebbe essere 0 teste, 1 testa, o 2 teste, quindi X = 0, 1, o 2. La distribuzione di probabilità associata è P(X = 0) = 1/4, P(X = 1) = 1/2 , P(X = 2) = 1/4 .
Esempio
La moda della distribuzione è il valore più frequente della variabile. Questo è il valore dei dati xi la cui probabilità pi è la più alta. La moda può avere più valori.
La mediana della distribuzione corrisponde al 50º percentile (vedi più oltre la trattazione dei percentili). Se gli elementi dello spazio campione
[x1, x2, x3, .... , xn] sono elencati in ordine crescente, la mediana sarà il valore Xj per il quale la somma cumulativa
p1 + p2 + .... + pj raggiunge 0,5 (ossia il 50%).
In un esperimento una moneta viene lanciata 2 volte. Se non è truccata, il numero di teste X ha come Spazio campione (Sample space) [0, 1, 2] con probabilità corrispondenti [1/4 , 1/2 , 1/4]. Vediamo che 0 <= pi <= 1 per ogni valore di i, e che le probabilità sommate ammontano a 1, come deve sempre essere.
Nell'esempio del magazine store, la moda è 2, e lo è anche la mediana, perché è il valore della X che genera una probabilità cumulativa subito maggiore del 50%.
Esempio
Si scelgono, senza reimmissione, una prima biglia e poi una seconda da un sacchetto che ne contiene 4 Rosse (R) e 2 Blu (B). Sia X la variabile casuale che indica il numero di biglie rosse scelte.Consideriamo il seguente problema:
Un dado non truccato (fair dice) viene lanciato 120 volte. In quante occasioni dovremmo aspettarci che il risultato sia un "6"? Per rispondere a questa domanda dobbiamo prima considerare tutti i possibili risultati (Spazio campione o Sample space). Le possibilità sono 1, 2, 3, 4, 5, e 6, e ciascuna di esse ha la stessa probabilità di verificarsi di tutte le altre. Pertanto, come probabilità di uscita di un “6” ci aspettiamo 1/6, che su 120 volte significa 20 volte; in altre parole ci aspettiamo che 20 dei 120 lanci del dado producano un "6".
Tuttavia, questo non significa che avremo sicuramente 20 “6” quando lanciamo un dado 120 volte.
Ora possiamo generalizzare. Se ci sono n prove di un esperimento, e un evento ha probabilità p di verificarsi in ciascuna delle prove, allora il numero di volte che ci aspettiamo che l'evento si verifichi è np. Possiamo anche parlare del risultato previsto o risultato medio di un esperimento. Esempio
Supponiamo di avere un sacchetto di 10 palline con scritto un numero xi su ognuna. Una ha il numero 1, quattro hanno il numero 2, tre hanno il 3, e le altre due hanno il 4. Esperimento: Una pallina viene tolta in modo casuale da un sacchetto.
Supponiamo di eseguire questo esperimento 10 volte. Possiamo riassumere i possibili risultati in una tabella:
Il numero medio ottenuto è 2,6
Otteniamo cioè la stessa formula della statistica descrittiva, dove al posto della frequenza reletiva abbiamo la probabilità.
Lo stesso avviene per la varianza e deviazione standard:
Proprietà del Valore atteso E(X) e della varianza Var(X)
Distribuzione binomiale
Ora esaminiamo un tipo speciale di variabile casuale discreta che viene applicata al campionamento con reimmissione (with replacement). La distribuzione di probabilità associata a questa variabile è la distribuzione binomiale.
Per il campionamento senza reimmissione la distribuzione di probabilità utilizzata è la distribuzione ipergeometrica, ma qui non la esaminiamo.
Prendiamo in considerazione un esperimento per il quale ci sono due possibili risultati: il successo se un dato evento si verifica, o il fallimento se l'evento non si verifica.
Se ripetiamo questo esperimento in una serie di prove indipendenti, lo chiamiamo esperimento binomiale.
Assumiamo che la probabilità p di un successo sia costante per tutte le prove. Dal momento che il successo e il fallimento sono eventi complementari, la probabilità di un fallimento è 1 - p ed è costante per tutte le prove.
La variabile casuale X è il numero totale di successi in n prove.
Esempio
Supponiamo che uno spinner (trottola) abbia tre bordi blu e uno bianco.
Chiaramente, ad ogni giro terminato lo spinner si fermerà su un bordo blu (B) o su un bordo bianco (W).
La probabilità di finire sul blu è p = 3/4 e sul bianco è 1/4 = 1-p.
Se noi chiamiamo "successo" un risultato blu (e di conseguenza un risultato bianco è un ‘fallimento’), allora abbiamo un esperimento binomiale.
Si consideri la rotazione dello spinner n = 3 volte ossia 3 spin). Poniamo che la variabile casuale X sia il numero di risultati o ‘successi' = blu, quindi X = 0, 1, 2, o 3.
Se, supponendo di avere a disposizione qualche milione di batterie del tipo descritto nell’esempio soprastante, ripetessimo l’esperimento molte volte (ogni volta 80 prelievi), noi ci aspettiamo di trovare 4 batterie difettose nel 50% dei casi (valore atteso come valore medio) e di trovarne 4 +/- 2 (approssimazione di 1,949), ossia da 2 a 6, in circa il 70% dei casi.
Covarianza e correlazione
Covarianza e correlazione sono indicatori che descrivono la relazione tra due variabili X e Y .
Entrambi sono strumenti
di misurazione di un particolare tipo di dipendenza tra variabili.
Ricordiamo gli indicatori per una variabile:
Valore atteso = E[X]=∑kxkp(xk)
Varianza = Var(X) = σX2 = E[(X–E[X]2)
La covarianza di 2 variabili aleatorie X e Y è il valore atteso dei prodotti delle loro distanze
dalla media:
COV(X,Y) = E[(X−E(X))(Y−E(Y))]
Questa formula può essere più facilmente compresa se scritta come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro singoli valori attesi:
COV(X,Y) = E(XY) − E(X)E(Y)
La covarianza tra X e Y si indica anche con la notazione σXY
Per semplificare, la covarianza cerca di esaminare e misurare quante variabili cambiano insieme. In questo concetto, entrambe le variabili possono cambiare nello stesso modo senza indicare alcuna relazione. La covarianza è una misura della forza o della debolezza della correlazione tra due o più insiemi di variabili casuali. Ecco alcune proprietà:
X,Y indipendenti ⇒ COV(X,Y) = 0
COV(X,X) = VAR(X)
La covarianza tra una variabile aleatoria X e qualsiasi costante a vale 0; pertanto una costante e un numero aleatorio sono sempre incorrelati
COV(X,a) = 0
Due costanti a e b sono sempre incorrelate
COV(a,b) = 0
La correlazione funge da versione ridotta della covarianza.
Viene infatti introdotto il coefficiente di correlazione ρXY
ρXY = COV(X,Y)/(VAR(X)VAR(Y)) = σXY/(σXσY)
Sia covarianza che correlazione hanno i loro intervalli di definizione. I valori di correlazione sono nella scala da -1 a +1.
I valori della covarianza, invece, possono eccedere o possono essere al di fuori dell'intervallo di correlazione.
Inoltre, i valori di correlazione dipendono dalle unità di misura di X e Y.
Un'altra differenza degna di nota è che la correlazione è senza dimensioni. Al contrario, una covarianza è descritta dall'unità di misura formata moltiplicando l'unità di misura di una variabile per l'unità di misura dell'altra variabile.
Variabili casuali continue
Un allevatore di salmone cattura centinaia di pesci adulti. Egli registra i loro pesi w (weight) in una tabella di frequenza con intervalli di classe 3 <= w < 3.1 kg, 3.1 <= w< 3.2 kg, 3.2 <= w < 3.3 kg, e così via.
Il peso medio è di 4.73 kg e la deviazione standard è 0.53 kg.
Un istogramma di frequenza dei dati è a forma di campana e simmetrica rispetto alla media.
Cerchiamo di capire:
a) se possiamo usare la deviazione media e standard solo per determinare la proporzione di salmone di peso:
- i) superiore a 6 kg
- ii) tra 4 e 6 kg
b) come possiamo trovare quali sono i casi in cui
- i) il 90% dei salmoni pesa meno di un tot,
- ii) il 25% dei salmoni pesa più di un altro tot
In statistica abbiamo visto che possiamo usare un grafico di frequenza cumulativa per trovare la percentuale di valori di dati al di sopra o al di sotto di un certo valore.
Il grafico successivo mostra la frequenza cumulativa, espressa come numero decimale, per
diversi valori x della variabile casuale X. Per esempio, vediamo che 0.7 = 70% dei dati è inferiore a 5 (Kg).
Ora consideriamo la funzione “frequenza cumulativa” = F(x) e la sua funzione derivata di f(x) = F'(x) = df(x)/dx. Visto che la F(x) è sempre crescente (perché sommo ogni volta una frequenza per definizione positiva), la sua derivata è sempre positiva. Inoltre, un valore alto della derivata per un dato valore di x indica un'alta frequenza di valori di dati intorno a quel valore di x.
Se dalla frequenza passiamo alla probabilità, il discorso non cambia: F(x) è la funzione “probabilità cumulativa” = P(X<xi)
La derivata della funzione “probabilità cumulativa”, ossia F’(x), ci dà la funzione f(x) = “densità di probabilità”.
Invertendo questo processo, se conosciamo la funzione “densità di probabilità” di un insieme di dati, allora possiamo integrarla per ottenere la funzione “probabilità cumulativa”.
Per una variabile continua X, la probabilità che X sia esattamente uguale ad un particolare valore è zero. Quindi, P(X = x) = 0 per tutte le x.
Ad esempio, la probabilità che un uovo pesi esattamente 72.9 g è zero.
Se pesiamo un uovo su bilance che pesano fino a 0.1 g, una lettura di 72.9 g significa che il peso si trova tra 72.85 g e 72.95 g. Non importa quanto siano accurate le bilance: il peso di un uovo è determinabile SOLO come compreso all'interno di un range (intervallo) di valori.
Questo è vero in generale: per una variabile casuale continua possiamo solo parlare della probabilità che un evento si trovi in un intervallo di valori.
Questo non sarebbe vero se X fosse una variabile casuale discreta.
(Volendo unificare variabili discrete e continue, occorre introdurre la "funzione" δ(x), detta "delta di Dirac" che consente di trasformare una distribuzione discreta di probabilità in una densità di probabilità. Ma qui non ce ne occupiamo).
PROPRIETÀ DELLE FUNZIONI DI DENSITÀ DI PROBABILITÀ
Per una funzione di densità di probabilità continua definiamo moda, mediana, media e varianza:
Ecco un confronto tra variabili casuali discrete e continue:
LA DISTRIBUZIONE NORMALE
La distribuzione normale è la distribuzione di probabilità più importante per una variabile casuale continua.
Molti fenomeni naturali hanno una distribuzione normale, o approssimativamente normale. Alcuni esempi sono:
- attributi fisici di una popolazione come altezza, peso e lunghezza del braccio
- rese delle colture
- punteggi per test effettuati da una grande popolazione
Una volta che un modello normale è stato stabilito, possiamo usarlo per fare previsioni su una distribuzione e per rispondere ad altre domande pertinenti.
COME SI VERIFICA UNA DISTRIBUZIONE NORMALE
Consideriamo le arance raccolte da un albero di arancio. Non tutte hanno lo stesso peso. La variazione può essere dovuta a diversi fattori, tra cui:
- genetica
- tempi diversi in cui i fiori sono stati fecondati
. diverse quantità di luce solare che raggiungono le foglie e i frutti
- diverse condizioni atmosferiche, come i venti prevalenti.
Il risultato è che la maggior parte dei frutti avrà pesi vicini alla media, mentre poche arance saranno molto
più pesanti o molto più leggere della media.
Ciò si traduce in una distribuzione a forma di campana per il peso delle arance in una coltura, che è simmetrica intorno alla media.
Per una curva normale, la deviazione standard σ è determinata unicamente come la distanza orizzontale tra la linea di simmetria x = μ ed uno dei due punti di flesso (points of inflection).
La distribuzione normale è detta anche “gaussiana”.
la distribuzione normale è correntemente indicata con N(μ,σ). Se la variabile casuale coinvolta è X, la distribuzione si indica con
X ~ N(μ,σ)
Per una distribuzione normale con media μ e deviazione standard σ, la ripartizione percentuale di dove la variabile casuale x potrebbe trovarsi è indicata sotto:
Esempio
La misura del torace (chest) di giocatori di calcio di 18 anni ha una distribuzione normale con media = 95 cm e deviazione standard di 8 cm. Trovare:
- a) la percentuale di giocatori il cui torace sta tra 87 e 103 cm e tra 103 e 111 cm;
- b) la probabilità che un torace scelto a caso stia tra 87 e 111 cm;
- c) il valore di k tale che circa il 16% delle misure sia inferiore a k cm.
I calcoli sulla distribuzione normale si fanno facilmente tramite computer o calcolatrice scientifica che comprenda la funzione gaussiana e il suo integrale (non ricavabile per via analitica). In loro assenza un metodo più semplice (e tradizionale) è l’uso della funzione normalizzata tramite il cambio di variabile
z = (x - μ)/σ
che trasforma una qualunque gaussiana nella variabile casuale X = x in una gaussiana standard nella variabile Z =z , che si trova già tabulata e che si chiama “distribuzione Z ~ N(μ,σ)” (da non confondere con la trasformata z dei sistemi con segnali digitali).
La distribuzione Z ha media = 0 e deviazione standard = 1. ossia Z ~ N(0,1)
Quantili e percentili
Consideriamo una popolazione di granchi in cui la lunghezza di un guscio di X mm, è normalmente distribuita con una media di 70 mm e una deviazione standard 10 mm ossia X ~ N(70*10-3, 10-2).
Un biologo vuole proteggere la popolazione permettendo la raccolta solo del 5% dei granchi più grandi. Egli si pone quindi la domanda: "Il 95% dei granchi deve avere una lunghezza inferiore a quanto?".
Per rispondere a questa domanda dobbiamo trovare k tale che P(X < k) = 0.95 .
Il numero k è noto come quantile, e in questo caso il quantile 95%, detto anche 95-esimo percentile.
Il percentile non è altro che il quantile indicato in percentuale.
Quando si ha a che fare con i quantili, ci viene data una probabilità e ci viene chiesto di calcolare il corrispondente valore della variabile casuale. Questo è il procedimento inverso al trovare la probabilità conoscendo il quantile.
Esempio di uso della Distribuzione Z
Usare la tabella di distribuzione normale standard per trovare P(Z<= -0.69)
Tabella “Distribuzione Z” (solo per z>=0)
Esempio
Un professore universitario stima che non più dell'80% dei candidati di storia di quest'anno dovrebbe superare l'esame finale. I punteggi dell'esame sono a distribuzione normale con media 62 e deviazione standard 13. Trovare il punteggio (come numero intero) più basso necessario per superare l'esame.
Sia X il risultato finale dell'esame, quindi X ~ N(62, 132).
Abbiamo bisogno di trovare il punteggio k tale che
P(X >= k) = 0.8
P(X <k) = 0.2 cioè il 20% o 20-esimo percentile
Se la percentuale dei bocciati fosse il 16%, il k sarebbe, come visto sopra per la misura del torace, 62-13 =49. Poiché è invece il 20%, dobbiamo calcolarla. Trasformiamo quindi la distribuzione normale in distribuzione Z ponendo z=(x-μ)/σ; quindi, trovato il valore di z che corrisponde alla probabilità cumulativa del 20%, troveremo x = σ*z+μ che sarà il valore di k cercato.
La tabella mostra il valore della probabilità cumulativa normale standard al crescere di z, ossia l’integrale della funzione gaussiana da 0 a z (area sottesa). Ma contiene solo i valori positivi di z, a cui corrispondono quindi valori di probabilità cumulativa che vanno dal 50% al 100%. A noi invece interessa il valore di probabilità cumulativa fino al 20%. Poiché la distribuzione Z è simmetrica, dovrò “ribaltarla” ossia cambiarla di segno: in questo modo mi indicherà i valori che vanno dal 50% allo 0%. Se il 100% cumulativo corrisponde a (con ottima approssimazione) z=3, lo 0% cumulativo corrisponderà a z=-3. Il valore di z che corrisponde al 20% cumulativo diventa così il valore corrispondente al 30%, ossia a 50% - 20% = 30% = 0,3. A questo valore 0,3 corrisponde z= 0,84 da cui, usando x = σ*z+μ ricaviamo
x = 13*(-0.84) + 62 = 51.8
che è il valore di k cercato, da arrotondare a 52 punti.
Applicazione alle Telecomunicazioni
Riprendendo rapidamente il mio articolo "TLC Bignami 2a parte": ... dopo il concetto di variabile aleatoria dobbiamo vedere il concetto di processo aleatorio, che è un po' meno immediato. Uno potrebbe pensare che per descrivere un segnale aleatorio basti una variabile x, ed è vero. Ma un sistema di TLC deve essere progettato per trasmettere tutta una classe di segnali, ad esempio le voci umane, i suoni musicali, le immagini, i rumori di un cantiere. Occorre quindi considerate tutto un insieme di possibili segnali e caratterizzarne la statistica, a partire dalla conoscenza (magari ipotetica, in prima battuta) delle relative distribuzioni di probabilità. A questo insieme si dà il nome di Processo aleatorio.
Tipicamente un tale processo è definito su un intervallo di tempo in cui i valori di una variabili aleatoria identificano un elemento dell'insieme, cioè uno dei possibili segnali, detti membri del processo.
Si dice stazionario un processo in cui la media temporale non dipende dall'intervallo di tempo in cui tale media viene calcolata. Quindi l'intervallo di integrazione per il calcolo della media può non essere infinito, ma finito e di valore qualsiasi.
Ma tale modo di calcolare non è sempre agevole, soprattutto se va fatto a priori. Allora si considerano i processi ergodici.
Si dice ergodico un processo in cui la statistica di ogni membro è rappresentativa della statistica di tutti gli altri menbri. Semplificando, questo equivale a dire che media temporale = media di insieme.
Che significa qui "media di insieme"? Significa considerare la distribuzione di probabilità dell'insieme delle ampiezze del segnale, che può essere continua (segnale analogico) o discreta (segnale numerico).
Nel caso di segnale stazionario ed ergodico, se è nota la distribuzione di probabilità del processo, si possono calcolare le medie temporali a partire dalla distribuzione di probabilità dell'insieme dei valori che assume l'ampiezza del segnale.
Quando i segnali sono stazionari ed ergodici (e per fortuna è spesso così), un membro del processo quindi è rappresentativo di tutto il processo, ossia tutti i segnali che costituiscono il processo sono, dal punto di vista probabilistico, simili. Calcolando su uno, si calcola su tutti.
In particolare, siamo interessati alla potenza di un segnale.
Il risultato notevole è che la potenza di un segnale aleatorio stazionario ed ergodico, come la maggior parte di quelli analogici (voce, immagini, suoni, etc.) è semplicemente uguale alla varianza (dato che la media è = 0, perchè solitamente la componente continua non viene trasmessa; se serve, viene codificata con un segnale a media nulla).
Conclusione
Si conclude così questa panoramica sulle basi della statistica e della probabilità. Speriamo che, se uno ha avuto la pazienza di seguire la successione degli argomenti svolti nelle 3 parti, le sue idee su questo tema, per molti ostico (me compreso), risultino un pochino più chiare.
Riferimenti per le tre parti
IB Maths SL Book Oxford
IB Maths Textbook HL Core Oxford