Indice |
Premessa
Prosegue il discorso iniziato nella prima parte e vengono passati in rassegna i punti basilari della Teoria della probabilità, senza alcuna pretesa, come sempre del resto, di grande rigore e di esaustività.
Probabilità
Abbiamo detto nella prima parte che se si passa da una popolazione a un campione, la frequenza relativa può diventare probabilità.
Questo perché un campione è una parte di una popolazione e il fatto che possa rappresentarla tutta non è la certezza assoluta ma può essere una quasi-certezza. Naturalmente la teoria ha sviluppato dei criteri di scelta del campione in base al grado di rappresentatività richiesto. I criteri dicono, ad esempio, quanto deve essere numeroso il campione affinché l’errore di valutazione sia contenuto in un limite prestabilito.
È intuitivo che, data per esempio una popolazione 10.000 oggetti, un campione di 100 oggetti darà luogo a valutazioni più precise di un campione 10 oggetti. Ma quanto più precisa? La teoria è in grado di rispondere a questa domanda, date certe condizioni, ma, sempre per semplicità, qui non consideriamo questo aspetto.
Notiamo invece che la probabilità è spesso associata a un evento, un accadimento.
- Un evento (event) è uno dei possibili risultati di un “esperimento” (experiment)
- Un esperimento è un’azione che dà luogo a uno o più risultati (outcomes), che possono anche essere considerati in gruppi.
- Un evento è quindi associabile a un insieme, la cui cardinalità è il numero dei risultati che lo caratterizzano.
- Un esperimento casuale (random experiment) è caratterizzato dall’incertezza sul verificarsi di ciascuno dei suoi possibili risultati.
Esempi di esperimenti casuali sono:
· Lanciare un dado una o più volte
· Lanciare una moneta
· Estrarre due carte da un mazzo di 52 carte da gioco
· Registrare il numero di auto che passano davanti alla porta di casa durante un minuto
La probabilità che un evento si verifichi può essere espressa con un numero compreso tra 0 e 1 o con una percentuale.
Se chiamiamo P(A) la probabilità che l’evento A si verifichi, sappiamo quindi che 0≤ P(A) ≤=1Ci sono 3 modi per trovare il valore della probabilità di un evento:
·
Probabilità teorica
. Un dado non truccato ha 6 facce e quindi i possibili risultati sono 1, 2, 3, 4, 5, 6. Chiamiamo Spazio Campione (Sample Space) U l’insieme dei possibili risultati. Scriviamo n(U) = 6 per dire che lo spazio U “facce del dado” ha 6 elementi (cardinalità dell'insieme U). Lo spazio campione è del tutto simile alla popolazione in senso statistico. Un evento A è caratterizzato da un insieme di n(A) risultati possibili. Per definizione, la probabilità P(A) = n(A)/n(U).
Se l’evento A è “faccia del dado n. 5”, n(A) = 1 perché c’è una sola faccia con il numero 5 e P(A) = 1/6. Se l’evento A è “faccia con numero pari”, n(A) = 3 e P(A) = 3/6 = ½.
Se la probabilità di un evento è P, facendo n prove (trials) ci si aspetta che l’evento si presenti nP volte. (Fair dice è un dado non truccato)
Probabilità empirica
. A volte le probabilità dei singoli eventi non sono ben individuabili e quindi si possono solo stimare tramite esperimenti .
Per esempio, per trovare la probabilità che un particolare componente prodotto da una fabbrica sia difettoso, potremmo testare alcuni componenti. Dopo un certo numero di test, avremmo che la frequenza relativa = n. componenti difettosi / n. componenti testati è una stima della probabilità di difettosità di quel componente. (Ribadiamo che qui non consideriamo quale deve essere quel “certo numero” ossia quanto deve essere ampio il campione in base all’attendibilità richiesta). (School gate = porta di ingresso della scuola)
Probabilità soggettiva
Non sempre è possibile effettuare un numero di prove adeguato per stimare una probabilità in modo accettabile. Oppure, in molti altri casi, la stima può essere fatta solo sulla base di eventi accaduti nel passato, come ad esempio la probabilità che la squadra del cuore vinca la prossima partita.
In tutti questi casi la stima della probabilità è soggettiva e può essere pensata come una scommessa.
In ognuna delle tre accezioni viste sopra, la Probabilità è sempre definita come numero di casi favorevoli / numero totale dei casi possibili
Diagrammi di Venn
Con questo tipo di diagrammi si entra nel campo dell’analisi bivariata (ed eventualmente multivariata)
Esempio
In un certo anno ci sono 100 studenti in una scuola: questo costituisce lo Spazio campione o insieme U (set U) (U sta per Universo).
Gli studenti che fanno tiro con l'arco (Archery) sono 38 (insieme A o set A).
Queste informazioni possono essere riportate su un diagramma di Venn, che mostra le relazioni tra gli insiemi-evento.
Uno studente viene scelto a caso. Definiamo l’evento A come “lo studente scelto a caso fa tiro con l’arco”: l'evento ha lo stesso nome dell'insieme, ma ciò, benchè non rigoroso, qui non genera confusione e vediamo ora perché.
La probabilità che lo studente scelto a caso tra i 100 faccia tiro con l'arco è indicata con P(A). Se ci si allontana dal concetto di evento, si torna al concetto più semplice di “ripartizione dei caratteri”, un concetto appartenente alla statistica descrittiva. Infatti, invece di pensare al fatto di “pescare” uno studente e domandarmi se fa tiro con l’arco, potrei essere interessato a sapere semplicemente qual è la percentuale di studenti che fa tiro con l’arco. Descrizione e probabilità sono concetti diversi, ma danno luogo agli stessi numeri quando espressi in forma relativa, cioè in percentuale.
Vedremo nella terza parte come a certi eventi sarà possibile associare quelle variabili statistiche che si chiameranno variabili casuali.
Tornando all’evento A sopra definito, vediamo facilmente che P(A) =38/100 o 38%
Evento complementare A’
L'area esterna all'insieme A (ma ancora nello spazio campione U) rappresenta l’insieme degli studenti che non fanno tiro con l'arco. Questo insieme è chiamato A’ ed è il complemento dell’insieme A, cioè A + A’ = U.
n(A’) =n(U)-n(A) --> = 100-38 = 62
La probabilità che uno studente NON faccia tiro con l’arco P(A’) = n(A’)/ n(U) = 62/100 o 62%
Notare che P(A) + P(A’) = 38/100 + 62/100 = 1
Intersezione (intersection) di eventi e probabilità associata
Dei 100 studenti, 30 studenti giocano a badminton (detto anche “volàno”).
Di questi, 16 fanno sia tiro con l'arco che badminton.
A = fanno tiro con l’arco
B = fanno badminton
Questa situazione si può rappresentare su un diagramma di Venn in questo modo:
La probabilità che uno studente scelto a caso faccia sia tiro con l'arco sia badminton è scritta come
P(A B)
dove si è utilizzato naturalmente il simbolo insiemistico "intersezione" costituito dalla U rovesciata.
n(A
B) = 16
P(A
B ) = n (A
B)/n (U) = 16/100 = 16%
Se uno studente è scelto a caso, allora la probabilità che uno studente non faccia badminton ma faccia tiro con l'arco è
P(A
B’) = 22/100 = 22%
A’
B’ rappresenta gli studenti che non fanno né badminton né tiro con l’arco
Unione (union) di eventi e probabilità associata
La regione ombreggiata è l'unione di A e B, il che significa o l’evento A o l’evento B o entrambi. La regione rappresenta quindi quegli allievi che fanno tiro con l'arco o badminton o entrambi e viene indicata con A B.
La probabilità che uno studente scelto a caso faccia tiro con l'arco o badminton o entrambi è espressa da P(A
B).
Dal diagramma di Venn soprastante si vede che n(A B) = 22 + 16 + 14 = 52 e quindi
P(A
B) = 52/100 o 52%.
A B’ rappresenta gli studenti che fanno tiro con l’arco, o che fanno o NON fanno badminton
P(A B’) = (22 + 16 + 48 )/100 = 86%
Regola dell’addizione
Nel diagramma di Venn degli studenti si calcola facilmente n(A B) = 38 + 30 – 16
Si può generalizzare con
n(A B) = n(A) + n(B) – n(A
B) e di conseguenza
P(A B) = P(A) + P(B) – P(A
B)
formula che è detta regola dell'addizione.
L'uso del mazzo da 52 carte è un classico per fare molti esempi di applicazione delle varie regole nello studio delle probabilità. Il suddetto mazzo costituisce qui lo Spazio campione.
Esempio di regola dell'addizione
Eventi mutuamente esclusivi
In un sondaggio degli studenti si scopre che 32 studenti giocano a scacchi (evento C). Le gare di scacchi e di tiro con l'arco (A) sono previste per lo stesso giorno alla stessa ora, così uno studente non può partecipare sia al tiro con l'arco che agli scacchi.
Gli eventi A e C sono chiamati eventi mutuamente esclusivi.
Si tratta di eventi in cui i risultati non possono verificarsi allo stesso tempo. Nel diagramma di Venn possiamo vedere che i cerchi non si sovrappongono, quindi n(A C ) = 0 e quindi P(A
C ) = 0.
Dalla Regola dell'addizione segue che P(A C ) = P(A) + P(C ) - 0.
In generale se due eventi A e B si escludono a vicenda allora
P(A B) = 0.
Possiamo quindi adattare la regola dell’addizione al caso in cui l'intersezione è 0, e cioè:
P(A B) = P(A) + P(B)
Quindi se si hanno 2 eventi mutuamente esclusivi la probabilità che si verifichino o l'uno o l'altro o entrambi (concetto di Unione o di OR logico) è semplicemente la somma delle singole probabilità.
Esempio di estrazione (drawing out) a caso di gessetti (board-pen) colorati da una scatola. Qual è la probabilità di estrarre nessuno dei colori detti nel testo? E' chiaro che se si estrae un solo gessetto, esso non può essere contemporaneamente di più di un colore. Quindi gli eventi possibili sono mutamente esclusivi.
Esempio della trottola
Una trottola non truccata con i punteggi 1 , 2 e 3 disegnati su di essa come in figura viene lanciata 3 volte. Ogni volta che si ferma si appoggerà su uno dei 3 settori generando uno dei 3 punteggi.
Trovare la probabilità che il punteggio dell'ultimo lancio sia maggiore dei punteggi dei primi due.
Lo Spazio Campione, cioè tutti i risultati possibili di questo esperimento, è riportato sotto ed è composto dai 33 possibili risultati dell'insieme dei 3 lanci. I 27 risultati sono:
Di tutti, solo i 5 in rosso soddisfano la richiesta. Se la trottola non è truccata, le combinazioni sono tutte equiprobabili e la probabilità di ciascuna è quindi 1/27.
Di conseguenza, poichè i risultati sono mutuamente esclusivi, la probabilità richiesta è 1/27+1/27+1/27+1/27+1/27 = 5/27.
Esempio dei dadi
Si lanciano due dadi (dice) non truccati e si chiede qual è la probabilità che il punteggio totale sia 6.
Lo Spazio campione dei risultati possibili è un semplice prodotto cartesiano:
Si vede facilmente che le combinazioni che danno il punteggio totale = 6 sono 5 e si trovano nella diagonale 5 – 5. Quindi la probabilità cercata è 6/36 = 1/6 = 16,66 % circa.
Regola del prodotto e Eventi indipendenti
Due eventi sono indipendenti se il verificarsi di uno non influenza il verificarsi dell’altro.
Per esempio, consiederiamo l'esperimento "lancio di una moneta e di un dado", il lancio della moneta non influenza il risultato del lancio del dado. Se H (Head) = "esce testa" e T (Tail = coda) = "esce croce", si ha che P(H) = P(T) = 1/2 = 50%.
Esaminiamo lo spazio campione:
Consideriamo l’evento L = dado < 3: ciò accade 4 volte su 12, ossia 1/3.
La probabilità dell’evento congiunto “testa e dado <3” è 2 su 12 =1/6, come si vede dallo spazio campione.
Ma dato che i due eventi sono indipendenti, questa probabilità P(H L) si può calcolare applicando la regola del prodotto: P(H
L) = P(H)P(L) = (1/2)*(1/3)=1/6
Regola del prodotto:
Quando gli eventi A e B sono indipendenti P(A B) =P(A)P(B)
ATTENZIONE! Due eventi indipendenti NON sono sempre mutuamente esclusivi: se lo fossero, la loro probabilità congiunta
P(A B)
sarebbe sempre = 0.
Esempi
Esempio dei due sacchetti con palline rosse e bianche
Probabilità condizionata
Torniamo al diagramma di Venn che mostra gli studenti che fanno tiro con l'arco (A) e quelli che fanno Badminton (B).
Se sappiamo che un particolare studente fa badminton, in che modo questo fatto condiziona la probabilità che faccia anche tiro con l'arco?
Nell'esempio in esame 30 studenti fanno badminton; di questi 16 fanno anche tiro con l'arco.
La probabilità che uno studente faccia tiro con l'arco, dato per conosciuto che fa già il badminton si scrive P( A| B) e si legge "P di A dato B".
Ricordiamo la definizione di probabilità come rapporto tra casi favorevoli e casi totali. I casi totali qui sono tutto l’insieme B e si vede come n(B) = 16 + 14 =30. Mentre i casi favorevoli sono 16, cioè P(A B)
Quindi P(A|B) = n(A B)/n(B) = 16/30 = (16/100) / (30/100) = P(A
B)/P(B)
Riassumendo, P(A|B) = P(A B)/P(B)
formula nota nota anche come Teorema di Bayes
Se A e B sono indipendenti, P(A|B) = P(A), P(B|A) = P(B) perchè l'evento B non influenza l'evento A.
Riscrivendo la formula in altro modo, si ha
P(A B)=P(A|B)P(B), ma se A e B sono indipendenti ritroviamo la formula del prodotto
P(A B)=P(A)P(B)
La tabella seguente mostra il numero di giocatori di ping pong destrorsi e mancini in un campione di 50 maschi e femmine.
Un giocatore di ping-pong è stato selezionato a caso dal gruppo. Trovare la probabilità che il giocatore sia:
a) maschio e mancino, b) destrorso,
c) destrorso, sapendo che il giocatore selezionato è di sesso femminile.
La tabella rappresenta lo Spazio campione.
a) P(Uomo Mancino) = P(Uomo|Mancino)P(Mancino) = 5/7 * 7/50 = 5/50 = 10%
=P(mancino|uomo)P(uomo) = 5/37* 37/50 = 5/50 = 10%
b) P(destrorso)=n(destrorsi)/n(totali) = 43/50 = 86%
c) P(destrorso|donna) = 11/13 = P(destrorso donna)/P(donna) = (11/50) /(13/50) = 11/13
Diagrammi ad albero
I diagrammi ad albero sono utili per problemi in cui si verifica più di un evento. A volte risulta più facile usare questi diagrammi piuttosto che elencare tutti i possibili risultati (compilazione dello Spazio campione).
E' importante distinguere 2 tipi di problema: quelli con reimmissione e quelli senza reimmissione.
Problemi con reimmissione (replacement) ed eventi ripetuti
Questo tipo di problemi riguarda la variazione o meno dello Spazio campione. Tipico è il caso dell'estrazione di carte da un mazzo: quando cerco la probabilità nell'estrazione di due carte da un mazzo, il risultato cambia se estraggo una carta e poi la re-immetto nel mazzo, oppure non lo faccio; con un mazzo di 52 carte lo Spazio campione è di 52 carte nel primo caso (con reimmissione), nel secondo diventa di 51 carte (senza reimmissione). Inoltre nel primo caso i due eventi sono indipendenti, nel secondo no, perchè lo Spazio campione viene modificato.
Esempio "senza reimmissione"
La probabilità che Samuel, un appassionato membro della scuola tiro con l'arco Club, colpisca il bersaglio (bullseye) è 0,8. Samuel fa due tiri. Supponiamo che il successo con ogni tiro sia indipendente dal tiro precedente. Rappresentiamo queste informazioni su un diagramma ad albero e troviamo la probabilità che Samuel colpisca (Hit):
a) 2 volte il bersaglio
b) soltanto un bersaglio, ossia che ne manchi (Miss) uno
c) almeno un bersaglio
La prima sezione del diagramma ad albero rappresenta il primo tiro di Samuel. Può centrare (HIT) o mancare (MISS) il bersaglio. La probabilità che lo manchi è 1 – 0,8 = 0,2.
Al secondo tiro
di nuovo può centrare (HIT) o mancare (MISS) il bersaglio.
Ci sono quindi 4 possibili risultati di questo “esperimento”:
- un hit seguito da un hit (H e H)
- un hit seguito da un miss (H e M)
- un miss seguito da un hit (M e H)
- un miss seguito da un miss (M e M)
a) Dal momento che il primo tiro non può influenzare il secondo (o almeno si assume che sia così, per semplicità) possiamo moltiplicare le probabilità (regola del prodotto). Moltiplicando lungo i primi due rami otteniamo P(H and H).
b)
Solo un HIT potrebbe venire dal successo sul primo tiro dal successo sul secondo tiro.
Questi due eventi
(H e M) e (M e H) sono reciprocamente esclusivi: non possono accadere entrambi allo stesso tempo. Quindi moltiplichiamo le probabilità lungo ogni ramo attinente (poichè ancora una volta gli eventi sono indipendenti) e poi le sommiamo (poiché i
2 risultati sono reciprocamente esclusivi).
C) Qui abbiamo
bisogno di 1 - P (mancare il bersaglio entrambe le volte). Quindi abbiamo 1 - P(M e M)
Inseriamo il caso dei problemi senza reimmissione nel seguente riassunto:
Esempio riassuntivo
Consideriamo una scatola che contiene 3 schede (marble) rosse (R), 2 blu (B) e 1 gialla (Y). Se peschiamo due schede, possiamo farlo:
- Con reimmissione della prima scheda estratta
- Senza reimmissione della prima scheda estratta
Conclusione della seconda parte
Abbiamo passato in rassegna le principali regole che riguardano la probabilità. Nell'ultima parte vedremo un'accenno di impostazione più generale con l'introduzione delle varibili casuali e relative funzioni, argomento che riguarda più da vicino anche le TLC.