Dubbio calcolo probabilità per Data Mining

Analisi, geometria, algebra, topologia...

Moderatori: Foto UtentePietroBaima, Foto UtenteIanero

Avatar utente
Foto Utentefesem
0 2
Messaggi: 18
Iscritto il: 18 giu 2008, 19:31
0
voti

[1] Dubbio calcolo probabilità per Data Mining

Messaggioda Foto Utentefesem » 12 nov 2010, 0:43

Ciao a tutti. Sto avendo alcuni problemi a formalizzare l'azione di un disturbo su un set di elementi. Mi spiego meglio: supponiamo che "I" sia un insieme universo di oggetti, I={A,B,C,D,E} e che sia definito un insieme di alcuni suoi sottogruppi (o transazioni come vengono chiamate in Data Mining), ad esempio K=( {A,B,C}, {A,D}, {E}, {A,B,D} ). Una richiesta classica dei problemi di data mining è di calcolare il supporto di un certo elemento (ad esempio {A,D}) in K, ossia la quantità di volte che questo elemento compare all'interno delle transazioni in relazione al numero totale di transazioni(ad esempio per {A,D}, riferendosi a K, è 2/4). Il mio problema è il seguente: supponendo di avere un insieme di sottogruppi K0 identico a K, ma in cui ogni elemento (lettera) ha una probabilità 'p' (uguale per tutti) di venire eliminato, come posso trovare una relazione che mi permetta di calcolare il supporto di {A,D} nel nuovo insieme? Ad intuito il nuovo supporto sarà minore, e legato sia alla probabilità p sia alla dimensione dell'elemento da ricercare, ma la formalizzazione matematica mi sfugge. Consigli o suggerimenti?

Avatar utente
Foto Utentefesem
0 2
Messaggi: 18
Iscritto il: 18 giu 2008, 19:31
0
voti

[2] Re: Dubbio calcolo probabilità per Data Mining

Messaggioda Foto Utentefesem » 12 nov 2010, 12:02

Per adesso sono arrivato alla conclusione che la possibilità di ritrovare lo stesso elemento ({A,D} riferendosi all'esempio precedente) in una transazione in K0 è data da (1-p)^|S|, ma non riesco a trovare il modo di risalire al supporto. Dite che calcolare il valore atteso di (1-p)^|S| possa essere una soluzione?

Avatar utente
Foto Utentefesem
0 2
Messaggi: 18
Iscritto il: 18 giu 2008, 19:31
0
voti

[3] Re: Dubbio calcolo probabilità per Data Mining

Messaggioda Foto Utentefesem » 13 nov 2010, 11:48

Ok, ho ricavato che il valore atteso del nuovo supporto è dato da E=(1-p)^|S|*supporto_originale. Adesso ho una domanda un po' più pratica: qual è secondo voi il metodo migliore per calcolare la probabilità che il nuovo supporto sia maggiore di una certa soglia, supponendo di avere tutti i dati (ossia numero di transazioni, p, supporto iniziale, dimensione di S, e soglia)? Ad esempio se ho un set D di 1000 transazioni, con supporto di S=110, p=0.2, |S|=10, qual è la possibilità che il nuovo supporto in D0 sia maggiore di 0.1 (dovrebbe essere abbastanza bassa a occhio)?


Torna a “Matematica generale”