Test esatto di Fisher
Il test esatto di Fisher (o test di Fisher-Yates, test di Fisher-Irwin, test esatto del chi²[1]) è un test per la verifica d'ipotesi utilizzato nell'ambito della statistica non parametrica in situazioni con due variabili nominali dicotomiche e campioni piccoli. Porta il nome del suo ideatore Ronald Fisher.
Questo test non parametrico è usato per verificare se i dati dicotomici di due campioni riassunti in una tabella di contingenza 2x2 siano compatibili con l'ipotesi nulla (H0) che le popolazioni di origine dei due campioni abbiano la stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano dovute semplicemente al caso.
Se i campioni sono sufficientemente grandi, e nessuna cella ha un valore inferiore a 5, allora si può usare il test chi quadrato con 1 grado di libertà. Mentre quest'ultimo test è esatto solo asintoticamente per dimensioni molto grandi dei campioni, il presente test proposto da Fisher è, come dice il nome, sempre esatto.
Il test esatto di Fisher richiede di avere due variabili nominali divise ciascuna in due sole categorie. P.es. la prima variabile potrebbe essere il "sesso" con le due categorie "donna" e "uomo" e la seconda variabile potrebbe essere "segue una dieta" con le due categorie "sì" e "no". Si ipotizza in questo caso che la percentuale di uomini che segue una dieta sia uguale alla percentuale tra le donne. I dati potrebbero essere i seguenti:
uomini | donne | totale | |
in dieta | 1 | 9 | 10 |
non in dieta | 11 | 3 | 14 |
totale | 12 | 12 | 24 |
Questi dati non sono idonei ad essere analizzati con il test chi quadrato in quanto il valore atteso è in alcune celle al limite (5 secondo alcuni, 10 secondo altri).
Per descrivere il test di Fisher è utile introdurre la seguente notazione, nella quale le lettere a, b, c e d indicano i valori nelle celle e n è la somma totale. La tabella di contingenza verrebbe descritta così:
uomini | donne | totale | |
in dieta | a | b | a+b |
non in dieta | c | d | c+d |
totale | a+c | b+d | n |
Ronald Fisher dimostrò che la probabilità di ottenere tali valori (vincolati alle somme di riga e colonna realmente osservati) segue la variabile casuale ipergeometrica ed è pari a:
Questa formula dà le probabilità esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d, b+d) qualora fosse vera l'ipotesi nulla sopra enunciata.
Per verificare se i valori osservati sono eccessivamente diversi da quanto previsto dall'ipotesi nulla, si sommano le probabilità di quanto osservato e di tutti i casi ancora più estremi. Nel nostro esempio l'unico caso ancora più estremo è dato da:
uomini | donne | totale | |
in dieta | 0 | 10 | 10 |
non in dieta | 12 | 2 | 14 |
totale | 12 | 12 | 24 |
Per la prima tabella la probabilità è
mentre per la seconda
sommando si ottiene:
- p = p0 + p1 = 0,00138 = 0,14%
il che vuol dire:
- se
- l'ipotesi nulla è vera
- allora
- solo in 14 esperimenti su 10.000 si otterrebbero valori così discordanti tra uomini e donne.
Questo è il risultato del test con l'ipotesi alternativa a una coda. Il test applicato all'ipotesi alternativa a due code, indicherebbe una probabilità del 0,002759 (0,28%).
Essendo il calcolo spesso molto laborioso, si ricorre solitamente a tavole con i valori già precalcolati oppure al calcolatore, per esempio usando software applicativi per la statistica.
Note
[modifica | modifica wikitesto]- ^ Fisher-Yates test ; Fisher-Irwin test ; Fisher exact test ; exact chi-squared test, su isi.cbs.nl. URL consultato il 10 aprile 2013 (archiviato dall'url originale il 25 luglio 2009).