(Tipi di test) - Dipartimento di Ingegneria dell`informazione e

Download Report

Transcript (Tipi di test) - Dipartimento di Ingegneria dell`informazione e

Unità 6

Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione

TEST PARAMETRICI E NON PARAMETRICI

L’applicazione di un dato test a una serie di dati

tipo di distribuzione della variabile casuale dipende dal

che stiamo studiando.

Agli effetti pratici possiamo suddividere i test in due categorie: 

test parametrici

, 

test non parametrici

Nella statistica parametrica si fanno uso di modelli matematici che necessitano di ipotesi a priori sulle caratteristiche della popolazione o comunque di ipotesi più restrittive di quelle della statistica non parametrica .

Nell’analisi di dati biomedici ci possiamo trovare di fronte a:

dati proventi da distribuzioni gaussiane (o molto simili ad esse);

dati provenienti da distribuzioni diverse dalla curva di Gauss.

Nel

caso A

preferibilmente (rispettando determinate

test parametrici

, mentre nel obbligatorio applicare

test non parametrici

ipotesi)

caso B

si utilizzano è in generale

Si noti che parametrici

, mentre , nel

nel caso B caso A

è in generale

errato applicare test

si possono applicare

test parametrici o non parametrici

Tuttavia

nel caso

A è

preferibile impiegare test parametrici

poiché, a parità di numerosità del campione, questi sono molto

più

potenti

dei corrispondenti test non parametrici, permettendo così di evidenziare differenze significative con campioni meno numerosi rispetto ai corrispondenti test non parametrici.

OSSERVAZIONE SUI TEST PARAMETRICI

Ogni test statistico parametrico impone talune condizioni sulla distribuzione dei parametri della popolazione dalla quale è stato estratto il campione usato nella ricerca.

Molte volte (sbagliando) si suppone che queste condizioni siano valide senza effettuare nessuna verifica.

La validità dei risultati ottenuti applicando un test parametrico, dipende dalla validità dei presupposti.

Un test statistico non parametrico è invece basato su un modello che specifica solo condizioni molto generiche e non richiede condizioni relative alla forma specifica della distribuzione della popolazione da cui è stato estratto il campione.

Esempio

Il test

t di Student per il confronto di due campioni indipendenti

è un classico esempio di test parametrico che descriveremo in seguito.

Esso richiede i seguenti presupposti: 

i dati seguono in modo accettabile una distribuzione normale;



i dati sono indipendenti;



le deviazioni standard per le due popolazioni sono uguali (in generale diciamo che il rapporto fra la deviazione standard maggiore e quella minore non è maggiore di 2).

TEST PER LA VERIFICA DELLE NORMALITÀ

test parametrici

dall’

ipotesi che

(come il test

le distribuzione gaussiana.

di Student) partono

osservazioni seguano una

In questo caso tutta l’informazione è contenuta nella media e nella deviazione standard  della popolazione in esame.

 Tuttavia, quando si considerano dati reali, ipotesi sia completamente verificata: è raro che tale

i dati possono essere essenzialmente gaussiani ma presentare occasionali outliers, oppure possono non essere affatto gaussiani

È quindi necessario avere a disposizione procedimenti per verificare, per un dato set di osservazioni, la ragionevolezza dell’assunzione di normalità.

Un modo grossolano scostamenti dalla per valutare qualitativamente forti normalità è quello di analizzare visivamente l’istogramma di frequenza dei dati raccolti .

È chiaro che chiaramente un istogramma in cui si evidenziano più mode oppure fortemente asimmetrico a destra o a sinistra suggerisce che i dati che si vogliono analizzare non seguono una distribuzione gaussiana.

Un tale approccio non porta però a nessuna informazione quantitativa precisa ed è da considerarsi mediocre .

Il modo più classico osservazioni univariate per valutare la è tramite normalità di l’analisi dei coefficienti di asimmetria e di curtosi i cui valori critici al 5% e all’1% sono riportati nei manuali di statistica.

Anche il test del

2 (che descriveremo in seguito) può essere impiegato per valutare se una distribuzione di frequenze è da considerarsi ragionevolmente di tipo gaussiano oppure no.

Con questo test è possibile confrontare le frequenze osservate nel campione in esame con quelle attese nell’ipotesi di distribuzione gaussiana.

Shapiro e Wilks hanno proposto un differente test globale che ha buone proprietà di potenza , essendo sensibile ad un’ampia varietà di alternative alla normale.

Nel lavoro originale essi hanno riportato i valori critici della loro statistica per una numerosità del campione

 50 .

Per

>50 D’Agostino ha proposto un test alternativo, dando anche una tavola dei valori critici del suo test per dimensioni campionarie fino a 1000 .

Un test largamente impiegato, che descriveremo dettaglio, è il

test di Kolmogorov-Smirnov

più in Per comprendere Kolmogorov-Smirnov il funzionamento del test di è necessario definire prima il concetto di

funzione di ripartizione

FUNZIONE DI RIPARTIZIONE

In precedenza abbiamo visto che la distribuzione variabile di aleatoria probabilità di una continua

può essere rappresentata con il

della grafico densità di probabilità f(x)

in funzione di x, come in figura.

funzione di ripartizione

anche

funzione di

(detta

distribuzione cumulativa

o brevemente

funzione di distribuzione

) di una variabile casuale X è definita come

F(x) = P(X ≤x) con – ∞ <x< ∞

Essa esprime perciò la probabilità che la variabile aleatoria assuma valori uguali o inferiori a x.

Funzione di densità di probabilità

f(x)

0 Funzione di ripartizione

F(x)

1 0

x x

F(x) rappresenta l’area sottostante alla curva densità di probabilità f(x), dall’estremo sinistro della curva (che può essere a –∞) fino al valore x.

Essa è quindi una funzione monotona non decrescente che va da 0 a 1.

Funzione di densità di probabilità

f(x) x

0 La funzione corrisponde alla di ripartizione che densità di probabilità in figura in alto a destra è, ad esempio, quella riportata in figura in basso a destra.

N.B.

essere La funzione di ripartizione definita, in modo del può tutto analogo a quanto fatto sopra, anche per una variabile aleatoria discreta.

Funzione di ripartizione

F(x)

1 0

Test di Kolmogorov-Smirnov

Molti test utilizzati in statistica sono test parametrici. Questi test sono basati su assunzioni importanti, quali un’adeguata dimensione campionaria e la distribuzione normale della variabile di interesse.

Il test di Kolmogorov-Smirnov è un test non parametrico che verifica la forma delle distribuzioni campionarie.

È applicabile a dati per lo meno ordinali perché richiede la costruzione di una funzione di ripartizione.

Questo test è

comunemente usato per confrontare dati sperimentali con distribuzioni attese

ed in particolare per testare se la distribuzione in studio differisce da una distribuzione teorica, per esempio, normale.

Sia

una variabile casuale continua con funzione di ripartizione

F(x)

Il test di Kolmogorov-Smirnov su un unico campione

per la

bontà dell’adattamento

. Esso verifica è un

test

cioè che la variabile casuale

abbia funzione di ripartizione uguale ad una data funzione di ripartizione

0 (

), ossia:

H0: F(x) = F 0 (x), per ogni x

contro

H1: F(x ) ≠ F 0 (x), per qualche x.

Sia

= (

1 , . . .

x N

) un campione casuale di ampiezza dalla variabile casuale

tratto Poiché il problema riguarda la funzione di ripartizione della variabile casuale

, è intuitivo basare la statistica test sulla funzione di ripartizione empirica.

Dette quindi

(1), . . . .

(

) le

funzione di ripartizione empirica

osservazioni ordinate,

sarà definita come la

 0

(

) 

 

1 se



( 1 ) se

(

) 



(

 1 ) se



(

) La

(

) è uno

stimatore non distorto

(

statistica test di Kolmogorov-Smirnov

è data da

D N

   max 

 

(

) 

0 (

) È cioè definita come

la massima differenza

assoluto )

tra la funzione di ripartizione empirica funzione di ripartizione teorica

0 (

) .

( in valore

(

) e

L’idea del test di Kolmogorov-Smirnov è piuttosto semplice e intuitiva.

(

), Poiché

(

) stima la

vera

funzione di ripartizione è logico basarsi su una qualche

distanza

tra

(

) e

0 (

) .

(

) e

0 ( mentre la si rifiuta se

)

sono (

) e

vicine

, si accetta

0 (

) sono l’ipotesi nulla,

lontane

Il valore di D

critici riportati così calcolato è confrontato con i valori nella corrispondente tabella, che dipendono dal livello di significatività scelto e dalla numerosità dei campioni considerati.

In altre parole l’ipotesi nulla viene rifiutata ad un livello di significatività α quando il valore calcolato di

D N

supera il corrispondente valore riportato nella tabella dei quantili.

Nella sua forma originale il test di Kolmogorov-Smirnov si applica quando

0 (

) è

indipendentemente dai dati

completamente determinata che stiamo studiando.

In questo caso i valori critici di

D N

successiva Tabella 1. Di solito, situazione.

sono quelli riportati nella però, non è questa la 16

Testando se una serie di osservazioni si adatta ad una distribuzione gaussiana,

la particolare distribuzione è quella avente media e deviazione standard stimate dai dati

In questo caso si usa una versione modificata del test di Kolmogorov-Smirnov, dovuta a H.W. Lilliefors.

Il test statistico, ovvero il valore di esattamente come prima, ma

D N

, è calcolato

i valori critici sono diversi

La tabella da usare è la Tabella 2

, che fornisce i valori critici per

fino a 30. (Se, per

<30, il valore critico corrispondente ad un particolare

non è presente in tabella, si può usare un’interpolazione lineare per ricavarlo).

In generale, quando

>30 i valori critici per il test di Kolmogorov-Smirnov- Lilliefors bilaterale per

= 0,10; 0,05 e 0,01 sono rispettivamente 0 , 805 /

; 0 , 886 /

e 1 , 031 /

Esempio di calcolo di una funzione di ripartizione empirica

Si supponga di avere un campione di 20 individui sui quali variabile aleatoria

è stata acquisita la e che i valori misurati siano quelli di seguito riportati

1,55; 0,08; 0,70; 6,98; 0,42; 3,20; 0,95; 0,17; 1,37; 50,57; 0,24; 0,34; 0,50; 0,94; 1,26; 0,38; 0,10; 1,75; 0,15; 0,49

Per calcolare la funzione di ripartizione empirica si ordinano le osservazioni in ordine crescente. Ricordando che la che quindi

(

) 

/ 20  funzione di ripartizione empirica 0 , 05  numerosità del campione (

per

(

) 



N x

( )

è pari a 20 e  1 ) , la sarà calcolata come nella seguente tabella. Il suo grafico sarà pertanto quello in figura sotto.

Funzione di ripartizione empirica

Esempio di applicazione del test di Kolmogorov-Smirnov-Lilliefors

Si supponga che la funzione di ripartizione empirica calcolata (utilizzando la procedura vista precedentemente) su un campione con numerosità

pari a 53 osservazioni sia la linea a gradini mostrata in figura sotto.

Sulla base del valore medio e della deviazione standard delle osservazioni campionarie si supponga di avere ottenuto la funzione di ripartizione teorica

0 (

) corrispondente alla distribuzione gaussiana (linea continua in figura).

Il valore della statistica del test funzioni di ripartizione ed è la massima differenza verticale tra le due è uguale a 0,13.

Esso

supera il valore critico del test

al livello del 5% può quindi ( 0 , 122

rigettare

 0 , 886 / 53 ). Si

l’ipotesi nulla con p < 0,05 .

In altre parole

che i valori vi non è evidenza (p < 0,05) siano distribuiti in modo gaussiano .

Osservazione: si noti che anche il grafico rivelava un’asimmetria positiva.