Transcript estimare i
Considerăm o problemă ce constă în estimarea unei componente continue, A, necunoscută, având la dispoziţie N eşantioane de date x[n], cu repartiţie gaussiană (normală) identic distribuite şi independente statistic (IID). Modelul de semnal este deci x n A wn; n 0,1,..., N 1 x 0 , x 1 ,..., x N 1 Prin măsurare repetată se obţin valorile eşantioanelor x[n] din figură. Se observă că ele sunt afectate de zgomot A 1 2 0,15 , 2 . Fig. 1.1 Eşantioanele rezultate în urma măsurării unei componente continue afectate aditiv de un zgomot normal, w, de medie nulă şi dispersie 2 0,15 2 Zgomotul în timp discret, w[n], provine din eşantionarea unui semnal aleator gaussian w(t) cu evoluţia în timp şi repartiţia în amplitudine arătate în figură Reamintim că densitatea de repartiţie (probabilitate) a eşantioanelor de zgomot este 2 w[n] 1 p w n exp ; n 0,1,..., N 1 2 2 2 sau, simbolic, se notează w n N 0, 2 ; n 0,1,..., N 1 Deoarece media eşantioanelor de zgomot, w[n], este nulă E w n 0 media datelor x[n] este A, aşa cum rezultă din următoarele, în care se ţine seama de liniaritatea operatorului de mediere E E x n E A w n E A E w n A 0 A; n 0,1,..., N 1 Dispersia datelor x[n] se calculează aplicând definiţia Disp x n E x n E x n E w n ; 2 2 E x n A 2 2 n 0,1,..., N 1 Datele, x[n], au o repartiţie gaussiană, deoarece rezultă din zgomotul gaussian w[n], printr-o transformare liniară, mai precis afină, x[n]=A+w[n]. Aşa cum se vede din histograma din figură, datele sunt centrate pe A şi se plasează (în mare majoritate) în intervalul (A3, A3) Datele x[n] fiind gaussiene, cu media şi dispersia cunoscute, putem da expresia densităţii de repartiţie ( x[n] A)2 1 p x n ; A exp ; n 0,1,..., N 1 2 2 2 sau se noteză simbolic x n N A, 2 ; n 0,1,..., N 1 Ne punem problema găsirii unei modalităţi de a găsi, din datele cunoscute, o valoare care să aproximeze cât mai bine valoarea componentei continue, A. Este vorba de a găsi o formulă de aproximare (un estimator) respectiv o valoare numerică (un estimat). “Bunul simţ tehnic”, educat ne indică media eşantion ca un estimator bun al componentei continue A 1 x N N 1 x n n 0 Media acestui estimator se calculează uşor, deoarece E este un operator liniar 1 N 1 1 N 1 1 N 1 E x E x n x n A A N n0 N n0 N n0 Calitatea unui estimator este, până la urmă, dată de dispersia valorilor furnizate, aşa cum vom arăta mai încolo. Pentru calculul dispersiei se aplică definiţia, ţinând seama de proprietăţile operatorului de mediere E Disp x E x E x 2 1 E N N 1 1 x n A n 0 N 1 N 1 N 1 2 E 2 x n x k 2 Ax A N n0 k 0 1 N 1 N 1 2 E x n x k 2 AE x A2 N n0 k 0 N 1 x k A k 0 Eşantioanele de zgomot se prelevează dintr-un zgomot alb analogic şi deci sunt necorelate. Chiar dacă zgomotul analogic ce se eşantionează pentru a obţine w[n], est unul colorat, pasul de eşantionare se alege mai mare decât timpul de corelare, aşa că zgomotul w[n] are eşantioanele necorelate 2 n k E w n w k ; n, k 0,1,..., N 1 0 n k Calculăm acum intercorelaţia între eşantioanele de semnal x[n] E x n x k E A w n A w k E A2 Aw n Aw k w n w k A2 AE w n Aw w k E w n w k A2 E w n w k Se ajunge la concluzia că 2 2 A , n k E x n x k 2 A nk , Rezultă că dispersia estimatorului este de N ori mai mică decât dispersia datelor, ceeace este bine, deoarece împrăştierea valorilor calculate pentru A este de N ori mai redusă decât împrăştierea datelor masurate, x[n] 1 Disp x 2 N N 1 N 1 1 2 A 2 N n 0 k 0 A2 2 N N 1 2 2 2 2 A A n 0 A2 2 N Repartiţia estimatorului este normală deoarece el este o combinaţie liniară de termeni cu repartiţie normală. A fost deci suficient să calculăm media şi dispersia ca să afirmăm că x 2 N A, N Din figuri se poate vedea limpede cum împrăştierea valorilor rezultate prin mediere pe N=100 eşantioane x[n] este de 10 ori mai mică decât împrăştierea datelor. Măsura împrăstierii este dată de deviaţia standard, . Când scade dispersia scade şi abareterea standard. Este deci de dorit să avem estimatori cu dispersia cât mai redusă! Se mai poate observa că, în medie, estimatorul reproduce valoarea adevărată A=500 Este prezentat un alt şir de experimente pentru medierea pe N=100 eşantioane pentru care se calculează o valoare medie. Se repetă procedura de 1000, tot pe câte 100 de eşantioane, rezultînd 1000 de valori medii. Se arată histograma unuia din şirurile de 100 de date ce se mediază, având media A=3 şi abaterea standard 1. Cele 1000 de medii urmează o repartiţie gaussiană cu media A=3 şi abaterea standard 0.1, mai redusă Am stabilit deci că media eşantion este un estimator “bun” pentru componenta continuă A şi notăm estimatorul cu simbolul “căciulă” 1 ˆ A N N 1 x n n 0 Formularea matematică a problemei de estimare Se presupune că datele x[n], ce constituie un semnal în timp discret, depind de un parametru necunoscut ca valoare, q. Având la dispoziţie datele, dorim să găsim un estimat (o valoare numerică) pentru q, sau un estimator, sub forma unei relaţii de tipul: qˆ f x 0 , x 1 ,..., x N 1 unde densitatea de repartiţie mutuală a eşantioanelor de date, cunoscută ca formă, este şi ea dependentă de parametrul necunoscut q. p x 0 , x 1 ,..., x N 1 ;q Un exemplu în care semnalul util s[n] depinde de doi parametri necunoscuţi, A şi B. Modelul semnalului util, dependent de A şi B, doi parametri necunoscuţi s n A Bn ; n 0,1,..., N 1 şi modelul semnalului măsurabil în care w[n] este un zgomot alb gaussian x n s n wn A Bn wn ; n 0,1,..., N -1 Datele x[n] se obţin din zgomotul gaussian w[n] printr-o transformare liniară şi au în consecinţă tot o repartiţie normală. Este suficient deci să determinăm media şi dispersia datelor ca să putem scrie densitatea de repartiţie E x n E A Bn w n A Bn E w n A Bn Disp x n E x n E x n 2 E w n 2 2 Se ţine seama de faptul că eşantioanele de semnal sunt statistic independente aşa că densitatea de probabilitate mutuală a celor N eşantioane, dependentă de parametrii necunoscuşi A şi B este x n A Bn 2 N 1 1 p x 0 , x 1 ,..., x N 1 ; A, B exp 2 2 n 0 2 1 2 N 1 exp 2 2 N 1 x n A Bn n0 2 Putem recurge la o notaţie vectorială atât pentru date, x, cât şi pentru parametrii necunoscuţi, q x x 0 x 1 ... x N 1 θ A B T T Densitatea mutuală de repartiţie a datelor, dependentă de parametii necunoscuţi dar determinişti (nealeatori) A şi B, este p x; θ 1 2 N 1 exp 2 2 N 1 x n A B n0 2 Dacă parametrii necunoscuţi sunt determinişti se practică, de obicei, separarea lor prin caracterul semicoloană ; adică p x; θ Dacă sunt ei înşişi aleatori, se recurge la repartiţia mutuală dateparametrii, exprimabilă în funcţie de probabilitatea apriorică şi condiţionată p x, θ p x θ p θ Se pune problema să definim calitatea unui estimator. Avem în vedere cazul nivelului continuu, A, afectat de un zgomot alb gaussian, cu realizarea din figură Putem estima A pe baza unui singur eşantion de date, x[0] A x 0 Media sa este, evident, A E A E x 0 A E w 0 A dar dispersia sa este aceeaşi cu a datelor Disp A Disp x 0 2 Vom căuta estimatori nedeplasaţi (fără eroare sistematică) cu dispersia minimă. Nedeplasarea se justifică imediat. Măcar în medie estimatorul să dea valoarea adevărată. Cât priveşte dispersia vom arăta avantajele dispersiei mici. Pentru estimatorul bazat pe un singur eşantion valorile generate sunt, în peste 99% din cazuri în ecartul A 3 , A 3 0,55, 1,45 în timp ce în cazul medierii pe N=100 eşantioane, ecartul este A 3 / N , A 3 / N 0,995, 1, 045 Un estimator f(x) se spune că este nedeplasat dacă valoarea sa medie este egală cu valoarea adevărată a parametrului necunoscut qˆ f x E qˆ q ; q medierea statistică fiind făcută relativ la densitatea de repartiție mutuală a datelor E qˆ f x p x,q dx; dx dx 0 dx 1...dx N 1 Există și o clasă de estimatori cu deplasare (cu eroare sistematică) pentru care E qˆ q b q În cazul acestor estimatori se urmărește să se minimizeze nu dispersia ci eroarea medie pătratică (MSE) definită prin MSE qˆ E qˆ q 2 Se poate stabili o relație între dispersia și eroarea medie pătratică Disp qˆ E qˆ E qˆ E qˆ q E qˆ q 2 2 E qˆ q b q 2 2b q qˆ q b 2 q 2b q E qˆ q b2 q 2 MSE qˆ b 2 q MSE qˆ 2b q q b q q b 2 q În final rezultă că MSE qˆ Disp qˆ b 2 q În domeniul măsurărilor dispersia rezultatelor de măsurare definește precizia, în timp ce deplasarea, b, (eroarea sistematică) definește așa numita acuratețe.