Transcript mtz2.ppt
Matematyczne techniki zarządzania - 31 ZMIENNE LOSOWE CIĄGŁE Są to zmienne, które mogą przyjmować wartości z nieprzeliczalnego zbioru wartości (przy założeniu, że będą mierzone z wystarczającą dokładnością). Zmienna ciągła jest opisywana dwoma funkcjami: • funkcją gęstości f(X) • dystrybuantą F(X) 0 3 4 4 5 5 4 6 6 7 8 8 dystrybuanta 9 9 6 10 5 11 funkcja gęstości P(X=a) = O F (X ) P(X a) a F ( X ) f ( x ) dx E ( X ) xf ( x ) dx Funkcja gęstości f (a ) P ( X a ) f(a) 2 V ( X ) x E ( X ) f ( x ) dx 3 4 5 6 7 8 9 Wartości zmiennej X a 10 11 12 13 2 12 Matematyczne techniki zarządzania - 32 Interpretacja wykresu • całe pole pod funkcją gęstości ma powierzchnię równą 1 • wartość funkcji dystrybuanty zmienia się wraz z wartością x w sposób pokazany strzałką (prawa granica pola przesuwa się) • znajomość funkcji dystrybuanty jest potrzebna do rozwiązywania wszelkich zadań: P(X<a), P(X>a), P(7<X<11) itd. Najważniejsze rozkłady ciągłe: • 2 (chi kwadrat) 0 3 4 4 5 5 • Erlanga 4 6 6 7 8 8 dystrybuanta 9 9 6 10 5 11 funkcja gęstości • Fishera-Snedecora (F) • logarytmiczno-normalny • prostokątny • Studenta (t) • trójkątny • Wallace’a-Snedecora (R) • Weilbulla • wykładniczy Funkcja gęstości • normalny (Gaussa) (z) f(a) 3 4 5 6 7 8 9 Wartości zmiennej X a 10 11 12 13 2 12 Matematyczne techniki zarządzania - 33 Rozkład prostokątny 1. średni czas oczekiwania 2. jego odchylenie standardowe 3. szansę czekania dokładnie 3 min 4. szansę czekania około 3 min Funkcja gęstości f(X) Nosi on też nazwę rozkładu równomiernego lub jednostajnego (amodalnego). Jego funkcja gęstości ma stałą wartość 1 f (X ) ba w przedziale (a, b), natomiast dla pozostałych wartości X jest równa 0. 0 1 2 3 4 5 7 8 2 6 ab 0,125 0,125 0,125 0,125 0,125 (0,125 b a )0,125 0,125 0,125 E(X ) V (X ) 2 12 Przykład 11. Autobus linii 144 0,14 jeździ regularnie co 8 minut. Czas 0,12 oczekiwania na autobus (zmienna 0,1 X) ma więc rozkład prostokątny 0,08 (rysunek). Oblicz: 0,06 a=0 b=8 0,04 0,02 0 0 2 4 6 Wartości zmiennej X 5. szansę czekania mniej niż 3 min 6. szansę czekania więcej niż 3 min 7. prawdopodobieństwo, że czas czekania będzie w granicach od trzech do siedmiu minut 8 10 Matematyczne techniki zarządzania - 34 1. średni czas oczekiwania E(X) = 4 min 3. P(X=3)=? 4. P(X3)=? 2. wariancja V(X) =5,33 min2; odchylenie standardowe s = 2,31 min 5. prawdopodobieństwo, że X<3 min odpowiada polu powierzchnia tego pola wynosi 3h, gdzie h = 1/(a—b) =1/8 =0,125 P(X<3) =(3)(0,125) = 0,375; stąd F(X=3) = 0,375 6. prawdopodobieństwo, że X>3 min odpowiada polu powierzchnia tego pola wynosi 5h, czyli (5)(0,125) = 0,625 0 1 2 3 4 5 inaczej: P(X>3) = 1 — 0,125 F(X=3) =1 — 0,375 = 0,625 0,125 0,125 0,125 0,125 0,125 6 0,125 7 0,125 8 0,125 = — P(3<X<7) = 0,875 — 0,375 = 0,5 TAKIE DZIAŁANIA NA WARTOŚCIACH DYSTRYBUANTY UMOŻLIWIĄ NAM ROZWIĄZYWANIE WIELU ZADAŃ! Funkcja gęstości f(X) 7. P(3<X<7) = (7—3)(0,125) = 0,5 = pole Pole to można obliczyć jako różnicę dwu wartości 0,14 dystrybuanty F(X=7)—F(X=3) 0,12 0,1 0,08 0,06 0,04 0,02 0 0 2 4 6 Wartości zmiennej X 8 10 Matematyczne techniki zarządzania - 35 Rozkład trójkątny f(X) Rozkład ten jest dany trzema wartościami zmiennej: a — najmniejsza przewidywana b — najbardziej prawdopodobna c — największa przewidywana dystrybuanta 2 ca funkcja gęstości a Zalety rozkładu b xi c X • łatwy do matematycznego przetwarzania • nadaje się do modelowania wszystkich rozkładów jednomodalnych • stanowi narzędzie porozumienia z osobami nie znającymi statystyki • wykorzystywany do symulacji komputerowej Rozkład normalny Zwany również rozkładem Gaussa lub krzywą dzwonową. Normalny — bo najczęściej spotykany (ludzie, przyroda, technika). Jest to rozkład jednomodalny dany równaniem f (x) 1 2 e ( xm ) 2 2 2 N ( m ; Matematyczne techniki zarządzania - 36 0,45 Rozkład normalny jest dany dwoma parametrami: Funkcja gęstości f(X) 0,4 • wartością średnią m • odchyleniem standardowym WARTOŚĆ ŚREDNIA DECYDUJE O PRZESUNIĘCIU WYKRESU W LEWO LUB PRAWO przegięcia 0,3 0,25 0,2 0,15 0,1 0,05 ODCHYLENIE STANDARDOWE DECYDUJE O SMUKŁOŚCI WYKRESU 0 Wartości zmiennej X Interpretacja rozkładu na przykładzie wzrostu mężczyzn m— m bardzo niscy (mało) 0,45 Funkcja gęstości f(X) punkt 0,35 średni (dużo) 0,4 0,35 m+ bardzo wysocy (mało) 0,3 0,25 TWIERDZENIE CENTRALNE 0,2 0,15 Które zmienne zachowuję się według rozkładu normalnego? 0,1 0,05 0 155 160 165 170 175 180 Wzrost mężczyzn, cm m=175 cm = 5 cm 185 190 195 Te, które kształtują się pod wpływem wielu czynników, z których żaden nie ma charakteru dominującego. Matematyczne techniki zarządzania - 37 Istota twierdzenia centralnego (niezależne regulatory) W przypadku wzrostu czynniki to: dziedziczność z różnych pokoleń, odżywianie, środowisko, choroby, warunki rodzinne itd. 2,15% 0,13% 34,13% 13,59% 1 Funkcja gęstości f(X) Aby rozwiązywać zadania z rozkładu normalnego, musimy korzystać z tablicy dystrybuanty. Tablica została przygotowana dla rozkładu znormalizowanego zmiennej standaryzowanej Z. 0,9 zi xi m 0,8 0,7 N ( 0; 1 ) 0,6 0,5 0,4 X1 = 160 Z1 = -3 X2 = 165 Z2 = -2 ............. .......... X7 = 190 Z7 = +3 0,3 0,2 0,1 -4 -3 0 0 0,2 -2 -1 0 1 2 Zmienna standaryzowana Z 0,4 0,6 0,8 1 POWIERZCHNIA CAŁEGO POLA POD FUNKCJĄ GĘSTOŚCI RÓWNA SIĘ 1 3 1,2 Matematyczne techniki zarządzania - 38 Prawo trzech sigm: w przedziale od (m—3) do (m+3) od —3 do +3 (oś X) (oś Z) mieszczą się praktycznie wszystkie (99,74%) wartości zmiennej losowej o rozkładzie normalnym. Tablice rozkładu normalnego • tablica funkcji gęstości • tablice dystrybuanty SKRYPT s.156 (tab. II) • tablica kwantyli (wartości krytycznych) SKRYPT s.156 (tab. IIa) Tablica funkcji gęstości • służy do budowy wykresu funkcji gęstości (krzywej Gaussa) • do odczytu P(X a) lub P(Z a) Proszę nie mylić tej tablicy z tablicami dystrybuanty; łatwo ją rozpoznać po wartości 0,3989! z 0 ,0 0 ,1 0 ,2 0 ,3 ... 1 ,0 2 ,0 3 ,0 4 ,0 0 3989 3970 3910 3814 ... 2420 0540 0044 0001 1 3989 2 ... ... 9 3973 f(Z) Matematyczne techniki zarządzania - 39 Tablice dystrybuanty (trzy rodzaje): • w przedziale z od —3 do +3: F(z) od 0 do 1 (cała funkcja) • w przedziale z od 0 do +3: F(z) od 0,5 do 1 (połowa funkcji) s.156 • w przedziale z od 0 do +3: F*(z) od 0 do 0,5 (F(z)—0,5) — najbardziej przydatna, bo pola są symetryczne po obu stronach 0 0 ,0 0 0 ,0 0 0 0 0 ,0 3 9 8 ... 0 ,1 9 1 5 0 ,2 2 5 7 ... 0 ,3 4 1 3 0 ,4 3 3 2 0 ,4 7 7 2 0 ,4 9 8 6 5 0 ,4 9 9 9 6 8 3 0 ,0 1 ... ... ... 0 ,0 9 ... 1 to samo pole Funkcja gęstości f(X) Z 0 ,0 0 ,1 ... 0 ,5 0 ,6 ... 1 ,0 1 ,5 2 ,0 3 ,0 4 ,0 0,9 0,8 0,7 * F (Z) 0,6 0,5 0,4 0,3 0,2 0,1 -4 -3 0 0 0,2 -2 -1 0 1 2 Zmienna standaryzowana Z 0,4 0,6 0,8 1 3 1,2 Przy rozwiązywaniu zadań przechodzi się ze zmiennej X na zmienną Z, a następnie z powrotem na zmienną X: x i m z i 4 Matematyczne techniki zarządzania - 40 Przykład 12. Agnieszka, wysoka studentka z WZ, jest na dyskotece wśród studentów N(175; 5). Odpowiedz, jakie jest prawdopodobieństwo, że napotka ona studenta o wzroście: a. około 180 cm b. niższym niż 180 cm c. wyższym niż 180 cm d. w granicach pomiędzy 172,5 i 182,5 cm TO JEST MODEL! e. w granicach pomiędzy 180 i 182,5 cm Funkcja gęstości f(X) 0,45 (a) x1=180 cm m=175 cm 0,4 standaryzacja: z1=(180—175)/5=1 =5 cm 0,35 odczyt z tablicy f. gęstości: f(1)=0,2420 0,3 0,25 P(X 180)=24,2% 0,2 0,15 (a) 0,1 (b) odczyt z tablicy dystrybuanty dla z1=1: 0,05 0 155 F*(1)=0,3413 160 165 170 175 180 185 190 195 Wzrost mężczyzn, cm -3 -2 -1 0 1 2 3 Z P(z<1)=0,5+0,3413=0,8413 P(X<180)=84,13% STOSUJEMY TO SAMO ROZUMOWANIE, KTÓRE WYKORZYSTYWALIŚMY PRZY ZADANIACH Z ROZKŁADU PROSTOKĄTNEGO Matematyczne techniki zarządzania - 41 (c) P(Z>1)=0,5—F*(1)=0,5 —0,3413=0,1587 Funkcja gęstości f(X) 1 0,9 P(X>180)=15,87% F*(1) 0,8 0,7 (d) x1=182,5 cm, x2=172,5 cm 0,6 0,5 z1=(182,5—175)/5=1,5 0,4 (b) 0,3 (c) z2=(172,5—175)/5= —0,5 0,2 0,1 -4 -3 0 0 0,2 -2 -1 0 1 2 Zmienna standaryzowana Z 0,4 0,6 0,8 1 3 4 1,2 F*(1,5)=0,4332 F*(—0,5)=F*(+0,5)=0,1915 P(—0,5<Z<1,5)=0,1915+0,4332=0,6247 P(172,5<X<182,5)=62,47% Funkcja gęstości f(X) 0,45 0,4 0,35 F*(-0,5) F*(1,5) (e) x1=182,5 cm, x2=180 cm 0,3 0,25 z1=(182,5—175)/5=1,5 0,2 z2=(180—175)/5=1 0,15 0,1 F*(1,5)=0,4332 0,05 0 155 160 165 170 175 180 185 Wzrost mężczyzn, cm 190 195 F*(1)=0,3413 P(1<Z<1,5)=0,4332—0,3413=0,0919 (d) (e) P(180<X<182,5)=9,19% Matematyczne techniki zarządzania - 42 Inne zadania tego typu w Skrypcie (s. 54, 72-74), rozkład normalny mają zmienne: błąd pomiaru, wskaźnik inteligencji, zysk z akcji, zużycie energii, trwałość urządzenia, czas wykonywania pracy, wielkość kredytu bankowego, wynagrodzenie pracowników. Przedział ufności, poziom ufności, poziom istotności Uliczka w Neapolu * Przedział ufności jest to przedział, w którym z prawdopodobieństwem 1— znajduje się nieznana wartość zmiennej losowej. Poziom ufności (1—) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w przedziale ufności. Rozpatrujemy prawdopodobieństwo przykrycia węzła przez prześcieradło: • przedział ufności (dg—gg) = szerokość prześcieradła • poziom ufności (1—) = szansa przykrycia węzła • poziom istotności() = szansa nieprzykrycia węzła Poziom istotności () jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej nie znajduje się wewnątrz przedziału ufności. • ustala statystyk • kluczowe w statystyce matematycznej • inne nazwy: margines błędu, poziom krytyczny Matematyczne techniki zarządzania - 43 Przedział ufności dla rozkładu normalnego Przykład 12 cd. Agnieszka postanowiła odrzucić 10% krańcowo niskich i wysokich studentów jako nienadających się do tańca. Określ — jaki przedział wzrostu miała ona na myśli. Przedział ufności może być: Przedział dwustronny • dwustronny Odrzucamy 5% najniższych studentów i 5% 0,9 najwyższych. 1 1,25 0,2 0,391 0,3 0,4 0,5 • lewostronny 0,388 0,38 0,375 0,6 0,36 0,7 0,34 0,8 0,31 • prawostronny Funkcja gęstości f(X) 0,4 0,35 0,3 0,25 0,2 0,15 /2=5% 0,17 Potrzebne do tego obliczenia są odwrotnością obliczeń wykonywanych poprzednio: • przedtem: znaliśmy zi, a szukaliśmy pola 0,1 1—=90% 0,05 0 Wartości zmiennej X dg 0,242 Przyjęliśmy =0,10, czyli /2=0,05, a tym samym (1—)=0,90. Należy znaleźć wartości zmiennej X tworzące stosowny przedział ufności (dg, gg). 0,45 /2=5% 0,275 gg • teraz: znamy pole (1—)/2, a szukamy zi zi= gg=—dg Matematyczne techniki zarządzania - 44 Szukanie wartości zi można wykonywać przy użyciu: • dowolnej tablicy dystrybuanty rozkładu normalnego • tablicy kwantyli (1—) SKRYPT s. 156 (tabl. IIa) Mając (1—)/2 = 0,45, traktujemy tę wartość jako F*(zi) i odczytujemy z tablicy zi = 1,64. Następnie przechodzimy na zmienną X: dg 175 ( 1 , 64 )( 5 ) 166 , 8 cm 0,4 0,35 gg 175 ( 1 , 64 )( 5 ) 183 , 2 cm 0,3 0,25 0,2 0,15 studenci odrzuceni 0,1 0,05 0 155 160 165 170 175 180 185 190 0,45 195 Wzrost mężczyzn, cm Przedział lewostronny Odrzucamy 10% najwyższych studentów. Odczytujemy dla F*(zi)=0,40 wartość zi = 1,28, co daje: dg Funkcja gęstości f(X) Funkcja gęstości f(X) 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 155 160 165 170 175 180 Wzrost mężczyzn, cm gg 175 ( 5 )( 1 , 28 ) 181 , 4 cm 185 190 195 Matematyczne techniki zarządzania - 45 Przedział prawostronny Funkcja gęstości f(X) 0,45 Odrzucamy 10% najniższych studentów. Odczytujemy dla F*(zi)=0,40 wartość zi =—1,28, co daje: 0,4 0,35 0,3 0,25 0,2 dg 175 ( 5 )( 1 , 28 ) 168 , 6 cm 0,15 0,1 0,05 0 155 gg Trzy ważne wartości zi: 160 165 170 175 180 185 190 195 1,28; 1,64; 1,96 Wzrost mężczyzn, cm Rozkład logarytmiczno-normalny Jest to rozkład, który po zlogarytmowaniu zmiennej X staje się rozkładem normalnym. Służy do opisywania tych zjawisk, które oprócz wielu wartości małych i średnich mają również wartości bardzo duże (zanieczyszczenie środowiska, wydajność produkcji, wielkość złóż kopalin użytecznych itd.). f(X) Jednostki-giganty, które zglobalizowały gospodarkę światową: duże złoża węgla, ropy i gazu, wielkie zakłady produkcyjne itp. małe średnie duże bardzo duże X Matematyczne techniki zarządzania - 46 Rozkład wykładniczy f(X) Cechy rozkładu: f ( X ) e • dużo wartości małych x E(X ) (X ) • mało wartości dużych 1 • opisuje czas życia elementów nagle psujących się X • brak pamięci Przykład 13. Prowadząc studia literaturowe nad rozkładem wielkości złóż węglowodorów napotkałem na dziwny przypadek: źródła amerykańskie podawały, że jest to rozkład log-norm, a źródła rosyjskie — że rozkład wykładniczy. Wnioski f(X) ZSRR • chodzi o inne zbiory złóż złoża nie- • zbiór złóż handlowych opłacalne USA III • poszukiwania to gra w okręty (fazy I, II, III i IV) II IV małe • zbiór złóż odkrytych jest próbką niereprezentacyjną I średnie duże bardzo duże X Matematyczne techniki zarządzania - 47 Inne pojęcia związane ze zmienną ciągłą • Asymetria f(X) • Liczby losowe f(X) dodatnia m>Me ujemna X m<Me X Do wielu czynności używane są liczby losowe, np. do symulacji komputerowej. Źródła (generatory) liczb losowych: tablice, kalkulatory i komputery. Klawisz RAN (random) kalkulatora daje: 0,813; 0,160; 0,208; 0,729, 0,305, 0,863; 0,440 itd. (liczby pseudolosowe). • Dodawanie niezależnych zmiennych losowych Jeśli zmienne są niezależne (np. dochody dwu różnych sklepów), można sumować ich rozkłady: E ( X Y ) E ( X ) E (Y ) V(X Y) V(X) V ( Y) Można też odejmować: E ( X Y ) E ( X ) E (Y ) V ( X Y ) V ( X ) V (Y ) Odchyleń standardowych nie sumuje się!!! Matematyczne techniki zarządzania - 48 • Wykres liściowy Umożliwia szybkie analizowanie zjawisk Przykład z oszustwem kasjerek • Wykres skrzynkowy Wartość Angielskie stem-and-leaf plots Angielskie box-and-whisker diagram (box plot) Liczebność Pł.1 Q1 Q3 Pł.2 Wyrz Często stosowany do prezentacji danych (płotki w odległości 1,5 różnicy pomiędzy kwartylami) Me X • Przetwarzanie danych empirycznych w rozkład normalny 1. Podzielenie danych xi na przedziały (liczebność 8-12, szerokość według nominałów monet i banknotów) 2. Ustalenie liczebności empirycznych nie 3. Przeliczenie liczebności na prawdopodobieństwa empiryczne pie 4. Obliczenie parametrów m oraz s 5. Standaryzacja środków przedziałów 5 10 15 20 X Matematyczne techniki zarządzania - 49 6. Wyznaczenie prawdopodobieństw teoretycznych pio 7. Wyliczenie liczebności teoretycznych nio 8. Ustalenie czy dwa rozkłady różnią się od siebie istotnie PRAWO WIELKICH LICZB Przykład 14. Rzucamy wielokrotnie dwoma monetami i rejestrujemy zmianę średniej liczby orłów na jeden rzut w miarę wzrostu liczby doświadczeń. Wiemy, że wartość oczekiwana liczby orłów E(X) = 1. n r rz u tu 1 2 3 4 5 6 7 1 2 8 1 2 9 1,5 1 3 1,33 11 10 4 1 13 12 5 14 0,8 1 6 15 0,67 16 7 17 0,86 2 8 18 0,88 19 9 20 0,89 w y n ik rz u tu 2 1 1 0 0 0 2 1 1 1 1 2 0 0 1 s u m a o rłó w 2 3 4 4 4 4 6 7 8 9 10 11 12 13 15 15 17 17 18 19 1 ś re d n ia 2 ,0 0 1 ,5 0 1 ,3 3 1 ,0 0 0 ,8 0 0 ,6 7 0 ,8 6 0 ,8 8 0 ,8 9 0 ,9 0 0 ,9 1 0 ,9 2 0 ,9 2 0 ,9 3 1 ,0 0 0 ,9 4 1 ,0 0 0 ,9 4 0 ,9 5 0 ,9 5 W miarę zwiększania liczby doświadczeń uzyskany wynik zbliża się coraz bardziej do prawdziwej wartości dla całej populacji Wartość średnia 2,5 2 1,5 1 0,5 0 0 5 10 15 Liczba doświadczeń 20 25 Matematyczne techniki zarządzania - 50 średnia 1,2 1 0,8 0,6 0,4 0,2 8 5 9 2 0 0 11 9 5 12 16 10 17 7 15 19 9 23 15 20 21 14 25 nr losowania populacja 25 20 zmienna Y Wnioski • każde takie badanie jest niepowtarzalne • badając próbkę można uzyskać przybliżoną informację o całej populacji • zwiększanie ilości doświadczeń ponad 5 7 pewną liczbę jest nieopłacalne, gdyż jest 1 2 kosztowne a nie zwiększa wyraźnie stopnia poznania rzeczywistości • minimalna wielkość (liczebność) próbki wynosi 30 obserwacji • właściwą wielkość próbki dobiera się w zależności od błędu (SKRYPT s. 85) • nie można jednak zagwarantować na 100%, że badanie próbki da wynik zgodny z rzeczywistością • posługiwanie się próbką daje jednak całkiem inny pogląd na rzeczywistość niż pojedyncze obserwacje • inaczej nasze pojedyncze obserwacje, a inaczej wielkie liczby (sąsiadka, bohaterka powieści Homo Faber M. Frischa) • na prawo wielkich liczb składa się szereg twierdzeń, m.in. nierówność Czebyszewa 1,4 15 10 próbka 5 0 0 10 20 30 40 50 zmienna X P( X E(X ) ) 1 V (X ) 2 Matematyczne techniki zarządzania - 51 Sposoby pobierania próbek statystycznych Próbka musi być pobrana w sposób losowy, tzn. każdy element populacji musi mieć jednakową szansę trafienia do próbki. • próbka reprezentatywna • próbka tendencyjna • losowanie systematyczne • losowanie warstwowe • losowanie proporcjonalne WNIOSKOWANIE STATYSTYCZNE Przedmiotem tego działu jest wyciąganie wniosków o rozkładzie i parametrach populacji generalnej na podstawie badania próbki. Teoria estymacji zajmuje się szacowaniem parametrów populacji generalnej na podstawie próbki statystycznej. Rodzaje estymacji • punktowa • przedziałowa Pojęcia z teorii estymacji • estymacja • estymator (estimator) • wartość oszacowana (estimate) Matematyczne techniki zarządzania - 52 Estymator jest to zmienna losowa, której realizacjami są wartości rozważanego parametru powstałe przez pobranie z populacji bardzo wielu próbek. Wartość oszacowana jest to wartość danego parametru wyznaczona na podstawie jednej, rzeczywiście pobranej próbki. Estymator — jak każda zmienna — ma swoją wartość oczekiwaną i odchylenie standardowe. parametr Cechy dobrego estymatora • nieobciążony ˆ) E ( populacji ˆ estymator ˆ ) średnia estymatora E ( ˆ • zgodny (PWL) ˆ odchylenie standardow • najefektywniejszy (Vmin) ˆ oszacowani 0 e z próbki CO MOŻE BYĆ PARAMETREM POPULACJI? Różne parametry — niektóre z nich już znamy (wartość średnia, odchylenie standardowe), inne poznamy później. e estymatora Matematyczne techniki zarządzania - 53 N azw a p aram etru S ym b o l d la p o p u lacji W arto ść średnia O dchylenie standardow e W ariancja P roporcja (struktura) W spó łczynnik korelacji W spó łczynnik regresji 2 i, i S ym b o l d la p ró b ki xm , s 2 s p R, r a i, b i ESTYMACJA WARTOŚCI ŚREDNIEJ POPULACJI Celem jest ustalenie — ile wynosi nieznana wartość : • estymacja punktowa: = x • estymacja przedziałowa: budowa — wokół wartościx — przedziału ufności, w którym z prawdopodobieństwem 1— znajdzie się nieznane Przykład 15. Zakładamy, że populacja generalna jest bardzo mała i składa się tylko z sześciu liczb: 2, 3, 4, 5, 6, 7 Parametry tej populacji: = 4,5 2 = 2,9167 Matematyczne techniki zarządzania - 54 Przyjmujemy liczebność próbki n=2 i przystępujemy do rozważania ile i jakich dwuelementowych próbek można pobrać — ze zwracaniem — z tej populacji. x Próbek tych jest 36, tworzą one rozkład estymatora o następujących parametrach 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 E ( x ) 4 ,5 2 x 1 , 4583 Powtarzając to samo dla n=3 i n=4, otrzymamy P ( x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 P ró b ki 2, 2, 2, 2, 2, 2, 3, 4, 5, 6, 7, 2 3; 4; 5; 6; 7; 7; 7; 7; 7; 7 3, 3, 3, 3, 3, 4, 5, 6, 7, 2 3; 4; 5; 6; 6; 6; 6; 6 4, 4, 4, 4, 5, 6, 7, 2 3; 4; 5; 5; 5; 5 5, 5, 5, 6, 7, 2 3; 6, 2 4; 6, 3; 7, 2 4; 7, 3 4 2 = 2,9167 W ie lk o ś ć p ró b ki, n 2 3 4 Ś re d n ia, x W a ria n c ja , 4 ,5 4 ,5 4 ,5 1 ,4 5 8 3 0 ,9 7 2 2 0 ,7 2 9 2 s 2 x 2 S to s u n e k /n 1 ,4 5 8 3 0 ,9 7 2 2 0 ,7 2 9 2 Mamy więc zależności x 2 n 2 x n sx n s ( xi x ) n1 2 Matematyczne techniki zarządzania - 55 oraz wnioski • średnia estymatora równa się średniej populacji • znamy wzór na błąd oszacowania średniej • gdy n , x N ( , E(x) x ) x s n n Możemy teraz zbudować przedział ufności dla nieznanej średniej dla populacji przy dużej próbce: • jeśli znamy odchylenie standardowe populacji P ( x z x x z x ) 1 2 2 • jeśli nie znamy odchylenia standardowego populacji P ( x z s x x z s x ) 1 2 2 Jak to wykorzystać w praktyce? • pobieramy próbkę, liczymy dla niej x oraz s • budujemy przedział ufności (dg, gg), w którym z prawdopodobieństwem 1— znajduje się nieznana wartość średniej dla populacji — o ile losowanie próbki nie było pechowe (np. „2, 2” lub „7, 7” w przykładzie 15) • jeśli losowanie było pechowe, to nieznane leży z szansą /2: 1. albo poniżej dg 2. albo powyżej gg WIĘCEJ O NIEZNANEJ ŚREDNIEJ POPULACJI NIE POTRAFIMY POWIEDZIEĆ! Funkcja gęstości Matematyczne techniki zarządzania - 56 1 2 2 Szerokość przedziału ufności dla zależy od: • przyjętego poziomu istotności • wielkości próbki n • jej odchylenia standardowego s Średnia dla populacji dg ? x gg ? ESTYMACJA PROPORCJI DLA POPULACJI Celem jest ustalenie — na podstawie badania próbki — jaka część populacji ma określoną cechę jakościową (niemierzalną), na przykład jaki ułamek (frakcja) wszystkich robotników przeszła szkolenie, jaka część studentów pracuje zawodowo itd. Ustala się proporcję p dla próbki i po przyjęciu określonego poziomu istotnosci buduje się przedział ufności dla nieznanej proporcji dla populacji: Matematyczne techniki zarządzania - 57 P ( p z s p p z s p ) 1 2 sp 2 p (1 p ) n I tym razem szerokość przedziału jest zależna od przyjętego poziomu istotności oraz od błędu oszacowania proporcji sp, który z kolei jest funkcją wielkości próbki i jej proporcji. PRZEDZIAŁ UFNOŚCI DLA ŚREDNIEJ POPULACJI PRZY MAŁEJ PRÓBCE Stwierdzono, że w przypadku małej próbki estymator x zachowuje się według rozkładu nieco odmiennego od rozkładu normalnego. Rozkład ten został utworzony przez Gosseta, który opublikował go pod pseudonimem Student. Stąd mamy rozkład Studenta Funkcja gęstości rozkładu t jest funkcją liczby stopni swobody n1 t x sx x s n Gdy dąży do , rozkład t dąży do rozkładu normalnego 7 Matematyczne techniki zarządzania - 58 Różnica pomiędzy rozkładem Studenta i rozkładem normalnym • rozkład Studenta jest bardziej płaski, ma dłuższe ogony • rozkład Studenta jest określony tylko jednym parametrem 0,391 P a ra m e try ro zk ła d u 0,388 0,375 Ś re d n ia0,38 W a ria n c ja R o zk ła d n o rm a ln y s ta n d a ry zo w an y , z R o zk ła d S tu d en ta , t , 0 / 2 0,36 0,34 0,31 0,275 0 1 rozkład normalny z 0,242 • obok przedział dwustronny • może też być jednostronny rozkład Studenta t =8 0 z/2 t/2() • tablica rozkładu Studenta (SKRYPT s.157, tabl.III) nie pokazuje ani funkcji gęstości, ani funkcji dystrybuanty • pokazuje wartości t odpowiadające założonemu poziomowi istotności dla danych stopni swobody Matematyczne techniki zarządzania - 59 Fragment tablicy rozkładu Studenta S to p n i e s w o b o d y , . 10 . 40 . = 0 ,2 0 /2 = 0 ,1 0 . 1 ,3 7 2 . 1 ,3 0 3 . 1 ,2 8 2 = 0 ,1 0 /2 = 0 ,0 5 . 1 ,8 1 2 . 1 ,6 8 4 . 1 ,6 4 5 = 0 ,0 5 /2 = 0 ,0 2 5 . 2 ,2 2 8 . 2 ,0 2 1 . 1 ,9 6 0 Przedział ufności dla średniej dla populacji przy małej próbce P ( x t 2 ( n 1 ) s x x t ( n 1 ) sx ) 1 2 • wszystkie obliczenia przedziału ufności przeprowadza się tak jak w przykładzie 12 z Agnieszką • rozkład Studenta daje szersze przedziały ufności niż rozkład normalny, gdyż zabezpiecza nas przed skutkami pobrania mniejszej próbki • pobieżne obliczenia można zrobić biorąc dwa błędy oszacowania średniej (odpowiada to mniej więcej poziomowi istotności 5%) Matematyczne techniki zarządzania - 60 Podsumowanie estymacji wartości średniej dla populacji O d c h y le n ie s ta n d a rd o w e p o p u la c ji, Znane N ie z n a n e T y p ro z k ła d u zm ie n n e j X W ie lk o ś ć p ró b k i, n G ra n ic e p rze d zia łu u fn o ś c i N o rm a ln y D o w o ln a x z /2 x In n y n 30 x z /2 x N o rm a ln y n 30 D o w o ln a x z /2 s x n 50 n < 50 x z /2 s x U n ik a ć In n y x t /2 s x ...... 2