Dərs 6: Hipotez Testi, 2 -ci hissə

Keçən həftə StatKey -də randomizasiya prosedurlarından istifadə edərək hipotez testinin necə aparılacağını öyrəndiniz. Bu həftə hipotez testinə bir az daha dərindən baxacağıq. Səhvlər, əhəmiyyətlilik (\ (\ alfa \)) səviyyələri, çoxsaylı testlərlə bağlı məsələlər, praktiki əhəmiyyət və statistik güc kimi anlayışlar, öyrəndiyimiz bütün parametrlər üçün hipotez testlərinə tətbiq olunur və daha sonra öyrənəcəyimizlərə də tətbiq ediləcək. bu kursda

6.1 - I və II tip səhvlər

Hipotez testi apararkən iki mümkün qərar ola bilər: sıfır fərziyyəni rədd edin və ya sıfır hipotezini rədd edin. Unutmamalısınız ki, hipotez testi bir populyasiya haqqında nəticə çıxarmaq üçün nümunədən alınan məlumatlardan istifadə edir. Hipotez testi apararkən populyasiya parametrlərini bilmirik. Əksər hallarda nəticəmizin doğru və ya yanlış olduğunu bilmirik.

Sıfır hipotezi rədd etdikdə iki ehtimal var. Həqiqətən də əhali arasında fərq ola bilər, bu halda düzgün qərar verdik. Və ya, ehtimal ki, populyasiyada heç bir fərq yoxdur (yəni \ (H_0 \) doğrudur), lakin nümunəmiz təsadüfi seçmə dəyişikliyinə görə fərziyyə verilən dəyərdən fərqli idi. Bu vəziyyətdə bir səhv etdik. Bu tip I xətası olaraq bilinir.

Sıfır hipotezi rədd edə bilmədikdə iki ehtimal da var. Sıfır hipotez həqiqətən doğrudursa və əhali arasında heç bir fərq yoxdursa, o zaman doğru qərarı verdik. Əgər əhali arasında bir fərq varsa və bunu rədd edə bilməsək, II tip bir səhv etdik.

\ (H_0 \) həqiqətən doğru olduğu zaman \ (H_0 \) rədd edilməsi \ (\ alfa \) ("alfa") ilə işarələnir və ümumiyyətlə .05 olaraq təyin olunur.

\ (H_0 \) həqiqətən yalan olduğu zaman \ (H_0 \) rədd edilməməsi \ (\ beta \) ilə işarələnir ("beta")

Qərar Reallıq \ (H_0 \) doğrudur \ (H_0 \) yanlışdır Rədd et \ (H_0 \), (yekunlaşdır \ (H_a \)) Rədd edilmədi \ (H_0 \)
I tip səhv Düzgün qərar
Düzgün qərar II tip səhv

Məsələn: sınaq

Bir kişi, həyat yoldaşının öldürülməsinə görə mühakimə olunduğu məhkəməyə gedir.

Bunu bir hipotez test çərçivəsinə qoya bilərik. Test edilən hipotezlər bunlardır:

  • \ (H_0 \): Günahkar deyil
  • \ (H_a \): Günahkar

Doğru olduqda \ (H_0 \) rədd etsək, I tip səhvedilir. Başqa sözlə, həyat yoldaşını öldürməmiş, günahkar olduğu və həqiqətən törətmədiyi bir cinayətə görə cəzalandırıldığı bildirilmişdir.

Yanlış olduqda \ (H_0 \) rədd edə bilməsək, II tip səhvedilir. Başqa sözlə, əgər kişi arvadını öldürsəydi, amma günahsız olarsa və cəzalandırılmasa.

Misal: Kulinariya Sənəti

Kulinariya sənətinin bir qrup tələbəsi kuşkonmaz hazırlamaq üçün iki üsulu müqayisə edir: ənənəvi buxarlanma və yeni qızartma üsulu. Məktəb restoranlarının müştərilərinin yeni qızartma üsulunu ənənəvi buxar üsulundan üstün tutduqlarını bilmək istəyirlər. Hər bir üsuldan istifadə edərək hazırlanan quşçuluqdan nümunə götürülür və öz seçimlərini seçmələri xahiş olunur. İştirakçıların 50% -dən çoxunun yeni qızartma üsuluna üstünlük verib -vermədiyini müəyyən etmək üçün statistik analiz aparılır:

  • \ (H_ : p = .50 \)
  • \ (H_: p>.50 \)

I tip səhv, sıfır fərziyyəni rədd etdikdə və yeni qovurma üsulunun əslində olmadığı halda üstünlük verildiyi qənaətinə gəlirlər. Bu, təsadüfi seçmə xətası ilə, yeni qovurma üsulunu ümumi populyasiyadan daha çox seçən bir nümunə əldə etdikləri təqdirdə baş verə bilər. Bu baş verərsə, nəticədə şagirdlərin yeni qulançar qızartmaq üsulunun ənənəvi buxar üsulundan üstün olduğuna dair yanlış bir inanc yaranar.

Tip II səhv, sıfır fərziyyəni rədd etmədikdə və əslində olduğu zaman yeni metodlarının üstün olmadığı qənaətinə gəldikdə baş verir. Bu baş verərsə, nəticədə şagirdlərin yeni metodlarının ənənəvi metoddan üstün olmadığı barədə yanlış bir inanc yaranar.

6.2 - Əhəmiyyət səviyyələri

Əvvəlki səhifədəki nümunələrdə gördüyümüz kimi, I və II tip səhvlərin nəticələri vəziyyətdən asılı olaraq dəyişir. Tədqiqatçılar, məlumat toplanmadan əvvəl \ (\ alfa \) səviyyələrini təyin edərkən hər birinin nəticələrini nəzərə alırlar.

Bir çox fənlərdə \ (\ alfa \) 0.05 səviyyəsi standartdır, məsələn sosial elmlərdə. Daha yüksək və ya aşağı \ (\ alfa \) səviyyəsinin arzu oluna biləcəyi vəziyyətlər var. Pilot tədqiqatlar (daha böyük bir araşdırmadan əvvəl edilən kiçik tədqiqatlar) daha yüksək \ (\ alfa \) səviyyəsini istifadə edir, çünki məqsədləri daha böyük bir işdə toplana biləcək məlumatlar haqqında məlumat əldə etməkdir; pilot tədqiqatlar ümumiyyətlə vacib qərarlar qəbul etmək üçün istifadə edilmir.

I tip səhv etmənin II tip səhv etməkdən daha təhlükəli olacağı araşdırmalar daha kiçik \ (\ alfa \) səviyyələrindən istifadə edə bilər. Məsələn, I tip səhv etmənin xəstələrə təsirsiz müalicə verilməsi mənasına gələ biləcəyi tibbi araşdırmalarda, belə bir mənfi nəticənin ehtimalını azaltmaq üçün daha kiçik bir \ (\ alfa \) səviyyəsi təyin edilə bilər. Aşağı \ (\ alfa \) səviyyələri, sıfır fərziyyəni rədd etmək üçün daha kiçik p dəyərlərinin lazım olduğunu bildirir; bu, sıfır hipotezini rədd etməyi daha da çətinləşdirir, lakin bu da I tip səhv etmə ehtimalını azaldır.

6.3 - Birdən çox testlə bağlı problemlər

Əgər \ (\ alfa \) səviyyəsi 0.05 olan bir hipotez testi aparırıqsa, I tip səhv etmək ehtimalının 5% -ni qəbul edirik (yəni sıfır fərziyyə həqiqətən doğru olduqda sıfır hipotezini rədd edirik). Sıfır hipotezlərin həqiqətən doğru olduğu bir 0.05 \ (\ alfa \) səviyyəsində 100 hipotez testi keçirsək, nullu rədd edib bu testlərin təxminən 5 -də I tip bir səhv edəcəyimizi gözləyərdik.

Daha sonra bu kursda birdən çox test yerinə yetirmək üçün istifadə edilə biləcək bəzi statistik prosedurlar haqqında məlumat əldə edəcəksiniz. Məsələn, ikidən çox qrupun vasitələrini müqayisə etmək üçün dispersiya analizindən istifadə edə bilərsiniz ("ANOVA"). İki qrupdan çox nisbətləri müqayisə etmək üçün bir xi-kvadrat uyğunluq testi keçirə bilərsiniz.

Əlaqədar bir məsələ nəşrin qərəzlidir. Statistik cəhətdən əhəmiyyətli nəticələrə malik olan tədqiqat işləri, statistik cəhətdən əhəmiyyətli nəticələr verməyən araşdırmalardan daha çox nəşr olunur. Bu o deməkdir ki, əhali arasında həqiqətən heç bir fərq olmadığı 100 iş aparılsa, statistik cəhətdən əhəmiyyətli nəticələr tapan 5 tədqiqat nəşr oluna bilər, statistik cəhətdən əhəmiyyətli nəticə əldə etməyən 95 iş isə nəşr olunmayacaq. Beləliklə, nəşr olunan ədəbiyyata bir baxış keçirərkən yalnız statistik əhəmiyyət kəsb edən nəticələr əldə edən tədqiqatlar haqqında oxuyacaqsınız. Statistik cəhətdən əhəmiyyətli nəticələr əldə etməyən işləri tapa bilməzsiniz.

Çoxsaylı testlərin düzəldilməsinin sürətli üsullarından biri alfa səviyyəsini aparılan testlərin sayına bölməkdir. Məsələn, üç cüt testdən istifadə edərək üç qrupu müqayisə edirsinizsə, ümumi alfa səviyyənizi ("ailənin müdrik alfa səviyyəsi") üçə bölə bilərsiniz. Standart bir alfa səviyyəsi 0,05 -dən istifadə etsəydik, ikili alfa səviyyəmiz \ (\ frac = 0.016667 \) olardı. Daha sonra statistik əhəmiyyətini təyin etmək üçün hər üç p-dəyərimizi 0.016667 ilə müqayisə edərdik. Buna Bonferronimetodu deyilir. Bu, birdən çox testi idarə etmək üçün ən mühafizəkar yanaşmalardan biridir (yəni II tip səhv etmək ehtimalı daha yüksəkdir). Daha sonra kursda Tukey-dən istifadə etməyi öyrənəcəksinizÜç və ya daha çox qrupun vasitələrini müqayisə edərkən, bu yanaşma daha liberal olduğu üçün çox vaxt üstünlük verilir.

6.4 - Praktiki əhəmiyyət

Son dərsdə, hipotez test üsullarından istifadə edərək statistik cəhətdən əhəmiyyətli fərqləri necə təyin edəcəyinizi öyrəndiniz. Əgər p dəyəri \ (\ alfa \) səviyyəsindən (adətən 0.05) azdırsa, nəticələr statistik baxımdan əhəmiyyətlidir. Hipotez edilmiş populyasiya parametri ilə müşahidə olunan nümunə statistikası arasındakı fərqin təsadüfən baş vermə ehtimalının olmadığı qədər böyük olduqda nəticələrin statistik baxımdan əhəmiyyətli olduğu deyilir.

Praktiki əhəmiyyət, təsir ölçüsüolaraq bilinən fərqin böyüklüyünə aiddir . Nəticələr real həyatda mənalı olacaq qədər böyük olduqda praktiki olaraq əhəmiyyətlidir. Mənalı olan subyektiv ola bilər və kontekstdən asılı ola bilər.

Qeyd edək ki, statistik əhəmiyyət nümunənin ölçüsündən birbaşa asılıdır. Xatırladaq ki, nümunə ölçüsü ilə standart səhv arasında tərs əlaqə var (məsələn, seçmə paylanmasının standart sapması). Çox kiçik nümunə ölçüsü ilə çox kiçik fərqlər statistik olaraq əhəmiyyətli olacaq. Nəticələr statistik baxımdan əhəmiyyətli olduqda, praktiki əhəmiyyətini də araşdırmaq vacibdir. Praktiki əhəmiyyət nümunənin ölçüsündən birbaşa təsirlənmir.

Məsələn: Arıqlama Proqramı

Tədqiqatçılar yeni bir arıqlama proqramı üzərində işləyirlər. Böyük bir nümunə istifadə edərək, proqramdakı altı aydan sonra [0.12, 0.20] arıqlamaq üçün ortalama 95% etibarlılıq aralığı qururlar. Bütün ölçülər funtlarla alındı. Qeyd edək ki, bu etibar intervalında 0 yoxdur, buna görə də nəticələrinin 0.05 alfa səviyyəsində statistik olaraq əhəmiyyətli olduğunu bilirik. Ancaq insanların çoxu, nəticələrin praktiki olaraq əhəmiyyətli olmadığını söyləyəcək, çünki altı aylıq bir kilo vermə proqramı bu işdə müşahidə ediləndən daha böyük bir orta kilo itkisi verməlidir.

Təsir Ölçüsü

Bəzi testlər üçün təsir ölçüsünün ümumi ölçüləri istifadə olunur. Məsələn, iki vasitənin fərqini müqayisə edərkən, standart sapma vahidlərində müşahidə olunan iki nümunə vasitəsi arasındakı fərq olan Cohen \ (d \) hesablayırıq:

\ (S_p \) harada yığılmış standart sapmadır

Aşağıda Cohen \ (d \) təfsirində istifadə olunan standartlar verilmişdir:

Kohen \ (d \) Təfsir
0 - 0.2 Az və ya heç bir təsiri yoxdur
0,2 - 0,5 Kiçik effekt ölçüsü
0.5 - 0.8 Orta təsir ölçüsü
0.8 və ya daha çox Böyük effekt ölçüsü

Tək bir ortalama üçün, standart sapma vahidlərində müşahidə olunan ortalama ilə fərziyyə edilən orta arasındakı fərqi hesablaya bilərsiniz: \ [d = \ frac \]

Korrelyasiya və reqressiya üçün təyini əmsalı olaraq bilinən \ (r^2 \) hesablaya bilərik. Bu paylaşılan dəyişkənliyin nisbətidir. Bu kursun sonunda sadə xətti reqressiya və korrelyasiyanı öyrəndiyimiz zaman \ (r^2 \) haqqında daha çox məlumat əldə edəcəyik.

Məsələn: SAT-Math Scores

Tədqiqat sualı: Bir kollecdəki SAT-Math balları, bilinən əhalinin 500 ortalamasından daha böyükdür?

Məlumatlar həmin kollecdə 1200 tələbədən ibarət təsadüfi bir nümunədən toplanır. Bu nümunədə \ (\ üst xətt = 506 \). Populyasiyanın standart sapmasının 100 olduğu bilinir. Bir nümunəli ortalama testi aparıldı və nəticədə p dəyəri 0.0188 oldu. \ (P \ leq \ alpha \) olduğu üçün sıfır hipotezi rədd edilməlidir. Bu nəticələr statistik baxımdan əhəmiyyətlidir. Əhalinin orta hesabla 500 -dən çox olduğuna dair sübutlar var.

Ancaq praktik əhəmiyyətini də nəzərdən keçirək. SAT-Math 500 və SAT-Math 506 arasındakı fərq çox kiçikdir. 100 standart sapma ilə bu fərq yalnız \ (\ frac = 0.06 \) standart sapmalardır. Əksər hallarda bu praktiki olaraq əhəmiyyətli hesab edilməyəcək.

Misal: İşə gediş vaxtları

Tədqiqat sualı:Atlanta və Sent -Luisdə gediş -gəlişin fərqli vaxtları fərqlidirmi?

Təsviri Statistika: İş Gediş Zamanı Şəhər N. Orta StDev
Atlanta 500 29.110 20.718
Sent -Luis 500 21.970 14.232

StatKey-də quraşdırılmış verilənlər bazasından istifadə edərək, ap dəyəri

Praktiki əhəmiyyət Cohenin d hesablanması ilə araşdırıla bilər. Yuxarıdakı tənliklərdən istifadə edəcəyik:

\ (S_p \) harada yığılmış standart sapmadır

Birincisi, birləşmiş standart sapmanı hesablayırıq:

Qeyd: Birləşdirilmiş standart sapma həmişə iki nümunə standart sapma arasında olmalıdır.

Sonra, Cohen d hesablaya bilərik:

Atlanta -da gediş -gəlişin orta müddəti, Sent -Luisdəki gediş müddətindən 0,402 standart sapma idi. Yuxarıdakı cədvəldə Cohen d -ni şərh etmək üçün təlimatları istifadə edərək, bu kiçik bir təsir ölçüsüdür.

6.5 - Güc

Sıfır hipotezinin yalan olduğunu nəzərə alaraq, sıfır hipotezini rədd etmə ehtimalı güc olaraq bilinir. Başqa sözlə desək, güc \ (H_0 \) rədd etmə ehtimalıdır.

Testin gücü bir neçə yolla artırıla bilər, məsələn, nümunə ölçüsünü artırmaq, standart xətanı azaltmaq, nümunə statistikası ilə fərziyyə edilən parametr arasındakı fərqi artırmaq və ya alfa səviyyəsini artırmaq. İki quyruqlu testdən fərqli olaraq yönlü bir test (yəni sol və ya sağ quyruqlu) istifadə etmək də gücü artıracaq.

Nümunə ölçüsünü artırdıqda, standart səhvini azaltdıqda və ya nümunə statistikası ilə fərziyyə edilən parametr arasındakı fərqi artırdıqda, p dəyəri azalır və beləliklə sıfır fərziyyəni rədd etmə ehtimalımızı artırır. Alfa səviyyəsini artırdığımızda, sıfır hipotezini rədd edəcəyimiz daha böyük bir p dəyər aralığı var. İki quyruqludan bir quyruqlu testə keçmək p dəyərini yarıya endirir. Bütün bu hallarda statistik gücün artdığını söyləyirik.