Parametr Təxmini üçün Bootstrapping

Yenidənqurma metodları müasir statistikada əvəzolunmaz bir vasitədir. Tədris dəstindən dəfələrlə nümunələr götürülməsini və hər bir nümunədə maraqlı bir maddənin yenidən hesablanmasını əhatə edirlər. Bootstrapping , məlumat dəstimizdən dəfələrlə müstəqil nümunələr götürən və qeyri-müəyyənliyi qiymətləndirmək üçün birbaşa hesablama üsulu verən belə yenidən seçmə metodudur. Bu dərslik bir statistikanın düzgünlüyünü qiymətləndirmək üçün yükləmə əsaslarını əhatə edir. Nəzərə alın ki, proqnozlaşdırıcı modelləşdirmədə qərəzli-varyans alqı-satqısını yaxşılaşdırmaq üçün yenidən başlanğıc (başlanğıc tökülməsini daxil etmək üçün) başqa yerdə müzakirə olunur.

Əvvəlcə bu dərslikdə göstərilən nəticələri çoxaltmaq üçün istifadə olunan paketləri və məlumatları əhatə edirəm. Daha sonra gücləndirmənin necə işlədiyini və sonra metodun R-də necə tətbiq olunacağını izah edirəm.

    : Nə lazımdır. : Boostrapping-in necə işlədiyini qısa bir müzakirə. : R-də bootstrap nümunələri necə yaradılır: Parametr qiymətləndirməsini hesablamaq üçün hər nümunənin üzərində təkrarlamaq. : Daha çox məlumat əldə etməyə kömək edəcək mənbələr.

İlkin şərtlər

Bu təlimat ilk növbədə bootstrap nümunələri yaratmaq üçün rsample paketindən istifadə edir, həm də purrr və ggplot2 paketlərindən (hər ikisi də tidyverse-də) istifadə edir. Göstərmək üçün nümunə aşınma məlumatlarımız rsample paketindən gəlir.

Niyə Bootstrap?

Tək dəyişən statistik nəticə təlimatında müzakirə edildiyi birbaşa standart səhv formulları müxtəlif statistik məlumatlar üçün mövcuddur və etibar aralıqlarını hesablamağa kömək edir. Lakin kompüter yaşından əvvəl paylanmanın müəyyən parametrlərini (yəni faiz nisbətləri, nisbətlər, nisbət nisbəti və korrelyasiya əmsalları) qiymətləndirərkən kompleks və zəhmətkeş Taylor seriyasından bir təxminin səhvlərini hesablamaq tələb olunurdu. Bootstrap, hər hansı bir statistika üçün standart səhvlərin qiymətləndirilməsi və güvən aralıqları üçün alternativ, kompüter sıx bir yanaşma olaraq hazırlanmışdır .

Bootstrapping, başlanğıc məlumat dəstləri () yaratmaq üçün məlumat dəstimizdən ( Z ) dəfələrlə müstəqil nümunələrin alınmasını əhatə edir . Bu nümunə dəyişdirmə ilə aparılır , yəni eyni müşahidədən bir dəfədən çox nümunə götürülə bilər və hər bir başlanğıc nümunəsi () orijinal məlumat dəsti ilə eyni sayda müşahidəyə sahib olacaqdır.

Bootstrapping-in əsas ideyası budur ki, nümunə məlumatlarından bir populyasiya haqqında nəticə çıxarmaq, nümunə məlumatlarının yenidən seçilməsi və yenidən göndərilən məlumatlardan bir nümunə haqqında nəticə çıxarmaqla modelləşdirilə bilər (yenidən seçilmiş → seçmə → əhali).

Bootstrap prosesi maraqlandığımız bir statistika ilə başlayır (). Bəzi çox sayda ( B ) açılış qayışı nümunələri müstəqil olaraq çəkilir. Hər bir açılış qayışı nümunəsi bu statistikanı () hesablamaq üçün istifadə olunur. Bundan sonra bu istənilən statistikanın standart səhvini hesablamaq üçün açılan bütün məlumat dəstlərindən istifadə edə bilərik

Beləliklə, orijinal məlumat dəstindən qiymətləndirilən standart xətanın təxmini rolunu oynayır.

Bootstrap Nümunələrinin yaradılması

Bootstrapping-də ilk məqsəd B bootstrap nümunələrinizi yaratmaqdır . Orijinal məlumatların B nümunələrini ehtiva edən bir obyekt yaratmaq üçün rsample :: bootstrap istifadə edə bilərik .

Bootstrap nümunələri, hər bir açılış bölməsinin bölünmə sütununa yerləşdiyi məlumat çərçivəsinə bənzər tibble obyektində saxlanılır. Hər bir başlanğıc nümunəsinə bir siyahının hissələrinə daxil olduğunuz kimi daxil ola bilərik. Burada, bt_samples $ splits [[1]] 'də saxlanılan ilk açılış qayışı nümunəsinə daxil oluruq. , 1470 müşahidənin açılış qayışı nümunəsində olduğunu, 530 müşahidənin bu başlanğıc qayışı nümunəsində seçilmədiyini (başlanğıc qayışı nümunəsindəki 1470 müşahidəni etmək üçün müşahidələr 1 və ya daha çox dəfə nümunə deməkdir) və sonuncusunu göstərir. 1470, orijinal məlumat dəstindəki müşahidələrin ümumi sayını göstərir. Unutmayın, açılış qayışı nümunəsi götürülərkən, hər başlanğıc qayışı nümunəsi həmişə orijinal məlumat dəsti ilə eyni sayda müşahidədən ibarət olacaqdır. İlk açılış nümunəsini çıxarmaq üçün rsample :: analyz istifadə edə bilərik.

Beləliklə, müvəffəqiyyətlə bootstrap nümunələri yaratdıq və hər bir nümunəyə necə çatacağımızı bilirik. İndi istədiyimiz statistikanı hesablamaq üçün hər açılış strapı üzərində bir funksiyanı iterativ şəkildə tətbiq etmə vaxtı gəldi.

Bootstrap nümunələri arasında funksiyaların tətbiqi

Düşünən işçilərlə müqayisədə işləyənlərin gəlir fərqini anlamaq istəmədiyimizi düşünək. Çox dəyişkən statistik nəticə dərsliyində müzakirə edildiyi kimi , orta gəlir fərqini müqayisə etmək üçün iki nümunəli t -testindən istifadə edə bilərik . Ancaq orta gəlir fərqini müqayisə etmək istəsək nə etməli? Yoxsa 95-ci faiz gəlirindəki fərq?

Bu müqayisələri aparmaq üçün sadə bir test statistikası yoxdur; Bununla birlikdə, bu təxminləri və standart səhvlərini daha yaxşı başa düşmək üçün açılışdan istifadə edə bilərik. Əvvəla, işləyənlər ilə işləyənlər arasındakı orta aylıq gəlirlərdəki fərqi olmayanlara qarşı hesablayan bir funksiya yaradacağıq.

Yuxarıda göstərilən funksiya fərdi açılış nümunəsi götürür (yəni split) və orta gəlir fərqini hesablayır. İndi bootstrap nümunələrimizi yaradaq. İstifadə etməyiniz üçün konkret sayda başlanğıc nümunəsi yoxdur, ancaq yaxşı bir qayda olaraq, mərkəzi meyl ölçüsü hesablanarkən ən az 500, 95-ci yüzdəlik kimi həddindən artıq bir dəyər hesablanarkən ən az 1000 istifadə etmək lazımdır. 1 Bugünkü müasir hesablama gücü ilə mənim borcum minimum 2000 istifadə etməkdir.

İndi hər açılış qayışı nümunəsi üzərində təkrarlaya və statistik göstəricilərimizi tətbiq edə bilərik. Burada hər bir nümunə üzərində təkrarlamaq və orta gəlirlər fərqini hesablamaq üçün purrr paketindən gələn və səliqəli hissənin bir hissəsi olan map_dbl-dən istifadə edirik. Nəticələr biraz bimodal və əyri bir paylanma göstərir.

Bütün bootstrap nümunələrində bu statistikanın təxminən -2500 ilə -1000 arasında olduğunu görürük. Önyükleme dağılımının yüzdələrini götürərək güvən aralığını hesablaya bilərik. Median fərqinin 1.949 dollar,% 95 inam aralığı ilə - 2.355 və - 1.409 dollar arasında olduğunu görürük.

Nəticə olaraq, ortalama olaraq işləyən işçilərə az işləyənlərə nisbətən daha az əmək haqqı verildiyinə 95% əmin ola bilərik (təqribən - 2.355 - - 1409 dollar az).

Daha çox məlumat əldə etmək üçün mənbə

Bootstrapping sadə parametr qiymətləndirmələrindən modelləşdirmə yanaşmalarına (yəni təsadüfi meşələr) daxil edilməyə qədər bir çox faydalı tətbiqetməyə malikdir. Boostrapping və tətbiqi barədə daha çox məlumatı aşağıdakı mənbələrdən əldə edə bilərsiniz:

Davison & Hinkley (1997). Bootstrap metodları və onların tətbiqi. Bağlantı. ↩