Logistik Reqressiya: Qısa Texniki Baxış

Logistik Regressiyanın (LogR) arxasında duran anlayışları öyrənmək istəyirsiniz? LogR üçün qısa bir giriş axtarırsınız? Bu məqalə sizin üçündür. Python tətbiqi və R skriptinə bağlantılar daxildir.

I. Giriş:



Binomial nəticələri (y = 0 və ya 1) proqnozlaşdırmaq üçün populyar bir statistik texnika Logistik Reqressiyadır. Logistik reqressiya, kateqoriyalı nəticələr (y-nin binomial / çoxnomial dəyərləri), xətti Regresiya isə davamlı olaraq dəyərləndirilən nəticələri (məsələn, bir insanın kiloqramdakı çəkisi, sm-də yağan yağış miqdarı) proqnozlaşdırmaq üçün yaxşıdır.

Logistik Reqressiya proqnozları (bundan sonra bu məqalədə LogR), hadisənin baş vermə ehtimalları şəklindədir, yəni x dəyişənlərinin müəyyən dəyərləri nəzərə alınmaqla y = 1 ehtimalı. Beləliklə, LogR nəticələri 0-1 arasında dəyişir.

LogR, məlumat nöqtələrini tənlik tərəfindən verilən S şəkilli bir əyri olan standart logistika funksiyasından istifadə edərək modelləşdirir:

Şəkil 1: (Solda): Standart Logistika funksiyası: Mənbə | (Sağda): Logit funksiyası: Mənbə

Şəkil 1-də göstərildiyi kimi, sağdakı logit funksiyası- ∞- +∞ aralığında, solda göstərilən logistika funksiyasının tərsidir- 0 ilə 1 aralığında.

II. Anlayışlar:



LogR -də həll ediləcək tənlik:

  • p = ehtimal y = 1 giriş xüsusiyyətlərinin dəyərlərini nəzərə alaraq, x.
  • x1, x2. xk = giriş xüsusiyyətlərinin toplusu, x.
  • B0, B1. Bk = maksimum ehtimal metodu ilə qiymətləndiriləcək parametr dəyərləri. B0, B1. Bk, əlaqəli olduğu giriş xüsusiyyətindəki vahid dəyişikliyinin 'log-odds' olaraq qiymətləndirilir.
  • Bt = əmsalların vektoru
  • X = giriş xüsusiyyətlərinin vektoru

B0, B1 dəyərlərinin qiymətləndirilməsi. Bk ehtimal, odds və log odds anlayışlarını əhatə edir. Əvvəlcə onların aralığını qeyd edək:

  • Ehtimal 0 -dan 1 -ə qədərdir
  • Şanslar 0 ilə ∞ arasında dəyişir
  • Giriş əmsalları -∞ ilə +∞ arasında dəyişir

NÜMUNƏ:



Buradakı nümunə məlumatları UCLA veb saytından alınmışdır.

Vəzifə, qız, oxumaq, yazmaq, riyaziyyat, hon, femalexmath sahələri olan 200 tələbə üçün hansı şagirdlərin fərqlənmə diplomu ilə bitirdiklərini (y = 1 və ya 0) proqnozlaşdırmaqdır . Sahələr cinsiyyəti ( qadın = 1 qadın), oxu skorlarını, yazma skorlarını, riyaziyyat ballarını, fərqlənmə statusunu ( fərqlənmə diplomu ilə bitirdikdə hon = 1 ) və qadın = 1 olduqda riyaziyyat balını göstərən femalexmathi təsvir edir .

Hon ilə qadın dəyişəninin çarpaz işarəsi 109 kişi və 91 qadın olduğunu göstərir; Bu 109 qadından 32 -si fəxri adlar aldı.

Ehtimal:

Bir hadisənin baş vermə ehtimalı, mövcud hadisələrin ümumi sayına bölünməsidir.

Beləliklə, qadınların mükafat qazanma ehtimalı:

Bir hadisənin əmsalları, hadisənin baş vermə ehtimalını (y = 1 olma ehtimalını), baş vermə ehtimalına bölməkdir.

Beləliklə, qadınların mükafatlandırma şansları:

Bu belə şərh olunur:

  1. 32/77 =>Şərəf qazanan hər 32 qadın üçün, fərqlənməyən 77 qadın var.
  2. 32/77 =>Hər 109 (yəni 32+77) dişi üçün 32 qadın mükafat alır.

Bir hadisənin Logit və ya log-odds əmsallarıdır. Bu təbii log (baza 'e') aiddir. Beləliklə,

Beləliklə, qadınların fərqlənmə şansı qazanır:

2 nisbət nisbətidir; bu 2 nisbət x -in 2 fərqli dəyərində əldə edilir, x -in 2 dəyəri 1 ədəd ayrıdır.

Məsələn: x = 0 və x = 1 olduqda əldə edilən əmsallar (yəni x -in dəyərində 1 vahid dəyişiklik olduqda, burada x = 0 kişi, x = 1 qadın deməkdir)

S: Xanımlar və kişilər üçün fərqlənmə diplomu ilə məzun olma ehtimalını tapın.

=>OR = 1.82 olaraq, fərqlənmə diplomu ilə məzun olan qadınlar üçün fərqlənmə diplomu ilə məzun olan kişilərə nisbətən təxminən 82% daha yüksəkdir.

III. Ehtimal üçün hesablamalar:



Qadın olmağın fərqlənmə diplomu ilə məzun olma ehtimalına təsirini hesablamaq istədiyimizi düşünək.

  1. B0, B1. Bk, əlaqəli olduğu giriş xüsusiyyətindəki vahid dəyişikliyinin 'log-odds' olaraq qiymətləndirilir.
  2. B0 heç bir giriş xüsusiyyəti ilə əlaqəli olmayan əmsal olduğundan, B0 = istinad dəyişəninin log-odds, x = 0 (yəni x = kişi). yəni B0 = log [odds (fərqlənmə diplomu ilə məzun olan kişi)]
  3. B1 'dişi' giriş xüsusiyyətinin əmsalı olduğu üçün
    • B1 = x = qadında vahid dəyişikliyi ilə əldə edilən log-odds.
    • B1 = x = qadın və x = kişi olduqda əldə edilən log-odds.

Hesablamalar:

'Oran nisbəti (OR)' bölməsindəki hesablamadan,

Beləliklə, LogR tənliyi olur

y = -1.47 + 0.593* qadın

burada qadının dəyəri kişi və qadın üçün sırasıyla 0 və ya 1 olaraq əvəz olunur.

İndi, yalnız 1 giriş xüsusiyyəti-'qadın' olduqda, bir qadının mükafatlandırma ehtimalını öyrənməyə çalışaq.

Əvəzedici qadın = 1 in: y = -1.47 + 0.593* qadın

Beləliklə, y = log [odds (qadın)] = -1.47 + 0.593*1 = -0.877

  • Log -odds = -0.877 olaraq.
  • Beləliklə, odds = e^ (Bt.X) = e^ (-0.877) = 0.416
  • Və ehtimal aşağıdakı kimi hesablanır:

Beləliklə, 'qadın' olaraq yalnız 1 giriş xüsusiyyəti olduqda bir qadının mükafatlandırma ehtimalı 0,29-dur.

  1. B0, B1, B2,… Bk əmsallarının dəyərlərini tapmaq üçün tənliyə daxil olun: y = log (p/(1-p)) = β0 + β1*x1 +… + βk*xk = Bt.X, for x -in xüsusi dəyərləri.
  2. B0, B1, B2 dəyərlərinin dəyişdirilməsinin nəticəsi. Bu tənliyə daxil olan Bk və x dəyərləri, bir hadisənin log-oddsidir (yəni, x-in bu dəyərləri nəzərə alınmaqla, y = 1 log-odds). Beləliklə, əmsallar log miqyasında əldə edilir.
  3. İndi əmsalları nisbət miqyasına, daha sonra ehtimala çevirin. Tədbirin log-odds (Bt.X) dəyərindən istifadə edərək, əmsallar e^ (Bt.X) ilə əldə edilir. Sonra, hadisənin ehtimalı ilə əldə edilir .

IV. Önəmli bir sual:



S: Niyə birbaşa ehtimal modelini yaratmırsınız, niyə log-odds-a çevrilmə lazımdır?

1) Məhdud Səbəb problemi:

  • Ehtimal 0 -dan 1 -ə qədərdir
  • Şanslar 0 ilə ∞ arasında dəyişir
  • Giriş əmsalları - ∞ ilə +∞ arasında dəyişir

Ehtimallar, ehtimallar və log-odds hamısı bir hadisə ehtimalını ifadə etsə də, ehtimal və nisbətlər aşağıdakı səbəblərə görə istifadə edilmir: Verilənlər toplusundakı giriş dəyişənləri davamlı olaraq qiymətləndirilə bilər. Sonra, ehtimal və nisbətlər məhdud aralığa görə çıxış olaraq istifadə edilməməlidir.

Beləliklə, əmsallar çıxış aralığını genişləndirmək üçün log əmsallarına çevrilir.

2) Günlük nisbətlərinin qısa olması:

Həm ehtimal, həm də gündəlik nisbətlər bir hadisənin ehtimalını ifadə edir, baxmayaraq ki, ehtimal sadə insanlar üçün bir az daha anlaşıqlıdır. Bununla birlikdə, x-in dəyişməsinin (bütün digər dəyişənləri sabit saxlamaq) bir hadisənin ehtimalına təsiri daha yaxşı ehtimallarla və dolayısı ilə log-odds ilə ifadə edilir. Bunun səbəbi, hadisənin ehtimalının x-in dəyərinin dəyişməsi ilə dəyişdiyini, ancaq x-in dəyərlərinin dəyişməsi ilə hadisənin ehtimalının sabit qaldığını göstərir.

Bu, eyni vergi mötərizəsinin əks tərəflərində olan 2 nəfərə bənzəyir- onlar fərqli məbləğlərdə vergiyə cəlb olunur, lakin eyni vergi dərəcəsinə tabedirlər. Tutaq ki, 40000-80000 ABŞ dolları vergi aralığında 30% vergi var- 40000 dollar qazanan adam vergi olaraq 12000 dollar, 80000 dollar qazanan adam isə 24000 dollar vergi ödəyir, lakin hər iki şəxs üçün vergi dərəcəsi sabit idi (30%). X-in dəyəri (müstəqil dəyişən gəlirlər) dəyişdi, buna görə də y dəyəri (asılı dəyişən-ödənilən vergi) də dəyişdi. Ancaq 75000 dollar qazanan bir adamı nəzərdən keçirərkən və sırf 'qazanc' baxımından danışarkən, y-dəyərini 75000 dollara düzgün təsəvvür etmək üçün 'qazanc' ın maksimum, orta, minimum dəyərlərini qeyd etmək lazımdır. Ancaq sabit vergi dərəcəsi baxımından danışarkən, y dəyərini düzgün proqnozlaşdırmaq üçün yalnız 1 rəqəmi-30%-i nəzərə almaq lazımdır.

Beləliklə, əgər bir x dəyişəninin dəyərlərinin dəyişməsinin bir hadisə ehtimalı baxımından təsirini ifadə etsək, x-in maksimum, orta və min dəyərlərində 3 fərqli ehtimal dəyərini ifadə etməliyik. şəkil Lakin, log-odds, x şəklindəki dəyişikliyin daimi izahatı olaraq qaldığı üçün bütün şəkli çatdıran tək bir rəqəmdir. Beləliklə, qısa olmaq və məhdud aralıq probleminin qarşısını almaq üçün bir hadisənin ehtimalını modelləşdirmək üçün log-odds istifadə olunur; daha sonra (e^ (Bt.X))/(1+e^ ​​(Bt.X)) düsturu ilə ehtimala çevrilir.

V. İcra üçün Python və R kodları:



Bu keçid, LogR istifadə edərək R -ni tətbiq etmək üçün yaxşı bir başlanğıcdır.

Pythondakı aşağıdakı LogR kodu, Pima Indians Diabetes məlumat bazası üzərində işləyir. Pima hind irsindən əziyyət çəkən xəstələrdə şəkərli diabetin olub -olmayacağını proqnozlaşdırır. Kod bu saytdakı dərslərdən ilhamlanıb.