Statistika və iş məlumatları: gözlənilməz dəyərlərin aşkarlanması

Bir məlumat cədvəli ilə qarşılaşanda ondan məlumat çıxarmaq üçün hansı üsulları tətbiq edirik? Bəlkə etdiyimiz ilk şey xülasə yaratmaqdır. Sütunları toplaya bilərik və ya məlumatları göstərə bilərik. Bəlkə də PivotTable yarada və alt cəmlərə nəzər yetirə bilərik.

Ümumiyyətlə, məlumatları ümumiləşdirmək faydalıdır. Anlamaq asandır və etmək asandır.

Deyək ki, bir mağaza işlədirik və birinci rübdə satdığımız kiçik bir məlumat dəstimiz var. Excel-dən istifadə edərək asanlıqla fərqli insanlara neçə məhsul satdığımızı izah edən xülasə hesabatlar yarada bilərik; neçəsi kişilərə, neçəsi qadınlara; 40 yaşdan yuxarı insanlara nə qədər və 40 yaşdan kiçik insanlara.

Bütün bu cəmi faydalıdır. Onları müqayisə edib maraqlı fərqləri axtara bilərik. Kişilərə qadınlara nisbətən daha çox məhsul satdığımızı və ya menecerlərin digər peşələrdən daha çox məhsul aldığımızı görə bilərik.

Ancaq bundan daha çox məlumat əldə edə bilərikmi?

Menecerlər digər peşələrə nisbətən qeyri-adi dərəcədə çox məhsul aldımı? Bu rəqəm bir növ qərəzli olduğunu göstərə biləcək qədər yüksəkdirmi?

Bu tip sualların cavabları daha yaxşı iş qərarları qəbul etməyə imkan verir. Bəlkə də məhsullarımızın menecerlər üçün əhəmiyyətli dərəcədə daha cəlbedici olduğunu bilsək, reklam siyasətimizi digər peşələrə nisbətən hədəf menecerlərə dəyişə bilərik.

Bu tip suallara cavab vermək üçün məlumat anbarlarına və məlumat hasilatı alətlərinə ehtiyacımız olduğunu düşünə bilərsiniz. Ancaq bu mütləq doğru deyil. Məlumat anbarı və məlumat yığma əla vasitədir, lakin Excel və Excel də bu tip suallara cavab vermək üçün istifadə edə biləcəyimiz bəzi inkişaf etmiş statistik funksiyaları ehtiva edir.

Əsasları anlamaq

Əvvəlcə məlumat dəstimizə nəzər salaq.

Verilərimiz ticarətin son rübündə topladığımız müştəri məlumatlarını ehtiva edir. Hər dəfə bir satış etdikdə müştəri ilə bağlı müəyyən məlumatlar qeyd etdik. Məsələn, Ailə Vəziyyətlərini, Cinsiyyətlərini, Təhsil səviyyələrini və Peşələrini (digər sahələr arasında) qeyd etdik. Məlumat dəstimizdə 1000 qeyd var.

İndi deyək ki, işğal sahəsini analiz etməkdə maraqlıyıq. Müəyyən peşələrin məhsullarımızı digər peşələrə nisbətən daha çox almağa meylli olub olmadığını bilmək faydalı olardı. Bu, bizim üçün əsas iş zəkası olacaqdır.

Bəs buna necə qərar veririk?

Əvvəlcə bəzi xülasələr hazırlayaq. Gəlin hər peşəyə neçə satış etdiyimizi və hər peşənin ümumi satışın faizini hesablayaq və bu rəqəmləri bir cədvəldə göstərək. Hər peşəyə satılan nisbətlərin sadə, vizual göstəricilərini vermək üçün bir dairə diaqramı da əlavə edəcəyik.

Bunu etdikdə, indi özümüzə bir daha sual verək: Müəyyən peşələr məhsullarımızı digər peşələrə nisbətən daha çox alır?

Professional və Bacarıqlı Təlimatın digər peşələrə nisbətən məlumatlarda daha çox meydana gəldiyini və Təlimatın ən az meydana gəldiyini görə bilərik. Bəs bu, ümumiləşdirməyə və Professional və Bacarıqlı Təlimatın məhsullarımızı ümumiyyətlə digər peşələrə nisbətən daha çox aldığını bildirməyimizə imkan verən bu qədər məlumat varmı?

Bəli, həqiqətən deyil.

Niyə? Çünki bu cəmi barədə bir şey söyləmədən əvvəl onları müqayisə etmək üçün bir etalon göstəricisinə sahib olmalıyıq. Hər peşə üçün gözlənilən rəqəmləri hesablamaq üçün bir yolumuz olmalıdır . Bir peşənin gözlənilən saydan çox satışa sahib olması halında, bu, hər peşəyə satılan məhsulların miqdarı arasında gözlənilməz bir fərq olduğunu söyləməyə bir addım daha yaxınlaşır.

Gözlənilən dəyərləri təyin etmək üçün ehtimal barədə bir az düşünməliyik.

Hər hansı bir satış üçün peşənin Professional olma ehtimalı nə qədərdir? 5 peşə var və hər satışa yalnız bir peşə təyin edilə bilər, ona görə də Peşəkar olma ehtimalı 5-dən 1-i yəni 20% -dir. Əslində məlumatlarda heç bir qərəzin olmadığını fərz edərək hər işğal üçün ehtimal 20% -dir.

Beləliklə, hər hansı bir qərəzsiz məlumat üçün,% 20-nin Professional, 20% Kargüzarlıq, 20% İdarəetmə, 20% Manual və 20% Bacarıqlı Manual olacağını gözləyirik.

Beləliklə, 1000 qeyd üçün hər peşənin 200 satışa sahib olmasını gözləyirik.

Ancaq sağlam düşüncə, hər peşə üçün tam 200 satış əldə etməyimizin çox çətin olduğunu söyləyir . Demək istədiyimiz odur ki, hər peşə üçün təxminən 200 satış əldə etməyi gözləyirik .

Həqiqi məlumatlara baxdıqda Klerikalın 1000 qeyddən 177-də göründüyünü görürük. Bu, gözlənilən dəyərdən -23 fərqdir. Təxminən 200 sayılmaq üçün bu 200-ə yaxındır ?

Bacarıqlı Təlimatda 255 qeyd var; +55 fərq. Bu fərq əhəmiyyətli dərəcədə fərqlənəcək qədər böyükdürmü ?

Verilərimizdə 255 Bacarıqlı Əl qeydləri mövcuddur. Bunun ehtimalı nə qədərdir? Yəni hər bir qeyd beş peşədən birini tuta biləcəyi halda 1000-dən 255 Bacarıqlı Əl qeydinin olma ehtimalı nə qədərdir?

Ayrıca, 200 Bacarıqlı Əl qeydinin olmasını gözlədiyimiz üçün, 200 qeydin olma ehtimalının başqa bir saya sahib olma ehtimalından daha yüksək olmasını da gözləmək məntiqli görünür. 205 qeyd alma ehtimalının 220 alma ehtimalından daha yüksək olacağını da gözləyirik (çünki 205 220-dən 200-ə yaxın olduğundan).

Beləliklə, 200-dən uzaqlaşdıqda ehtimalların azalacağını və 0-a doğru azalacağını gözləyirik.

Nəhayət, ehtimallar o qədər kiçik olduqda bu dəyərlərin qərəzsiz məlumatlarda meydana gəlməsi ehtimalı çox az olacağını düşünürük . Buna görə də, bu dəyərlər meydana gəlmişsə , məlumatlarımızın qərəzli olma ehtimalı yüksəkdir .

Bəs bu ehtimalları necə hesablayırıq?

Bunları binomial paylama adlanan bir şeydən istifadə edərək hesablayırıq .

Binomial Dağıtımdan istifadə

Məlumatların ikitərəfli paylanacağı gözlənilir, əgər:

  • Sonlu sayda qeyd var;
  • Bir qeydin dəyərinə digər qeydlərin dəyəri təsir etmir;
  • Hər bir qeydin doğru və ya yalan dəyəri var;
  • Bir qeydin true dəyərinə sahib olma ehtimalı hər qeyd üçün eynidır;

Əvvəlcə məlumatlarımızın bu xüsusiyyətlərə sahib olduğu görünmür. Ancaq belədir - buna biraz fərqli baxmaq lazımdır.

Peşə sahəsi ilə maraqlanırıq və beş peşə olduğunu bilirik. Ancaq beş peşəni bir anda nəzərdən keçirmək əvəzinə, hər dəfə yalnız bir peşəni nəzərdən keçirək. Bacarıqlı Təlimatdan başlayaq.

Sonlu sayda qeydimiz var (1000); bir qeydin işğalı başqa bir qeyddən təsirlənmir; qeydin Skills Manual dəyərinə sahib olma ehtimalı həmişə eynidır (20%); və hər bir qeyd Bacarıqlı El Kitabı və ya Bacarıqlı El Kitabı deyil .

Beləliklə, Bacarıqlı Təlimat məlumatları tələb olunan xüsusiyyətləri nümayiş etdirir və buna görə də Bacarıqlı Təlimat məlumatlarının ikili paylandığını gözləyirik .

Eyni prinsiplərdən istifadə edərək qalan dörd peşə üçün də eyni olduğunu görə bilərik. Beş peşənin hamısını bir anda nəzərdən keçirmək əvəzinə, hər birini bir-bir nəzərdən keçiririk. Hər işğal etməlidir binomially paylanacaq. Olmayan bir peşə tapırıqsa, məlumatlarımızda qərəzli bir ehtimal var.

Excel-də BINOMDIST adlı bir funksiya mövcuddur ki, hər bir qeydin həqiqət olma ehtimalının müəyyən və sabit bir olduğu sabit say sayından X həqiqi dəyər əldə etmə ehtimalını hesablayır. Başqa sözlə, BINOMDIST binomial ehtimalı hesablayır .

Məsələn, hər bir qeydin% 20 olma ehtimalı olduğu 1000-dən 150 həqiqi qeyd əldə etmək ehtimalını belə hesablaya bilərik:

= BINOMDIST (150, 1000, 0.2, YALAN)

Ehtimalların necə paylandığını göstərmək üçün (yəni yüksək dəyərlərin olduğu yerdə və aşağı dəyərlərin olduğu yerlərdə) 1 ilə 1000 arasındakı hər bir dəyər üçün BINOMDIST-i hesablayaq. Başqa sözlə, 1 həqiqi qeydin çıxma ehtimalını hesablayacağıq. 1000, 2 həqiqi qeyd, 3 həqiqi qeyd və s. Sonra bu dəyərləri bir qrafik üzərində quracağıq.

Aşağıdakı cədvəli nəzərdən keçirin.

Diqqət yetirin ki, ən yüksək dəyər (qrafikin zirvəsi) 200-dür? 200-dən uzaqlaşdıqca ehtimalların 0-a doğru azaldığına da diqqət yetirin.

Cədvələ baxaraq bildirə bilərik ki, əgər məlumatlarımız binomial olaraq paylanarsa, hər hansı bir peşə üçün 150 və ya daha az qeydə sahib olma ehtimalı çox azdır . Buna görə, həqiqətən hər hansı bir işğal üçün 150-dən az qeydimiz varsa, bu, məlumatlarımızın binomial olaraq paylanmasının mümkün olmadığını göstərir.

Əvvəlki cümlədəki ehtimalın ehtiyatlı istifadəsinə diqqət yetirin . Ehtimallarla işləyərkən nadir hallarda hər hansı bir şeydən 100% əmin ola bilərik. Bunun əvəzinə, həqiqətləri müəyyən bir ehtimala sahib olaraq ifadə edirik. Buna etimad səviyyəsi deyilir .

Güvən səviyyəsi məlumatlarımızın müəyyən peşələrə meylli olub olmadığını və ya peşələr arasındakı fərqlərin sırf təsadüfən baş verdiyini həll etmək üçün lazım olan son vasitədir.

Verilərimiz barədə nəticə çıxarmazdan əvvəl hansı etibar səviyyəsindən məmnun olduğumuza qərar verməliyik. 95% etimad səviyyəsi səhv nəticə çıxarmaq ehtimalımızın% 5 olması deməkdir; % 99 güvən səviyyəsi, səhv etməyimiz üçün% 1 şansın olması deməkdir.

Nə qədər özümüzə güvənməliyik?

Güvən səviyyəsi özümüz üçün qərar verməyimiz lazım olan bir şeydir. Tipik olaraq 95% və ya 99% -dir. Bu məqalənin məqsədləri üçün% 95-ə sadiq qalaq.

Artıq özünəinam səviyyəsinə sahib olduğumuza görə binomial paylanmanın kritik dəyərləri deyilənləri hesablaya bilərik .

İki kritik dəyəri hesablayacağıq. Bunlar:

  • Daha aşağı sərhəd : binomial paylanmış dəyişən üçün ən kiçik həqiqi qeydlər (xüsusi etibar səviyyəsində);
  • Yuxarı Bağlı : binomial paylanmış dəyişən üçün ən çox həqiqi qeyd (xüsusi etibar səviyyəsində);

Kritik dəyərləri CRITBINOM funksiyasından istifadə edərək hesablayırıq.

Aşağı sərhədləri hesablamaq üçün edirik:

= KRİTBİNOM (1000, 0.2, 0.025)

Bu, 176 dəyərini qaytarır.

Üst həddi hesablamaq üçün edirik:

= CRITBINOM (1000, 0.2, 1-0.025)

Bu, 225 dəyərini qaytarır.

Kritik dəyərlərin məlumatlarımızdakı qeydlərin ümumi sayından (1000), hər bir qeydin doğru olma ehtimalından (20% və ya 0,2) və işləmək istədiyimiz etibar səviyyəsindən (0,5 / 2 = 0,025) asılı olduğuna diqqət yetirin. Bu dəyərlər dəyişirsə, kritik dəyərlər dəyişir. Məsələn, 1000 deyil 2000 qeyd olsaydı, kritik dəyərlər fərqli olardı.

Etibar səviyyəsini bir səhv səviyyəsi olaraq təyin etdiyimizə də diqqət yetirin. Yəni 0.95 etibar səviyyəsini təmin etmirik, 0.05 səhv səviyyəsini təmin edirik.

Üstəlik, iki quyruqlu test deyilən bir işi həyata keçiririk, yəni gözlənilən dəyərdən xeyli aşağı və ya xeyli yüksək olan fərqlər axtarırıq. Buna görə səhv səviyyəmizi 0,05 ilə 0,025 arasında yarıya endirməliyik.

Beləliklə, indi məhdudiyyətlər var. Bunlar, məlumatlarımızın binomial olaraq paylanıb-paylanmadığını müəyyən etməyə imkan verir.

Hər bir məşğuliyyətin 1000-dən 200 dəfə baş verəcəyini gözləyirik. Bu kritik dəyərlər, kifayət qədər yaxın sayılması üçün həqiqi hadisələrin sayının 200-ə yaxın olmasını izah edir .

Beləliklə, müəyyən bir peşə üçün qeydlərin sayı 176 ilə 225 arasındadırsa, bu işğalın 95% binomial olaraq paylanması ehtimalı vardır. Əks təqdirdə, işğalın binomial olaraq bölüşdürülməməsi ehtimalı 95% -dir.

Verilərimizin binomial olaraq paylanmadığını kəşf etsək, məlumatları təsadüfdən başqa bir şey müəyyənləşdirir.

Hesabat hazırlanır

Bu biliklə silahlanmış olaraq, İşğal sahəsi üçün hesabatımızı hazırlamağa hazırıq. Özümüzə verdiyimiz sualı təkrarlayaq: Müəyyən peşələr məhsullarımızı digər peşələrə nisbətən daha çox alır?

Budur hesabat:

Say sütunu, hər bir peşənin meydana çıxma sayını saymaq üçün sadəcə COUNTIF istifadə edir. Dağıtımların bəzi əyani göstəricilərini təqdim etmək üçün bəzi şərti formatlanmış məlumat çubuqlarını əlavə etdik.

Score sütununda şərti formatlaşdırma da istifadə olunur. Yuxarı ox, işğalın gözləniləndən daha tez-tez olduğunu göstərir; üfüqi ox, işğalın gözlənilən sayda meydana gəldiyini (yəni binomial olaraq paylanır) və aşağı oxun işğalın gözləniləndən daha az baş verdiyini bildirir.

Qiymət sütunundakı formula aşağıdakı kimidir (hüceyrə istinadlarını şərh etmək üçün rəng vurgularını istifadə edin):

Yəni düstur sayımı alt və yuxarı sərhədlərlə müqayisə edir və -1 (alt sərhəddən az), 0 (alt sərhəd və yüksək sərhəd arasında) və ya 1 (yüksək sərhəddən böyük) qaytarır.

Aşağı Bağlı və Yüksək Bağlı hüceyrələrdəki funksiyalar əvvəlki kimi CRITBINOM istifadə edir.

Aşağı Bağlı hüceyrədəki funksiya:

Nəticələrin təfsiri: Bu həqiqətən nə deməkdir?

Yenidən nəticələr cədvəlinə baxaq:

Bu təhlilə görə yalnız Clerical binomial olaraq paylanır. Bütün digər peşələr deyil. Bəs, bundan hansı nəticələr çıxarmaq olar? Bu analiz həqiqətən bizə nə deyir ?

Nümunə olaraq Bacarıqlı Təlimatı götürək.

Təhlillərimiz, Bacarıqlı Əl ilə işğalın məlumatlarda gözlədiyimizdən daha tez-tez baş verdiyinə 95% əmin ola bilərik.

Bu həqiqətən Bacarıqlı Əl işçilərinin məhsullarımızı üstün tutması deməkdirmi ?

Təkcə rəqəmlər bizə bunu demir. Bütün rəqəmlər bizə gözlənilmədən çox sayda Bacarıqlı Əl işçisinin məhsullarımızı aldığına 95% əmin ola biləcəyimizdən xəbər verir. Ancaq bunun müxtəlif səbəbləri ola bilər. Bəlkə mağazamız bir tikinti sahəsinin yanında və ya bəlkə bir fabrikin yanında.

Bu vacib real amillər rəqəmlərlə ifadə edilmir və bunun əvəzinə informasiya işçiləri olaraq özümüzdən gəlməliyik. Rəqəmləri götürməli və iş biliklərimizi onlara tətbiq etməliyik.

Rəqəmlər sehrli cavabları ehtiva etmir, lakin bizə izah və anlamağa çalışmalı olduğumuz bəzi maraqlı xüsusiyyətlər verir.

Rəqəmləri ağıllı iş qərarları verməyimizə kömək edəcək bir vasitə olaraq istifadə edə bilərik, ancaq rəqəmlər bizim üçün qərar vermir.