Giriş

Yeniyetməliyimdən bəri həmişə qumar oynamağı və xüsusilə at yarışlarını sevirəm. Ölkənin ən prestijli və tanınmış yarış pistlərindən birinin olmasa da Saratoga Springs -də böyümüşəm. Turistlər, sərt qumarbazlar və idman həvəskarları, enişdən aşağı enərkən seçimlərini alqışlayaraq pistdə həyəcan hiss olunur. İki növ idman həvəskarıyam. Birincisi, hər kəs beysbol və ya futbol həvəskarı olduğu üçün bir azarkeşəm. Dövrümün böyük atları heç vaxt böyük sərmayələr olmurdu, amma nostalji və həyəcan oyadan yaddaqalan qələbələr var. İkincisi, mən qumarbaz kimi fanatam. Horseracing və Poker, riyazi olaraq qazanmaq mümkün olan iki əsas oyundur. Bacarıqlarınız evin kənarını tutarsa, pulunuzu boş yerə atmadığınız xəyalını təmsil edirlər.lakin potensialdıredilməsi pul. Əlbəttə ki, hər iki oyunda evin üstünlüyünü qazanmaq kiçik bir iş deyil, amma son bir neçə ildir ki, mənim etməyə çalışdığım şey budur.

Modelim 2013 Kentucky Derbisini məğlub etmək üçün çox sadəlövh bir iş adamı olaraq başladı. Əvvəlki iki Kentucky Derbisindən bəzi məlumatları əllə daxil etdim və finiş mövqeyində xətti bir reqressiya etdim. Qazanacağımı proqnozlaşdırdığım at, Saray Malice, 12 -ci yerdə gəldi. Maraqlısı budur ki, o, yarı yorucu yarışda liderlik etdi və çox müvəffəqiyyətli bir yaşlı at oldu (Kentukki Derbisi, bəlkə də insanlar üçün olimpiya yaşlı bir idmançıya bərabər olan üç yaşındakı bir yarışdır. Yaşlı at) 'dörd və ya daha böyük bir atdır və tam yetkin hesab olunur). Bacarıqsız olmağıma baxmayaraq, məşqi zövq aldım və düşündüm ki, bu vəzifəni sınayan ilk şəxs mən deyiləm. Bir az axtardıqdan sonra tam olaraq axtardığım kimi görünən bir məqalə ilə rastlaşdım.Müəllif, yarış üçün dəyər təyin edən bir model yaratdı və başa düşə biləcəyim statistikadan istifadə etdi. Hələ də bu kağız üç hissəli delikli, bir bağlayıcıda, bölmələri nişanlarla ayrılmış vəziyyətdədir. Hətta bunun üçün məzmun cədvəli də yazdım. 2013 -cü ildə modelimə ən çox təsir edən təsir bu oldu.

Sahib olduğum ilk irəliləyiş, məlumatları əllə daxil etməməyim idi, sadəcə satın ala bilərdim. Bələdçim olaraq Dayesin tezisi ilə Nyu Yorkdakı qış görüşləri ilə məşğul olan Aqueduct -da qaçan atlar haqqında bəzi məlumatlar aldım. Planım, modelimi hazırlamaq və 2013-2014 mövsümü üçün Aquedct görüşünü oynamaq idi. Təxminən .07 olan bir R^2 olan Excel -də xətti bir reqressiya modeli ilə sona çatdım və təzə məlumatların yerləşdirilməsi hər gün bir saat çəkdi. Təsadüfi silinmə və yenidən yazılmaya məruz qalmağımdan asılı olmayaraq, Aqueduct görüşündə əslində yaxşı iş gördüm. Əlbəttə ki, pul itirmişəm, amma ROI təxminən $ 94 idi. At yarışında kəsilən ev 15% ilə 20% arasında dəyişir, buna görə özümdən çox məmnun idim və bəzi düzəlişlərlə dəyərli bir şey əldə edəcəyimi bilirdim. O vaxtdan bəri modelimi inkişaf etdirməyə davam etdim.həm də mənim prosesim və sənədləşdirməyə layiq bir şey oldu

Məlumatların Hazırlanması

Keçmiş tamaşalar

Bu məlumatlar hər yarışdan əvvəl mövcuddur və hər atın keçmişdə nə qədər qaçdığı, nə qədər pul qazandığı və digər əlaqəli məlumatlar kimi məlumatları ehtiva edir. Bu fayllar müəyyən bir gündə yola çıxmadan əvvəl əldə edəcəyim şeylərlə eynidir. Buna görə də, bütün proqnozlaşdırıcı xüsusiyyətlərin ortaya çıxacağı yer budur. Məlumat dörd fayl növündə gəlir: .DDRF yarış başına bir rekorddur və hər yarış haqqında məsafə, səth və çanta kimi məlumatları ehtiva edir; .DR2 at başına bir rekorddur və hər bir at haqqında post mövqeyi, jokey və məşqçi kimi xülasə məlumatları ehtiva edir; .DR3, hər at üçün əvvəlki başlanğıcda bir rekorddur və atın hər əvvəlki başlanğıcı haqqında finiş mövqeyi və sürəti kimi məlumatları ehtiva edir; .DR4 at başına bir rekorddur və BRIS -in mülkiyyət statistikasını ehtiva edir, bunlardan ən başlıcası güc sayıdır,hər bir atın gücünün ümumi bir qiymətləndirməsidir.

Məlumatlarımın .DR* fayl formatlarında arxivləşdirilmişəm, ancaq yerli fayl uzantısını idarə edə bilməyən modelin əvvəlki iterasiyalarından .csv formatında saxlanılan əlavə məlumatlarım var. .Csv faylları üçün, ilk xarakter 1, 2, 3 və ya 4 olacaq, hansı növ fayl olduğunu göstərir. Bu faylları idxal etmək və verilənlər bazamı yaratmaq üçün müntəzəm ifadələr və plyr paketindən istifadə edəcəyəm.

Nəticələr

Bu, hər yarışdan sonra əldə edilə bilən məlumatlardır. Finiş qaydası haqqında məlumatlar bu fayllarda, həmçinin hər yarış üçün atların son əmsallarında və sıralarında yer alır. Yarış əvvəli mövcud olan məlumatlarda, hansı atların qeydiyyatdan keçdiyini və 'səhər xətti əmsalları' adlanan təxmini bir nisbət xəttini görə bilərəm. Yarış bitdikdə, qaçması planlaşdırılan bəzi atlar cızıqlaya bilər. Atlar sağlamlıq problemləri, pis hava və ya sadəcə əsəblər də daxil olmaqla müxtəlif səbəblərdən cızıqlaya bilər və bu məşqçinin və ya sahibinin istəyinə bağlıdır.

Yarış öncəsi məlumatlar kimi, nəticələr üçün fərqli fayl formatlarım var. Bir növ istifadə etdiyim bütün məlumatları olan bir fayl olan .RES -dir. Digəri, yarışın digər aspektləri haqqında daha çox məlumatı olan bir sıra sənədlərdir. Bu məlumatlar .1 və .2 fayldadır. Bugünkü məqsədlərim üçün hər iki nəticə faylında eyni ehtimal var, bu da son bahis, finiş mövqeyi və döyülmüş uzunluqlardır. Yarış öncəsi məlumatlar üçün etdiyim kimi bu fayllarda da çox oxşar bir rutin həyata keçirəcəyəm.

Bina Xüsusiyyətləri

İndi mənim xam məlumatlarım idxal edildikdən sonra onu təmizləməyə, yeni feildlərin hesablanmasına və reqressiyaya hazırlaşmağa başlaya bilərəm.

Hər bir məlumat dəsti işlənir

Xam məlumatların bir hissəsini ölçmək üçün məlumat dəstlərimdəki bəzi sahələri hesablayaraq başlayacağam.

Proqnozlaşdırıcıları birləşdirir

İndi proqnozlaşdırıcı məlumatları böyük bir məlumat dəstinə birləşdirəcəyəm.

Əlavə sahələrin hesablanması və yarış içi rəqabətin uçotu

At yarışlarının nəticələrini proqnozlaşdırmaqla bağlı əsas məsələ, hər bir yarışın eyni yarışda yalnız digər atlarla yarışdığı fikri ilə məşğul olmaqdır. Pul kisəsi 10.000 dollar olan aşağı sinif yarışı ilə 500.000 dollarlıq pul kisəsi olan yüksək dərəcəli yarış arasındakı fərqi düşündüyünüz zaman bu məsələ ortaya çıxır. Aşağı sinif yarışının qalibi 70 -ci illərdəki sürət rəqəmləri ilə daha əvvəl dəfələrlə qaça bilərdi. Bəlkə də hər başlanğıcda təxminən 1000 dollar qazanırlar. Yüksək dərəcəli yarışın qalibi, ehtimal ki, 90 -cı illərdə sürət rəqəmləri ilə qaçır və hər başlanğıcda ən az 25.000 dollar qazanır. Bir model hazırladığımda, görəcəyi şey 70, 1000 dollar, qalibdir; 90, 25.000 dollar, qalib. Modelin qohumu qiymətləndirə bilməsi üçün məlumatları hazırlamaq lazımdırhər atın gücü. Bu problemi həll etmək üçün hər bir atın qabiliyyətini, bir neçə statistikada, yarış yoldaşlarının qabiliyyətini ölçən sahələr yaradıram.

Nəticələri birləşdirmək

İndi olduqca yaxşı bir proqnozlaşdırıcı dəstə sahib olduğum üçün, modelə hazırlaşmaq üçün nəticələr məlumatlarını gətirəcəyəm. Təəssüf ki, yarış öncəsi və nəticə məlumatlarına uyğun yaxşı bir id sahəsi yoxdur. Əlimdən gələni edə biləcəyim ən yaxşı yol, tarix, yarış sayı və at adının birləşməsidir. Unikal id, track, tarix, yarış sayı və at nömrəsidir. Məsələ burasındadır ki, nəticələr faylında zamanla dəyişməyəcək 'proqram nömrəsi' yoxdur, ancaq atlar cızılarsa dəyişəcək 'poçt mövqeyi'. Bir at #5 -dirsə, 5 proqram nömrəsinə, yəni bahis etdiyiniz nömrəyə aiddir. 4 nömrəli at qaçmasa da, 5 nömrəli mövqe 4 -cü mövqedən sürüşüb qaçacaq.

Son hazırlıqlar

Modelimi məşq etməzdən əvvəl etmək istədiyim son şey qız yarışlarını, pis məlumatları süzmək və məlumatları doğrulama üçün təlim və test dəstlərinə ayırmaqdır. Məşq və testi at səviyyəsində deyil, yarışa görə ayırmam vacibdir. Bu daha sonra simulyasiya şəklində oynanacaq. Hələlik yalnız kirli qaçışlarda, yəni bir milin altındakı yarışlarda məşq edəcəm, torpaq yolunda qaçacağam. Bu yarış qrupu, digər növlərə nisbətən modelləşdirilməsinin daha asan olduğunu sübut etdi və mən qazanc əldə etdiyim yeganə seqmentdir. Ümidim daha çox məlumatla fərqli yarış növlərini uğurla modelləşdirə biləcəyimdir.

Modelin öyrədilməsi

İndi çətin işin öhdəsindən gəldiyim üçün nəhayət proqnozu əldə edə bilərəm. Sistemim iki addımda işləyir. Əvvəlcə hər bir atın uzunluğunu proqnozlaşdırmaq üçün bir model hazırlayıram. Sayı nə qədər aşağı olsa, at daha yaxşı olar. Bunu bir günlük miqyasında proqnozlaşdırıram, çünki bir uzunluqla iki uzunluq arasında itirmək arasındakı fərq 11 uzunluqla 12 arasındakı fərqdən qat -qat böyükdür. İkinci addım yarışı simulyasiya etməkdir. Model proqnozumla minlərlə yarışda nələr ola biləcəyi arasındakı normal performans fərqlərini simulyasiya etmək üçün monte carlo texnikasından istifadə edirəm. Hər simulyasiya edilmiş yarış üçün "qalib" i qeyd edirəm və hər at üçün qaliblərin sayını hesablayıram. Mənim proqnozlaşdırılan bahis xətti, hər atın qazandığı simulyasiya edilmiş yarışların faizinə əsaslanır. Daha çox uzatmadan, döyülmüş uzunluq modelini öyrədəcəm.

Modelin qiymətləndirilməsi

R 2 -nin təxminən 20%olduğunu görə bilərik ki, bu da at yarışında nə qədər fərqlilik olduğunu nəzərə alsaq pis deyil. Mənim məqsədim pul qazanmaqdır. Beləliklə, sual modelimi gəlirlilik üçün necə sınamaqdır. Cavabım, proqnozlaşdırdığım uzunluqlara əsaslanan yarışları simulyasiya etmək və hər atın nə qədər simulyasiya edilmiş yarışlar qazandığını saymaqdır. Hər atın qazanma ehtimalı haqqında bir fikir əldə etdikdən sonra, gəlirliliyi yoxlamaq üçün bir bahis strategiyasını sınaya bilərəm. Təlim dəstini müxtəlif standart sapmalarla simulyasiya edəcəyəm. Stantard sapma təxminən .871 -dir, buna görə yaxşı bir başlanğıc nöqtəsidir. Ancaq keçmişdə həmişə simulyasiyalarımda daha yüksək bir varyans istifadə etməyin ən yaxşı olduğunu gördüm.

Ən yaxşı simulyasiyanı görüntüləyin

Qazanma məlumatlarını, həqiqi qazanma məlumatlarını proqnozlaşdırdığım və məlumatlarımı qruplaşdırdığım üçün, hər simulyasiya üçün proqnozlaşdırılan ilə faktiki arasında plan quracağam. Ən yaxşı seçim y = x tənliyi ilə gözəl bir xətti əlaqəyə sahib olacaq, yəni proqnozlaşdırdığım qazanma faizi 15%olarsa, həqiqi qazanma faizi 15%olacaq. Süjetlərin necə göründüyünə baxaq.

1.321 varyanslı simulyasiya ən yaxşı görünür. Ən uyğun xətt tam olaraq düzgün tənliyə malikdir və nöqtələr gözəl bir xətti əlaqəyə sahib görünür. Gəlirliliyi yoxlamaq üçün bu fərqi istifadə edəcəyəm.

Gəlirlilik

İndi bir bahis strategiyası hazırlayacağam və məşq məlumatlarında və test məlumatlarında sınayacağam. Təlim dəstinə tətbiq etdiyim 1.321 varyans simulyasiyasından istifadə edərək test məlumatlarını simulyasiya etməli olacağam. Bahis strategiyam, optimal bahis ölçüsünün bahisin nə qədər dəyərli olması ilə mütənasib olduğu Kelly Kriteriyasına əsaslanacaq. Məsələn, 2-1 olması lazım olduğunu düşündüyüm bir at, amma xalqa bahis 10-1 verərsə, bu son dərəcə dəyərli bir fürsət olardı və eyni atın 3-1 nisbətində olandan daha çox bahis edərdim.

Modelin yerləşdirilməsi

ROI -də bir neçə faiz daha çox cızmaq istərdim, amma modelim mütləq doğru bir şey edir. Mən mahiyyətcə hətta bir parça kəsilməsinə qarşı çıxıram

20%. Müxtəlif bahis saytlarının təklif etdiyi bonusları nəzərə alaraq, şübhəsiz ki, işlərin sağ tərəfindəyəm. Əlbəttə ki, əslində pozulmuş modelimlə alqoritmik bahis etmirəm. Trasa çıxanda bələdçi kimi istifadə edirəm, ancaq hər cür bahislər edirəm - yalnız qazanmaq üçün deyil. Modeli "çatdırıla bilən" vəziyyətə gətirmək üçün onu test dəsti daxil olmaqla bütün məlumatlarımda yenidən hazırlayıram. Sonra bu kimi görünən müvafiq məlumatları olan bir masa çıxışı yaradıram: