Statistikskolan. Del 2.

Vad baseras procenten på? Det är vanligaste frågan som jag får på twitter. Här kommer svaret. Maskininlärning.

Jag har varit inne på området och snubblat ett par gånger och ska här försöka göra förtydliganden. Idéen till “Better Than a Monkey” föddes för att kunna reda ut vilka parametrar verkligen betyder något och vilka som inte gör det. Slå hål på klyschorna. Och med målet, som namnet antyder, förutse hockey på ett bättre sätt än vad en apa skulle göra (>50%).

För att inte göra detta för komplicerat så kommer vissa förenklingar att göras. En uppsats om algoritmen ur ett spelande perspektiv finns för den som vill fördjupa sig. Denna är framtagen tillsammans med forskare inom maskininlärning på Jönköping University. Hör av er på mejl eller twitter så löser vi den.

Grundinformationen till algoritmen WAAPS (Bet-M i uppsatsen då “inte ens nobelprisvinnare döper sina metoder efter sig själva”. Jaja.) är alla matcher i SHL sedan 2010. Ur denna urvinns information och generas upp i en databas. Datat modelleras på ett sådant sätt att vi t.ex. kan se


– vilken form ett lag har
– hur bra det är/har varit över tid (PowerRank)
– hur bra motståndarna var vid matchens tillfälle
– offensiv/defensiv kraft
– Hur lagen har spelat mot varandra tidigare

Grundparametrar man ofta talar i när man ska förutse vem som ska vinna en match helt enkelt.

Lagen jämförs sedan mot varandra på olika nivåer likt, “Vilket lag är bäst?” “Hur mycket bättre är lag A?” osv. Totalt ställs lagen mot varandra på detta sätt i 47 frågor (kallas Feature Engineering i ML-världen).

Här ifrån är det “magin” skapas. Genom att lägga på en självtränande algoritm så tränar den fram vilka faktorer som är viktigast. Genom att testa sig om och om igen så når det och skapar sedan upp en formel som framtida matchers data körs igenom för att få fram sannolikheterna.

Genom träningen av modellen får vi en “score” på hur väl algoritmen som tränats fram kan prestera på historisk data.


Lite nyckeltal ur grafen. Accuracy är träffsäkerheten på när 1=1 och 2=2. Lite motsägelsefullt är 2 (bortaseger) “Positiv label” i min modell. Vi ser ovan att modellen idag har 805 “True Positve” och 444 “False Positive”. Detta innebär att det har blivit bortaseger, på historisk data, i 805 av de 1249 (805+444) fallen som modellen trodde på (64,5%). Hemmasegrar har fallit in på 1371 av 1945 (70,5%). Totalt landar då Accuracyn på 68,1%.

Detta innebär att vi förväntar oss att framåt, såvida inte förutsättningarna förändras tror vi på en träffsäkerhet på 68,1%. Vilket på samma sätt innebär att vi tror att vi kommer ha fel på 31,9% av framtida matcher.

Detta var ett försök på att inte göra det för tekniskt men har du frågor om modellen i stort eller maskininlärning så dra gärna ett mejl på erik.wilderoth@gmail.com eller kontakta mig på twitter.

Founder. Writer. Data Scientist. The Monkey beater.

Vem vinner SHL? Det är en fråga undertecknad får ofta. Svaret har alltid varit detsamma. “Det vill du inte veta”. “Hur kul skulle det vara att veta allt i förväg?”.

Men nu vill vi veta. Har under dagen genomfört en simulering för resten av säsongen för att avgöra vem som kommer vinna denna jämna säsong. Tidigare säsonger har jag genomfört “Points Predictions”. Detta är en enkel modell som jobbat med “regression mot medeltalet”. Dvs, ett lag som hållt högre poängsnitt än vad PowerRanken förutspått under säsongen kommer få ett lägre poängsnitt resten av säsongen. Och vice versa med ett bra lag.

Vi kan för skojs skull inleda att ta en titt på hur den modellen fungerade ifjol, med utgångspunkt på antalet matcher är dylikt till det vi har kvar i SHL (30% av säsongen).

TeamGamesPointsPointPredActualPointDiffRankPredictionActualRankRankDiff
VLH38821091167110
DIF376690955220
FBK39668787034-1
FHC386386948431
LHC37618678-859-4
SAIK386285872651
MIF365984862761
HV7137598381-2880
BIF37588270-12910-1
LHF3855758161073
OHK36446458-61112-1
RBK38405661512111
MIK37365351-213130
KHK38355147-414140

Snabbt konstaterande, den enkla modellen levererar helt ok. Luleå och Linköping är de enda två lagen som skiftar mer än en position mot prediktionen i slutändan. Vid prediktionens exekvering så skiljde det 8 poäng mellan 2-8 position. Så detta kunde varit en modell vi jobbar med i år med. Men så jobbar vi inte här. Här utvecklar vi saker.

Så först, hur tror Twitter det slutar?

Totalt har vi 336 poäng kvar att spela om. Metoden som används. Resten av säsongen simuleras med hjälp av WAAPS. Poängen fördelas baseras på vinstachans. Har ett lag har 66% vinstchans i en match så har laget tilldelats 2 poäng. Laget med med 33% får en poäng. På detta sätt har de 336 poängen fördelats på följande sätt.

TeamPoints
FBK29.9
MIF29.0
LHF28.7
DIF28.3
SAIK26.9
HV7124.7
VLH24.4
BIF24.2
LHC23.3
FHC23.1
RBK20.6
TIK20.3
OHK17.8
MIK14.8
Totalsumma336

Värda saker att påpeka,

  • Timrå tar nästan 6 poäng fler än bottenkollegan Mora
  • Färjestad tar 30 poäng. Flest av alla.
  • Malmö näst flest.
  • Frölunda tar däremot endast 23 poäng.

Hur påverkar detta då en sluttabell? (inkl. gamla modellen som benchmark också)

TeamGamesPoints TodaySimulationPoint Pred Old Model
LHF366492.789.4
FBK366291.988.5
MIF366089.085.3
DIF366088.384.5
FHC376285.187.2
SAIK365783.882.5
HV71365882.784.2
VLH365680.482.1
LHC365679.381.9
BIF365377.278.1
RBK365272.673.4
ÖHK364057.858.9
TIK353656.356.0
MIK364054.859.5

Så, där har vi det. Luleå vinner grundserien. HV, VLH, LHC och BIF hamnar i Play-In. Timrås spurt räcker…nästan. De följer med Mora till Kval.

Denna tabell kommer uppdateras minst på veckovis resten av säsongen.

Founder. Writer. Data Scientist. The Monkey beater.

Publicerade i veckan en graf över SHLs för dagen formstarkaste lags resa genom säsongen. Ibland går det upp och ibland går det ner. Det som åker upp kommer så småningom ner. Och när vi spelar så anser vi ju att form är viktigt. Är ett lag i bra form? Ja då är det rimligt att de vinner nästa match också. Eller? Hur är det egentligen, ett lag som har vunnit fyra raka matcher, är det rimligt att tro att den kommer vinna den 5:e också?

HV71’s form under säsongen. Lindom fick inte sparken i början utan i slutet av November.

Vi vänder oss till data och börjar med enkel matematik. Vi förutsätter att alla lag är lika bra och att det inte finns några andra aspekter än att en match är som att singla slant. Hur stor är sannolikheten att ett lag vinner 5 raka matcher då?

Ja det är ju 50/50 i alla matcher vilket leder till

50% chans att vinna 1
25% chans att vinna 2 raka
12,5% att vinna 3
6,25% att vinna 4
3,125% att vinna 5 raka

Detta är ju sannolikhetslära i sin enklaste form, vilken vi alla fått lära oss i grundskolan. Så hur ser det ut i SHL sista 8 åren? Vi inleder med att ta alla lag i våra beräkningar. Det finns 6198 datapunkter att gå igenom (3099 matcher).
Av de vinner förstås ett lag varje match.
Så vi inleder på samma siffra som matematiken har lärt oss.
50% chans att vinna 1
av dessa vann sedan 1572 match 2. Vilket är 25,4%
Av de 1572 som vann match 2 vann 801 match 3. 12,9%
Av de 801 som vann match 3 vann 404 match 4. 6,5%.
Av de 404 som vann match 4 vann 191 match 5. 3,082%.

Vi får ett resultat som är otroligt likt våra grundläggande matematiska kunskapers utfall. Förluststreakar är dock något mer förkommande. Se tabell nedan.

Antal matcher i radMatematiskt utfallUtfall vinstraderUtfall förlustrader
150%50%50%
225%25,4%25,1%
312,5%12,9%13,2%
46,25%6,52%7,20%
53,13%3,08%4,08%
61,56%1,45%2,36%
70,78%0,73%1,44%
80,39%0,32%0,94%
90,20%0,16%0,63%
100,098%0,097%0,436%

Titta noga på sista raden i tabellen. Enligt matematiken är det 0,098% chans att ett lag vinner 10 raka matcher. 0,097% har gjort det. 0,001% felmarginal.
Logik i kubik och helt fantastiskt samtidigt.

Men så här kan vi ju inte ha det. Vi delar upp lagen efter 3 grupper i stället.*
25% Bästa lagen Grupp 1.
25%-75% Mittenlagen Grupp 2
25% Sämsta lagen Grupp 3

Hur mycket mer sannolikt är det att ett lag ur Grupp 1 når 5 raka segrar än ett lag i Grupp 3?

Antal matcher i radMatematiskt utfallUtfall vinstrader Grupp 1Utfall vinstrader Grupp 2Utfall vinstrader Grupp 3
150%61%52%35%
225%35,4%26,24%12,73%
312,5%19,7%13,3%4,72%
46,25%10,72%6,5%1,94%
53,13%5,54%2,81%0,90%
61,56%3,01%1,15%0,32%
70,78%1,71%0,51%0,06%
80,39%1,00%0,10%0%
90,20%0,59%0%0%
100,098%0,354%0%0%

Sannolikheten att ett lag vinner 5 raka matcher är låg. Däremot skiljer sig den mellan grupperna. Såklart. Men om vi tittar på hur många som tar sig “vidare” för varje match så blir det mer intressant. Se grafen nedan. De bättre lagens (Grupp 1 och 2) vinstchans minskar för varje omgång. Medan de sämre lagens faktiskt ökar för varje omgång. (Nu ska vi komma ihåg att antalet datapunkter på “dåliga lag” som faktiskt vunnit 5 raka matcher är väldigt lågt, 14 st på 1548 försök).

Kommer ni ihåg Arsenals galna säsong i Premier League i början på 2000-talet när de gick obesegrade genom hela säsongen? Stora diskussion då var om de kommer närmre en förlust för varje vinst eller inte? Meningarna gick förstås isär. Men se vad som händer för bra lag (Grupp 1) i SHL efter 5 matcher. Vinstchansen minskar inte längre och vid 10 vinster i rad så är vinna normalläge, dvs. Vinstchansen är densamma som vid första matchen i streaken. *

Vad kan vi dra för slutsatser av detta sifferinferno?

  1. Snittet för SHL är identiskt med det vi fått lära oss i skolan. Gör vi inte skillnad på lag och lag så får vi en väldigt generell modell. Tänk på det nästa gång är t ex C More berättar att det är 25% chans att ett lag vänder en slutspelsserie baserat på historik. Detta är ett generellt tal. Är det inte ett generellt lag vi pratar om stämmer inte siffran.
  2. Endast 6 lag har vunnit 10 matcher i rad. Alla var topp 25% när de inledde streaken.
  3. Form är ett väldigt svagt sätt att förutse hur nästa match ska gå. Ett bra lag har något större chans att vinna nästa match än att förlora den. Alla lag som inte är topp 25% kommer faktiskt närmre en förlust för varje vinst.

*Gruppindelningen sker baserat på lagens PowerRank.
*Vinstchanserna är dock generella i denna modell. Ingen hemma/borta-justering eller motståndsjusterad. Alla motståndare behandlas lika. Komplexiteten/tid sätter stopp för en sådan artikel.

Founder. Writer. Data Scientist. The Monkey beater.

I alla tider har det spelats. 3000 år före Kristus skapades de första tärningarna, sedan dess har alla möjliga typer av spel vuxit fram och egentligen allt som ska ske i framtiden kan vi spela på idag; politik, sport, tuppfäktning, modelltävlingar, väder osv.

Det uppskattas att det finns omkring 500 olika spelbolag i Sverige idag. 500 spelbolag! Det är ganska tydligt att “huset vinner” allt som oftast. Spelen är utformade på ett sådant vis. Huset vinner. För att citera mig själv från en artikel i Jönköpingsposten 2017

– Det är inte säkert att ett lag vinner även om sannolikheten är 80 procent för att de ska göra det. Två gånger av tio vinner de inte, så det slår tillbaka. Spelbranschen är en miljardindustri… –  Erik Wilderoth

a

Men hur slår vi huset då? Ja, du är på Better than a Monkey så jag tror du förstår vart jag är på väg. WAAPS. Vi vet att WAAPS levererar någonstans kring 68% rätt i sina förutsägelser. Är det bra nog för att slå huset?

Mig veterligen finns det inga historiska odds att hämta ut från SHL, men däremot har jag kommit över två års historiska odds från NHL. Inspirerad av den fina sidan Corsica, som även där förutser hockeyresultat med hjälp av ML, så genomfördes back testing av algoritmen/modellen. Jag körde helt enkelt igenom de två senaste säsongerna av NHL för att jämföra resultatet.

Två hypoteser som jag därmed testade, 

  1. Genom att använda WAAPS, slår vi huset?
  2. Är modellen “bättre” än Corsicas?

För det första, att förutspå NHL är svårare än SHL. Ta en titt på tabellen nedan där vi jämför NHL och SHL med olika metodet. Procenten står för antalet vinster i procent. Så första raden – HomeTeam – innebär att i SHL så vann hemmalaget 56,6% av matcherna. I NHL vann hemmalaget 54,6%.

Vi ser även tyngden i PowerRanken och i så många fall som 67,2% vann laget som var bäst placerat i SHL. I NHL endast 63,8%. 

Men slår vi huset? Det korta svaret är Ja. Vi slår huset. Med rätt strategi gör vi det även rejält. Grafen baseras på att vi back testat säsongen 2016/2017 med de olika metoderna i tabellen ovan.

Olika utfall med olika spelmetoder.

Ett par saker att anmärka från grafen:

  1. Slutspelet som börjar i April kan vi skippa rent spelmässigt då i stort sett alla spelmodeller ger ett negativt utfall
  2. Odds-favoriten var ett sämre val än odds-underdogen. (Genom att generera fram en säsong till så justeras det till tvärtom)
  3. Att spela på laget som har högst poäng är en helt OK strategi

Men viktigaste skillnaden att kolla på är skillnaden mellan “WAAPS Favorite” och “WAAPS + Math“. Skillnaden mellan att använda sannolikheterna eller inte.

WAAPS Favorite är som det låter, du spelar blint på favoriten som WAAPS producerar. WAAPS + Math innebär att du spelar på det utfallet som ger bäst utfall i längden. Exempel: Washington möter Ottawa. WSH är favoriter med 65%-35%. Oddset ger WSH 1,3 vid seger. Ottawa får 3,0. Vem spelar du på? Med enkel matte kan vi se vilket vi vinner på i längden:
WSH   65% * 1,3 = 0,845
OTT     35% * 3  = 1,05

Svaret är det laget som får över 1,0. Över 1,0 och det är spelvärde i det.

Rent psykologiskt är det tungt att spela på den som troligen förlorar, men är du ihärdig med denna metod, vilket innebär att du spelar på alla matcher(!) och att sannolikheterna stämmer, då har du ett vinnande koncept.

I exemplet ovan har du en pott på $1000 när säsongen börjar. När den är slut har du $3235. Det är en ROI på ~225%. Vart kan du få det?

Så med den logiken har jag tagit fram spelbarheten för första gången:

MatchOdds 1:aOdds 2:aSannolikhet HemmasegerSannolikhet BortasegerSpelbar 1:a?Spelbar 2:a?
FHC-DIF1,552,4841,3%58,7%0,641,46
LHC-TIK1,343,362,2%37,8%0,831,25
MIK-ÖHK1,732,1440,4%59,6%0,701,27
FBK-HV711,622,3361,6%38,4%1,000,89
LHF-BIF1,732,1461,3%37,8%1,060,81
SAIK-RBK1,33,658,0%42,0%0,751,51

Men är Better Than a Monkey bättre än Corsica då?
Enligt back testingen, Ja. Men den tror jag vi ska avvakta kommande säsong med. Vi spelar om det helt enkelt.

Founder. Writer. Data Scientist. The Monkey beater.

WAAPS har gjort sitt val och det är ganska entydigt att Växjö Lakers är, i mediatermer, superfavorit. Skellefteå ska på sin sida få att de besegrat oddsen både i semifinal och kvartsfinal men nu möter den tuffaste av uppgifter att möta i svensk hockey. Växjö Lakers.

Om sanningen ska fram, inget lag har varit så bra som Lakers är enligt WAAPS motor. Någonsin. Och i detta fall är någonsin 2010.

Växjö Lakers har enligt WAAPS 82,3% chans att vinna SM-Guld 2018. Sannolikaste utfallet är 4-1 i matcher(27%) följt av 4-2 (21,2%), 4-0 (19,4%). Därmed bedömmer WAAPS det som sannolikare med 4-0 i matcher än att Skellefteå vinner SM-guld.

Dessa siffror är framräknade på relativt enkelt. WAAPS genererar upp alla matcher (Växjös vinstchans i % per match),

sen är det traditionella Exceluträkningar som gäller för alla utfall som finns. Detta summeras sedan ihop.

Logik i kubik. Hur sannolikt är det då att WAAPS får rätt i slutändan? Under slutspelet så har WAAPS haft rätt i 68% av mactherna (som vanligt). 59% av kvartsfinalerna och 90% av semifinalerna.

Founder. Writer. Data Scientist. The Monkey beater.

BTAM kommer under tid ligga nere. Tidsbrist är en anledning. Motivation i Kentaklass den andra. Dålig mix. Ev. återkommer WAAPS när slutspelet närmar sig. Vi får se. Ha de!

Founder. Writer. Data Scientist. The Monkey beater.

Back to Back (B2B), alltså att två lag möter varandra två dagar i rad är något som fortsätter gäcka WAAPS. Eller tänker jag fel?
Låt mig presentera dilemmat. Linköping och HV71 möts i ett dubbelmöte.
I första mötet går Linköping som stark favorit med 72,6%. HV vinner på straffar. I returen går HV som favorit (61,3 %), Linköping vinner med en kross. WAAPS utfall -> 0 av 2.

Men är det så fel egentligen? Till min fundering. Sample sizen (underlaget till algoritmen) är väldigt litet när det kommer till B2B, vilket gör att den gör vad den kan men jag får en känsla av att den behöver lite bias här, eller mer logik i vart fall. Andrew Gordon pratar i intervjun inför match 1 om att han ser det som 6 perioder, en match med fler poäng att hämta än vanligt. (ja då var det ju extra dumt att ta ett matchstraff Andrew men det är ju en annan historia). Vi struntar i att skifta match 2’s siffror till vad de var före (tidsbrist här) utan utgår från att de var på detta sätt innan dubbelmötet.

Match 1: 72,6% – 27,4%
Match 2: 61,3% – 38,7%

Vi har 4 olika möjliga utfall.
LHC vinner båda matcherna -> 28,1% sannolikhet
HV vinner båda matcherna -> 16,8% sannolikhet
LHC vinner första, HV andra -> 44,5% sannolikhet
HV vinner första, LHC andra -> 10,6% sannolikhet

Så det var alltså det mest osannolika som skedde, bortalagen vann båda matcherna. Men om vi vänder på synsättet? Använder Andrews logik med att räkna dom som en match dvs. ackumulera matcherna till en? Då har vi istället bara tre utfall ->

LHC vinner båda matcherna -> 28,1% sannolikhet
HV vinner båda matcherna -> 16,8% sannolikhet
Lagen vinner varsin match -> 55,1% sannolikhet

Det var alltså 55,1% chans att båda lagen skulle vinna varsin match, dock gjorde de det vid fel tillfällen. Så på det stora hela blev det helt rätt, på detaljnivå helt fel.

Det här med sannolikhetslära…

Founder. Writer. Data Scientist. The Monkey beater.

[Artikeln skriven innnan FBK – MIK]

Två veckor hockey är spelat, vilket innebär 34 matcher. Vad kan vi se för tecken av dessa matcher?

Vi kan börja med algoritmen som producerat strax under(65%) vad vi ska förvänta oss(68%) . Positivt är att det inte varit under 50% någon gång hittills. Efter fem pmgångar (som vi nu är uppe på-ish) så ökar intelligensen på WAAPS då mönster går att se tydligare. “Full fart” ska den vara uppe på vid 15 omgångar. Så med det i åtanke är 65% en bra siffra.

Idag presenteras även första Power Rank-förändringarna från säsongsinledningen. I och med att vi är fem omgångar in är förändringarna ganska väntad,e om vi jämför med tabellen. Största förloraren hittills är Brynäs och i andra riktningen ser vi topplagen Växjö och HV. Förbättrade eller inte går ju att fundera kring, HV som är svenska mästare och Växjö vann grundserien ifjol, men detta är förstås ett resultat av att regression mot medeltalet genomförts. (Växjö landade på högst Power Rank även i fjol, då de spurtade in på 641).

PositionTeamPower RankWeek ChangeSeason ChangeSeason Change %
1VLH61116437.5
2FBK590196312.0
3HV71555-230.5
4FHC550-2-9-1.6
5SAIK537-240.7
6LHC528-3-31-5.5
7BIF521-2-31-5.6
8 ↑DIF5012357.5
9 ↓MIF492-13-6-1.2
10LHF447-2-16-3.4
11 ↑OHK44316256.0
12 ↓KHK426-18-31-6.7
13 ↓MIK410-17-32-7.2
14RBK3865-23-5.5

På spelarfronten ska vi som sagt ta hjälp av GVT här på Better Than a Monkey, för att få hjälp att läsa av hur spelarna presterar.

Högst GVT har hittills HV71s nya back Topi Jaakola som inte varit inne på ett enda mål bakåt. Som det syns i grafen nedan så hamnar hela HVs backuppssättning högt då de tillskrivs en del av Linus Söderströms fina siffror. Offensivt dominerar Joakim Lindström i vanlig ordning, tätt följd av Djurgårdens nya duo, Enqvist och Bourque.

En intressant iakttagelse är hur många skott lagen släpper till per match i spel “lika många på banan”. Frölunda är tätast av samtliga då de på sina fyra matcher endast släppt till 16 skott per match. Ett lag som Karlskrona, som släpper till flest i ligan, ligger strax över 30 skott per match!

Frölunda har släppt in 3 per match i snitt, Karlskrona 1,5. Där har ni svaret på varför inga Frölunda-spelare syns till i toppskiktet (släpper till få skott = bra, släpper in många av de få som kommer fram = dåligt). Nu spelar förstås Frölundas 7 mål i baken mot Färjestad in stort här, så räkna med att killar som Dahlin och Nörstebö kommer klättra mot toppen här allt eftersom säsongen går.

Vill ni själva kolla alla spelare finns det under “Player Stats”.

Founder. Writer. Data Scientist. The Monkey beater.

Modellarbetet har det, som jag var inne på i förra inlägget, lagts en hel del tid på. Fokus under sommaren har varit att på att använda skott tillsammans med mål/poäng för att definiera hur bra lagen är. Detta har gjorts med gott resultat där modellen blir omkring 2 procentenheter bättre med hjälp av “shot metrics”. Genom PDO kan vi till exempel få indikationer om ett lag över/underpresterar. Genom CORSI kan vi få fram om en förlust är “ologisk” eller inte. Mycket gott för det med sig alltså! Men.. En datorkrasch under Augusti gör att mitt byggda program för att hämta in skott försvann. Så, det kommer när det kommer. Modellen är byggd och verifierade på data fram till SM-finalen HV-BIF men jag får inte in nya skott.

Det kommer när tid finns.

Men det finns ju förstås positiva saker att skriva om. Gott arbete under September för att få modellen att bli mer precis gör att den faktiskt blev ganska mycket bättre. Jag skrev ett inlägg om att WAAPS ev. var världens bästa modell med 66.5% i början av Augusti.

Nu, med uppdateringar når vi 69.7%!

Detta är faktiskt en bra siffra. Riktigt bra.

Med det sagt, här har vi kvällens siffror som är väldigt “aggressiva”. Skälen till det är ganska enkla, tidigare så har formen rullat mellan säsongerna i modellen vilket förstås är väldigt märkligt. Form finns förtecknat på två sätt, lång form och kort form. Dessa två är ju de samma första fem omgångarna vilket gör att bra form i början på säsongen får dubbel kraft. Så att ha vunnit första matchen ger väldigt bra effekt. Att förlora i sudden mot Frölunda borta som nykomling är klart bättre än att förlora mot Malmö med 5-0.
Rätt eller fel? Det får vi se efter kvällen.

Prognos uppdaterad 2017-09-21 06:54

H
Vinstchans
B
✔ FHC89,1%10,9%KHK
✔ MIK66,1%33,9%RBK
SAIK51,1%48,9%FBK ✔
BIF30,4%69,6%HV71 ✔
✔ ÖHK30,4%69,6%LHF
LHC11,0%89,0%VLH ✔
✔ DIF10,6%89,4%MIF

 

 

Founder. Writer. Data Scientist. The Monkey beater.

Dags för första omgången av SHL och därmed även säsongens första prediktioner från Better Than a Monkey och WAAPS. Vissa förändringar har skett med modellen sen säsongen slutade föregående säsong och fler ändringar kommer att komma under säsongen.

Vad som har förändrats.
Regression mot medelvärdet appliceras på säsongsstarterna. Det vill säga att varje lag måste bevisa sig när en ny säsong startar och kan inte leva på föregående säsong. Rimligt eller hur? Ett exempel på hur det fungerar ->
HV71 avslutade grundserien med en Power Rank på 609 och efter slutspelet var de uppe så pass högt som ~800. Medelvärdet för en Power Rank under säsongen 2016/2017 var 496. Därmed så regresseras deras Power Rank så att de börjar på 552,2 genom den enkla formeln (609+496)/2.
På samma sätt blir det för ett lag som hamnade under medelvärdet för en Power Rank, låt oss säga Rögle som slutade på 321. WAAPS förutsätter att de är bättre nu och regresserar upp värdet till 408,5 ((321+496)/2). Varje lag alltså bevisar sig därmed på nytt för varje säsong.
Den Power Ranken viktas sedan bort allt eftersom säsongen går enligt

(Antalet Spelade matcher Nuvarande Säsong/Totalt antalet grundserieomgångar) * Denna säsongs Power Rank + (1-(Antalet Spelade matcher Nuvarande Säsong/Totalt antalet grundserieomgångar)) * Inledande Power Rank

Ganska Straight Forward, eller hur?
Årets inledande Power Rank.

PositionTeamPower Rank
1VLH568
2FHC559
3LHC559
4HV71552,5
5BIF552
6 SAIK533,5
7FBK527
8MIF498
9LHF462,5
10DIF466
11KHK456,5
12MIK442
13ÖHK418
14RBK408,5

Som ni ser så hamnar inte Mora sist trots att de är nykomlingar. Eftersom det är oerhört svårt att bedöma skillnaden mellan divisionerna och hur skillnaden skiljer sig mellan säsongerna så bedöms alltid en nykomling till en början som en snittnykomling på alla sätt. Detta viktas alltså bort allt eftersom säsongen går med samma formel som ovan.

Så, här har vi årets första prognos. Form är ju som bekant en viktig del för WAAPS och den vets det ju som bekant inte mycket om inför en omgång ett så samtliga lag bedöms lika där. Så parametrarna som första prognosen till stor del bygger på är Power Rank, Hemma/Bortastyrka och tidigare möten mellan föreningarna.

Here we go.

Prognos uppdaterad 2017-09-14 20:05

H
Vinstchans
B
✔ HV7157,8%42,2%DIF
✔ LHF57,8%42,2%ÖHK
✔ MIF56,9%43,1%RBK
✔ FHC55,8%44,2%MIK
✔ VLH54,2%45,8%BIF
✔ FBK51,5%48,5%LHC
KHK43,3%56,7%SAIK ✔

Kommande förändringar tar vi allt eftersom de kommer.

Founder. Writer. Data Scientist. The Monkey beater.