Odds Assessment on Football Matches
Authors
Christensen, Tobias ; Hansen, Rasmus Dencker
Term
4. term
Education
Publication year
2007
Abstract
Denne afhandling udvikler modeller, der automatisk vurderer sandsynligheden for forskellige udfald af fodboldkampe. Motivationen er den store omsætning i betting; målet er at skabe vurderinger, der matcher eller overgår bookmakeres. Der bruges to datasæt: et detaljeret med kampbegivenheder fra de seneste tre år (kvantificeret som kategorier, fx antal afslutninger på mål) og et med kun resultater fra de seneste seks år. Modellerne bygger kun på information, der er kendt før kampstart, primært data fra tidligere kampe. Vi afprøver k-nærmeste nabo (k-NN), beslutningstræer, regression på mål og kombinationer af disse via ensemblemetoder. For k-NN søges der systematisk efter de bedste inputvariabler (features) og den bedste k-værdi. Beslutningstræer tilpasses til at give sandsynligheder frem for rene klassifikationer, og forskellige minimumsstørrelser på bladnoder testes. I målregressionen antages måltal at følge en Poisson-fordeling; hvert holds offensive styrke og defensive svaghed estimeres med maksimum likelihood. Ensemblemetoder bruges til at lave random forests (mange træer kombineret) og til at kombinere de øvrige sandsynlighedsmodeller. Evalueringen er todelt: som beslutningsstøtte for bookmakere vurderes modellerne med logaritmiske og kvadratiske scoringsregler, og der udvikles desuden en domænespecifik Bookmaker-Gambler-scoringsregel, hvor to modeller skiftevis agerer bookmaker og gambler. Til gamblingformål simuleres bets, når en model forventer positiv gevinst. Resultaterne viser, at det er svært at slå bookmakerne, men muligt at komme tæt på. Målregressionen er den bedste af de udviklede modeller og præsterer næsten på niveau med bookmakerne i de fleste tests. Testene indikerer, at beslutningstræer kræver et markant større datasæt for at fungere godt. Da målregressionen kun bruger mål, er der potentiale for forbedringer ved at inddrage flere faktorer.
This thesis builds models that automatically estimate the probabilities of different outcomes in football matches. The motivation is the large betting market; the goal is to match or outperform bookmakers’ assessments. Two datasets are used: a detailed event dataset from the past three years (turned into category counts such as shots on target) and a results-only dataset covering six years. The models rely only on information available before kickoff, mainly data from previous matches. We test k-Nearest Neighbors (k-NN), decision trees, goal-based regression, and combinations of these using ensemble methods. For k-NN, we systematically search for the best set of input features and the best k value. Decision trees are adapted to output probabilities rather than simple classifications, and different minimum leaf sizes are tried. In the goal regression, goals are assumed to follow a Poisson distribution; each team’s attacking strength and defensive weakness are estimated with maximum likelihood. Ensemble methods are used to build random forests (many trees combined) and to blend the other probability models. Evaluation is twofold: as decision support for bookmakers, models are scored with logarithmic and quadratic rules, and a domain-specific Bookmaker–Gambler scoring rule is introduced, where two models take turns acting as bookmaker and gambler. For gambling, we simulate placing bets whenever a model predicts positive expected return. Results show it is hard to beat bookmakers but possible to get close. The goal-based regression is the best of the developed models and performs almost as well as bookmakers in most tests. Tests suggest decision trees need a much larger dataset to perform well. Because the regression uses only goals, there is room to improve by adding other factors.
[This abstract was generated with the help of AI]
Documents
