WM-Vorhersage – Das Finale

27.6.2014 | 6 Minuten Lesezeit

Die WM-Vorrunde ist vorbei. Heute beginnen die ersten Spiele des Achtelfinales. Höchste Zeit also, neue Vorhersagen abzuliefern. Bei den bisherigen Spielen war unser favorisiertes Random Forest Modell mit knapp 46% Genauigkeit leider nicht so gut, wie wir es uns erhofft hatten. Ein möglicher Grund für das schlechte Abschneiden ist die „Heimspielproblematik“, auf die wir weiter unten noch eingehen werden. Die genauere Analyse heben wir uns aber für einen späteren Blog-Post auf. Unser Ziel war ja ursprünglich, den Weltmeister vorherzusagen. Das sollten wir so schnell wie möglich erledigen – am besten noch bevor der Schiedsrichter das Endspiel abpfeift.

Jeder gegen Jeden

Für die Gruppenphase waren die Begegnungen vorgegeben. Es war leicht, genau diese Begegnungen in unser Modell zu füttern und entsprechende Vorhersagen zu erhalten. Die KO-Runde ist dynamischer. Es steht mittlerweile fest, wer es ins Achtelfinale geschafft hat. Aber niemand weiß, welche Teams tatsächlich im Laufe des Turniers noch gegeneinander antreten werden. Deshalb haben wir einfach eine Liste aller theorethisch möglichen Begegnungen erstellt und diese in unsere Feature-Berechnungs-Maschinerie gesteckt. Die folgende Liste ist ein kleiner Ausschnitt der berechneten Siegwahrscheinlichkeiten :

1"b_team_home";"b_team_away";"HOME_WIN";"AWAY_WIN"
2"ARG";"ARG";0,5;0,5
3"ARG";"BEL";0,446;0,554
4"ARG";"BRA";0,436;0,564
5"ARG";"CHE";0,44;0,56
6"ARG";"CHL";0,456;0,544
7"ARG";"COL";0,434;0,566
8"ARG";"CRI";0,508;0,492
9...

Es ist schwer zu erkennen, wer nun in dieser Liste tatsächlich die Nase vorne hat. Eine Visualisierung erleichtert dies. Dafür erstellen wir zuerst eine 8×8-Matrix. Jeder Eintrag der Matrix entspricht einer Begegnung. In den Zeilen werden die Heimmannschaften abgetragen. In den Spalten die Auswärtsmannschaften. Der Eintrag 56,8% in der Zeile DEU und der Spalte FRA entspricht also der Wahrscheinlichkeit, dass Deutschland im Spiel DEU-FRA siegreich vom Platz geht. Folgendes R-Skript wurde für die Berechnung der Matrix verwendet:

1allgame_predictions <- predict(
2    model,
3    newdata=all_possible_wm_games,
4    type="prob",
5    na.action=na.fail)
6 
7teams <- unique(wm2014_all$b_team_home)
8# each cell is the probability of the row-team winning against the colum team
9winprob_matrix <- matrix(0, nrow=length(teams), ncol=length(teams))
10rownames(winprob_matrix) <- teams
11colnames(winprob_matrix) <- teams
12for(x in teams) {
13  for(y in teams) {
14    winprob_matrix[x,y] <- allgame_predictions[
15      all_possible_wm_games$b_team_home == x & 
16      all_possible_wm_games$b_team_away==y,
17      "HOME_WIN"]
18  }
19}

Diese Matrix nehmen wir nun als Grundlage für eine Heatmap. Zuerst werden die Zeilen und Spalten so sortiert, dass die Teams mit der durchschnittlich höchsten Siegwahrscheinlichkeit weiter oben platziert werden. In der Grafik ist eine rote Färbung ein Zeichen dafür, dass ein Sieg der „Zeilenmannschaft“ wahrscheinlicher ist, während eine blaue Färbung ein Zeichen für einen Sieg der „Spaltenmannschaft“ ist. Das Feld in der zweiten Zeile (von unten) und der ersten Spalte (von links) ist leicht rot. Ein Indiz für einen deutschen Sieg im Spiel DEU-FRA.

Anmerkung: In der Matrix sind die Zeilen von oben nach unten nummeriert. In der Grafik ist die Zeilennummerierung genau umgekehrt. Wenn jemand einen Tipp hat, wie man das mit „levelplot“ anders machen kann, bitte kurz einen Kommentar hinterlassen.

Verflixte Heimspiele

Beim Erstellen der Heatmap ist noch ein interessantes Phänomen aufgefallen. Bei einigen Begegnungen macht es einen großen Unterschied, in welcher Reihenfolge die Teams aufgeschrieben werden. So würde z.B. unser Modell beim Spiel FRA-DEU auf einen Sieg von Frankreich tippen (rotes Kästchen in der ersten Zeile und zweiten Spalte). Würde man das Modell nach einer Vorhersage für das Spiel DEU-FRA fragen, wäre die Antwort eindeutig ein deutscher Sieg (rotes Kästchen in der zweiten Zeile und ersten Spalte). Seltsam, oder?

Nicht wirklich: Für das Training hatten wir unter anderem Daten aus EM- und WM-Qualifikation verwendet. Bei Qualifikationsspielen macht es sehr wohl einen Unterschied, ob das Spiel Deutschland-Frankreich auf deutschem oder französischem Boden stattfindet. Es gibt einen statistischen Vorteil für die Heimmannschaft. Nur bei der WM ist die Lage anders. Die einzige Mannschaft, die dieses Jahr wirklich „zu Hause“ spielt, ist Brasilien. Um das Problem zu lösen, sind mehrere Ansätze denkbar:

Mittelwert bilden
Für die Vorhersage eines Spiels X-Y könnte einfach der Durchschnitt der Wahrscheinlichkeiten für Spiel X-Y und Y-X verwendet werden. Da wir bereits die Wahrscheinlichkeiten für alle möglichen Spiele der KO-Runde in Matrixform haben, lässt sich das mit dem einfachen Kommando (winprobs + (1-t(winprobs)))/2“ erledigen. Nachteil: Ob dieses Modell tatsächlich besser ist, wissen wir nicht. Wir haben es nicht getestet. Es ist reine Vermutung, dass das Modell bessere Vorhersagen für die WM liefert. Da es trotzdem vielversprechend und einfach umzusetzen ist, haben wir für die Vorhersage der KO-Runde diesen Weg gewählt. Eine Heatmap der resultierenden Wahrscheinlichkeiten gibt es in unserem GitHub-Projekt.

Heimvorteil ignorieren
Wir können einfach die Reihenfolge aller Begegnungen in unserem Trainingsdatensatz zufällig wählen. Wenn anschließend die Klassen HOME_WIN und AWAY_WIN gleich groß sind, wird unser Modell auch das Prinzip „Heimvorteil“ nicht mehr lernen können. Nachteil: Es ist nicht von der Hand zu weisen, dass es im Fußball einen Vorteil für die Heimmannschaft gibt. Wenn wir auf dieses Detail verzichten, verlieren wir Informationen und erhalten womöglich ein noch schlechteres Modell.

Neues Feature „Heimvorteil“
Statt den Heimvorteil implizit durch die Reihenfolge der Kontrahenten zu trainieren, können wir ein explizites Feature „Heimvorteil“ einbauen. Das Feature „Heimvorteil“ kann zum Beispiel den Wert -1 haben, wenn die erste Mannschaft zu Hause spielt, den Wert +1, falls die zweite Mannschaft zu Hause spielt, und den Wert 0, falls keine Mannschaft zu Hause spielt. Die Daten können dann vor dem Trainieren des Modells so gemischt werden, dass gleich viele Heimvorteile für die erste und die zweite Mannschaft (also gleich viele +1 und -1) vorkommen. Das ist wahrscheinlich die sauberste und erfolgversprechendste Lösung. Nachteil: Es ist auch die aufwendigste Lösung und wir haben nur wenig Zeit. Schließlich müssen wir bald wieder die deutsche Mannschaft anfeuern 😉

Wer wird denn nun Weltmeister?

Die alles eintscheidende Frage. Um sie zu beantworten, haben wir ein kleines Groovy-Skript zusammengestellt, das die Wahrscheinlichkeiten aus der Jeder-gegen-Jeden-Matrix nimmt und damit alle möglichen Turnierverlaufe durchspielt. Für die Vorhersagen wurde ein Random Forest Modell verwendet, das mit allen Spielen seit 1994 trainiert wurde. Um den Einfluss des „Heimvorteils“ (der bei einer WM nicht relevant ist) zu minimieren, wurde der Einfachheit halber der Mittelwert aus Heimsiegwahrscheinlichkeit und Auswärtssiegwahrscheinlichkeit gebildet. Das Ergebnis ist folgendes:

1Achtelfinale
2=============
3AF1: BRA (52%), CHL (48%)
4AF2: COL (50%), URY (50%)
5AF3: NLD (57%), MEX (43%)
6AF4: GRC (59%), CRI (41%)
7AF5: FRA (66%), NGA (34%)
8AF6: DEU (66%), DZA (34%)
9AF7: CHE (55%), ARG (45%)
10AF8: USA (54%), BEL (46%)
11 
12 
13Viertelfinale
14=============
15VF1 (Sieger AF5 - Sieger AF6): DEU (38%), FRA (35%), DZA (14%), NGA (13%)
16VF2 (Sieger AF1 - Sieger AF2): BRA (27%), COL (25%), URY (24%), CHL (24%)
17VF3 (Sieger AF7 - Sieger AF8): USA (30%), CHE (26%), BEL (24%), ARG (20%)
18VF4 (Sieger AF3 - Sieger AF4): GRC (32%), NLD (30%), MEX (19%), CRI (19%)
19 
20 
21Halbfinale
22==========
23HF1 (Sieger VF1 - Sieger VF2): 
24    DEU (22%), FRA (19%), BRA (14%), URY (12%), 
25    COL (12%), CHL (11%), DZA ( 5%), NGA ( 5%)
26HF2 (Sieger VF3 - Sieger VF4): 
27    GRC (17%), USA (16%), NLD (16%), CHE (13%), 
28    BEL (12%), ARG ( 9%), MEX ( 8%), CRI ( 8%)
29 
30 
31Finale
32======
33Finale: DEU (13%), FRA (11%), USA ( 8%), GRC ( 8%), 
34        NLD ( 8%), BRA ( 7%), CHE ( 6%), URY ( 6%), 
35        COL ( 6%), BEL ( 6%), CHL ( 6%), ARG ( 4%), 
36        MEX ( 3%), CRI ( 3%), DZA ( 2%), NGA ( 2%)

Das sind doch mal gute Nachrichten für den deutschen Fußball. Dann hoffen wir mal, dass unser Modell bei der Vorhersage der KO-Runde besser abschneidet als in der Gruppenphase …

Spark Summit Europe 2015

Nach drei erfolgreichen Summits in San Francisco schwappt die Begeisterungswelle für Apache Spark nach Europa. Grund genug, sich selbst ein Bild vom “aktivsten Open-Source-Big-Data-Projekt” zu machen. Für alle, die nur schnell wissen möchten, was sie...

12.11.2015 | 7 Minuten Lesezeit

Michael Lex

Soccer Feature Madness

Im letzten Blog-Post haben wir Daten gesammelt, mit denen wir das Ergebnis der bevorstehenden WM vorhersagen wollen. Bevor wir diese Daten in einen Machine Learning Algorithmus gießen können, der uns dann auf magische Weise den neuen Fußball-Weltmeister...

22.5.2014 | 4 Minuten Lesezeit

Michael Lex

Wer wird Weltmeister?

Man kann viel über Data Analysis und Machine Learning lesen. Um wirklich zu verstehen, wie es funktioniert und wo die Probleme sind, muss man selbst Hand anlegen. Genau das war eines der Ziele, die wir mit dem DataLab erreichen wollten. Leider ist es...

11.5.2014 | 5 Minuten Lesezeit

Michael Lex

Automating JMeter tests with Maven and Jenkins

In this post, I will show how to integrate the popular load testing tool JMeter in a Maven build. The goal is to allow every developer to easily develop and execute JMeter tests on his local machine. There will be no need to learn a new commandline...

DevOps
APM

19.12.2013 | 5 Minuten Lesezeit

Michael Lex

Warum Lasttests auch für Entwickler interessant sind

Lasttests mit Hilfe von Tools wie JMeter oder Gatling sind ein gängiges Mittel um die Performance von Anwendungen zu analysieren und zu verbessern. In vielen Fällen stehen diese Tests am Ende der Entwicklung. Manchmal kommen sie erst dann zum Einsatz...

19.12.2013 | 6 Minuten Lesezeit

Michael Lex

Browser Automation and Acceptance Testing with Geb

This post focuses on the technical side of automated acceptance tests for web applications. There are a lot of high-level frameworks, that allow definition of acceptance tests in natural language (Robot, JBehave, Cucumber, …). But when it comes to the...

12.2.2013 | 8 Minuten Lesezeit

Michael Lex

Writing lightweight REST integration tests with the Jersey Test Framework

Writing REST services with JAX-RS (and its reference implementation Jersey) is easy. A class annotated with @Path and some methods with @GET, @POST, … annotations is enough for a fully functional REST service. Real world applications however are more...

Java
API
Testing

3.5.2012 | 6 Minuten Lesezeit

Michael Lex

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

WM-Vorhersage – Das Finale

Jeder gegen Jeden

Verflixte Heimspiele

Wer wird denn nun Weltmeister?

Weitere Artikel der Data Analytics Serie

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spark Summit Europe 2015

Soccer Feature Madness

Wer wird Weltmeister?

Automating JMeter tests with Maven and Jenkins

Warum Lasttests auch für Entwickler interessant sind

Browser Automation and Acceptance Testing with Geb

Writing lightweight REST integration tests with the Jersey Test Framework

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten