Soccer Feature Madness

22.5.2014 | 4 Minuten Lesezeit

Im letzten Blog-Post haben wir Daten gesammelt, mit denen wir das Ergebnis der bevorstehenden WM vorhersagen wollen. Bevor wir diese Daten in einen Machine Learning Algorithmus gießen können, der uns dann auf magische Weise den neuen Fußball-Weltmeister präsentiert, fehlt noch ein wichtiger Schritt: Feature-Engineering.

Was ist Feature-Engineering

In klassischen Einführungsbeispielen zu Machine Learning (z.B. der Bestimmung von Immobilien-Preisen ) spielt Feature-Engineering keine wichtige Rolle. Es gibt eine vorgegebene, überschaubare Menge an Merkmalen (z.B. „Wohnfläche der Immobilie in qm“). Man muss nur eine mathematische Formel finden, die durch geschickte Kombination und Gewichtung der einzelnen Merkmale die Zielgröße möglichst gut vorhersagt. Machine Learning ist eine Möglichkeit, eine solche Formel zu finden.

Oft ist es aber so, dass die Menge der Features sehr groß und unüberschaubar ist. Ein Beispiel für ein solches hochdimensionales Problem ist die Bilderkennung. Fotos bestehen heute aus mehreren Millionen Pixeln. Um nun die Anzahl der Dimensionen zu reduzieren, verwendet man stattdessen abgeleitete Features . Ein gutes Beispiel für ein abgeleitetes Feature ist das Histogram eines Bildes, mit dem es z.B. möglich ist, Dokumente und Präsentationen von Fotografien zu unterscheiden .

Features für die WM

Während es in der Bildverarbeitung um Dimensionsreduzierung geht, haben wir bei unserer WM-Vorhersage das gegensätzliche Problem: Wir haben zu wenige Features. Die einzigen wirklich brauchbaren Informationen, die wir für alle Spiele in unserem Datensatz haben, sind die Kontrahenten, das Datum des Spiels und das Ergebnis des Spiels. Um mehr Features zu bekommen, kann man einfach mehr Daten sammeln. Zum Beispiel Spielort, die Aufstellung der Teams oder Informationen zu den einzelnen Spielern. Man kann auch die bestehenden Daten mit anderen Datenquellen verknüpfen.

FIFA-Rankings

Eine (hoffentlich guter) Indikator für die relative Stärke der Kontrahenten bei Fußball-Länderspielen ist die FIFA-Weltrangliste. Die Ranglisten werden monatlich veröffentlicht. Auf der FIFA-Homepage können alle vergangenen Ranglisten bis ins Jahr 1992 eingesehen werden. Mit einem kleinen R-Skript können nun die FIFA-Platzierung der Kontrahenten zum Zeitpunkt des Spiels zu ermittelt werden. Dabei leistet mapply gute Dienste. Im folgenden Histogramm sieht man die Verteilung von Siegen und Niederlagen abhängig vom Unterschied der FIFA-Platzierung der beiden Kontrahenten:

Statistik aus vergangenen Spielen

Die FIFA-Features sind durch die Hinzunahme externer Informationen entstanden. Tatsächlich verbergen sich aber auch in ursprünglichen Daten noch Informationen, die wir bisher nicht verwenden können. Durch die Datumsangabe ist es möglich, Spiele untereinander in Beziehung zu bringen. Intuitiv ist eine Mannschaft, die eine Siegesserie von zehn Spielen hinter sich hat, auch ein Favorit für das elfte Spiel. Ein abgeleitetes Feature ist eine Möglichkeit, dem Algorithmus diese Intuition „beizubringen“.

Die Features, die in dem Java-Projekt „League-Based-Features“ berechnet werden, basieren alle auf der Idee, dass vorhergehende Spiele gute Indikatoren für den Ausgang zukünftiger Spiele sind. Die berechneten Features sind in unserem GitHub-Projekt unter /2-compute-features/2-league-based/output/ zu finden. Folgende Features werden berechnet:

b_last_X_games_points_average_weighted Gewichteter Durchschnitt der Punkte aus den letzten X Spielen. Gewichtet wird nach Position in der selbst berechneten Liga.
b_last_X_games_goal_average_weighted Gewichteter Durchschnitt der geschossenen Tore aus den letzten >X Spielen. Gewichtet wird nach Position in der selbst berechneten Liga.
b_last_X_days_points_average_weighted Gewichteter Durchschnitt der Punkte der letzten X Tage. Gewichtet wird nach Position in der selbst berechneten Liga.
b_last_X_says_goal_average_weighted Gewichteter Durchschnitt der geschossenen Tore der letzten X Tage. Gewichtet wird nach Position in der selbst berechneten Liga.
b_league_positions_points Punkte in der selbst berechneten Liga.

Graph Based Features

Das Projekt WM-Vorhersage ist ein Freizeitprojekt und als solches nutzt man natürlich jede Gelegenheit, neue Technologien auszuprobieren. Als ich die Liste der gesammelten Spiele und Ergebnisse zum ersten Mal sah, dachte ich sofort an einen Graphen. Ein Import-Skript für die Graphdatenbank Neo4J war schnell geschrieben.

Aus diesem Graphen lassen sich auch nützliche Features ableiten. Wieder bemühen wir unser Fußball-Expertenwissen: Wenn Deutschland gegen England gewonnen hat und Italien vor kurzem gegen England verloren hat, dann ist es doch wahrscheinlich, dass Deutschland auch gegen Italien gewinnt.

Technisch gesehen, suchen wir im Graphen mit allen Länderspielen die Pfade vom Knoten Deutschland zum Knoten Italien. Davon gibt es sehr viele. Deshalb einige Einschränkungen: Die maximale Länge der Pfade wird auf MAX_PATH_LENGTH begrenzt. Außerdem werden nur Spiele betrachtet, die maximal MAX_YEARS_BACK Jahre in der Vergangenheit liegen. Zusätzlich werden noch zwei Faktoren zur Gewichtung verwendet: Je größer PATH_LENGTH_WEIGHT gewählt wird, desto weniger stark werden lange Pfade gewichtet. Je größer TIME_WEIGHT gewählt ist, desto weniger stark werden lange zurück liegende Spiele gewichtet. Die berechneten Features sind unter der Bezeichnung b_graph_score_[MAX_YEARS_BACK]_[MAX_PATH_LENGTH]_[TIME_WEIGHT]_[PATH_LENGTH_WEIGHT] in der finalen Feature-Datei /2-compute-features/3-graph-based/output/games-with-graph-features.csv zu finden.

Summary

Daten einfach in Weka oder RapidMiner pumpen und hoffen, dass etwas sinnvolles herauskommt, reicht nicht aus. Machine Learning Algorithmen können helfen, interessante Zusammenhänge zu erkennen und auszunutzen. Das mächtigste Werkzeug bleibt aber weiterhin unser Verstand. Expertenwissen kann den Algorithmen in Form von abgeleiteten Features zur Verfügung gestellt werden.

Es bleibt die Frage, ob unsere berechneten Features tatsächlich so aussagekräftig sind, wie wir es hoffen. Dieser Frage werden wir in unserem nächsten Artikel auf den Grund gehen. Stay tuned!

Spark Summit Europe 2015

Nach drei erfolgreichen Summits in San Francisco schwappt die Begeisterungswelle für Apache Spark nach Europa. Grund genug, sich selbst ein Bild vom “aktivsten Open-Source-Big-Data-Projekt” zu machen. Für alle, die nur schnell wissen möchten, was sie...

12.11.2015 | 7 Minuten Lesezeit

Michael Lex

WM-Vorhersage – Das Finale

Die WM-Vorrunde ist vorbei. Heute beginnen die ersten Spiele des Achtelfinales. Höchste Zeit also, neue Vorhersagen abzuliefern. Bei den bisherigen Spielen war unser favorisiertes Random Forest Modell mit knapp 46% Genauigkeit leider nicht so gut, wie...

27.6.2014 | 6 Minuten Lesezeit

Michael Lex

Wer wird Weltmeister?

Man kann viel über Data Analysis und Machine Learning lesen. Um wirklich zu verstehen, wie es funktioniert und wo die Probleme sind, muss man selbst Hand anlegen. Genau das war eines der Ziele, die wir mit dem DataLab erreichen wollten. Leider ist es...

11.5.2014 | 5 Minuten Lesezeit

Michael Lex

Automating JMeter tests with Maven and Jenkins

In this post, I will show how to integrate the popular load testing tool JMeter in a Maven build. The goal is to allow every developer to easily develop and execute JMeter tests on his local machine. There will be no need to learn a new commandline...

DevOps
APM

19.12.2013 | 5 Minuten Lesezeit

Michael Lex

Warum Lasttests auch für Entwickler interessant sind

Lasttests mit Hilfe von Tools wie JMeter oder Gatling sind ein gängiges Mittel um die Performance von Anwendungen zu analysieren und zu verbessern. In vielen Fällen stehen diese Tests am Ende der Entwicklung. Manchmal kommen sie erst dann zum Einsatz...

19.12.2013 | 6 Minuten Lesezeit

Michael Lex

Browser Automation and Acceptance Testing with Geb

This post focuses on the technical side of automated acceptance tests for web applications. There are a lot of high-level frameworks, that allow definition of acceptance tests in natural language (Robot, JBehave, Cucumber, …). But when it comes to the...

12.2.2013 | 8 Minuten Lesezeit

Michael Lex

Writing lightweight REST integration tests with the Jersey Test Framework

Writing REST services with JAX-RS (and its reference implementation Jersey) is easy. A class annotated with @Path and some methods with @GET, @POST, … annotations is enough for a fully functional REST service. Real world applications however are more...

Java
API
Testing

3.5.2012 | 6 Minuten Lesezeit

Michael Lex

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Soccer Feature Madness

Was ist Feature-Engineering

Features für die WM

FIFA-Rankings

Statistik aus vergangenen Spielen

Graph Based Features

Summary

Weitere Artikel der Data Analytics Serie

War dieser Beitrag hilfreich?

Ja

Blog-Autor*in

Kontakt aufnehmen

Kontakt aufnehmen

Weitere Beiträge

Spark Summit Europe 2015

WM-Vorhersage – Das Finale

Wer wird Weltmeister?

Automating JMeter tests with Maven and Jenkins

Warum Lasttests auch für Entwickler interessant sind

Browser Automation and Acceptance Testing with Geb

Writing lightweight REST integration tests with the Jersey Test Framework

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Zur Stellenanzeige

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Unsere Leistungen

Hilf uns, noch besser zu werden.

Zu den Jobangeboten