Hoe voorspelden de EY VODW Datatalents de uitslag van de Tour de France?

EY VODW Datatalents
12 jul 2019

Onze data scientists Marijke Dijkstra, Robbert Beilo, Maxime van Egdom en Joël Mendels ontwikkelden een voorspelmodel waaruit blijkt dat Adam Yates, Jakob Fugslang en outsider Julian Alaphilippe in de top 5 van de Tour de France 2019 zullen eindigen. Deze voorspelling is tot stand gekomen door het combineren van verschillende databronnen, waaronder klassements- en etappedata, maar ook persoonlijke gegevens over de wielrenners. Maar hoe zijn ze tot deze conclusie gekomen?

Open Data Challenge: voorspellen van de Tour de France

Elk kwartaal gaan de datatalents van het EY VODW Data Science Talent Program aan de slag met een (klant)case. Afgelopen kwartaal was dat de Open Data Challenge, waarbij ze zelf een onderwerp mogen kiezen wat ze interessant vinden en waar ze iets over willen leren. Robbert Beilo hoefde niet lang na te denken; hij wilde het klassement van de Tour de France 2019 voorspellen. Een uitdagende opdracht waarvan het resultaat eind juli gevalideerd kan worden.

Iedere sporter weet dat er vele invloeden zijn op het wel of niet presteren tijdens een wedstrijd. Natuurlijk zijn er de persoonlijke eigenschappen die wel of niet kunnen meehelpen, zoals de lengte, het gewicht of de leeftijd van een sporter. Daarnaast moet een sporter op het juiste moment in vorm zijn geraakt, door het doen van goede trainingen en wedstrijden vooraf. Ook kan het parcours erg bepalend zijn voor een prestatie: waar de één meer snelheid heeft, heeft de ander meer uithoudingsvermogen of meer kracht om de berg op te rijden. Dan zijn er ook nog omstandigheden zoals het weer of het risico op een valpartij. Dit is nog maar een greep uit de factoren en er wordt dan ook vaak gezegd dat de Tour onvoorspelbaar is.

Tour factoren
  • Persoonlijke data: lengte gewicht, leeftijd.
  • Tourdata: aantal etappes, afstand, type etappes, aantal tours gereden/uitgereden/gewonnen.
  • Klassementsdata: aantal wedstrijden vooraf gereden en/of gewonnen.

Tour-, klassements- en wielerdata als bron

We wilden graag een poging doen de Tour te voorspellen, niet alle factoren die van invloed zijn, zijn bekend. Trainingsdata is bijvoorbeeld erg belangrijk: we zouden graag weten wat voor trainingen een renner heeft gedaan, hoeveel kilometers hij in de benen heeft, wat voor wattage hij wegtrapt en hoeveel zuurstof iemand gebruikt tijdens inspanning, ook wel VO2max genoemd. Deze informatie is echter erg concurrentiegevoelig en daarom niet openbaar. We moesten het daarom doen met data die online beschikbaar was. Websites zoals letour.fr en ProCyclingStats.com hebben veel informatie over klassementen en wielrenners. Hier konden we bijvoorbeeld uithalen hoeveel ervaring een renner heeft in de Tour. Zo wilden we graag weten hoe vaak een renner al mee heeft gedaan aan de Tour, maar ook hoe vaak een renner de Tour heeft uitgereden en hoe vaak een hij de Tour of specifieke etappes gewonnen heeft. Om een beeld te krijgen van de vorm van de renner voorafgaand aan de Tour konden we van ProCyclingStats halen hoeveel wedstrijden er in het voorseizoen zijn gereden en hoe daar was gepresteerd. Daarnaast waren hier de persoonsgegevens zoals het geboortejaar, lengte en het gewicht voor ons beschikbaar.

Data bronnen
  • letour.fr.
  • ProCyclingStats.com.

Web scrapen om relevante data te verzamelen

Om tot een gedegen voorspelmodel te kunnen komen is het van belang de beschikbare data te combineren, genoeg (historische) observaties te verzamelen. Omdat we hiervoor informatie van alle renners van de afgelopen 10 jaar mee wilden nemen zou het natuurlijk te veel tijd kosten alles handmatig op te zoeken en in te vullen. We hebben daarom een web scraper gebouwd met behulp van de tools Chrome Driver, Selenium en programmeertaal Python. Deze scraper haalt automatisch de informatie van alle renners van deze websites en maakt hier een gestructureerde tabel van.

Gebruikte tools
  • Python.
  • Chrome Driver en Selenium.

Eindklassement voorspellen met een regressiemodel

Om een voorspelling te kunnen maken van het eindklassement gebruikten we een lineair regressiemodel. Hiermee voorspelden we de eindtijd voor alle deelnemende renners en bekeken we welke variabelen bepalend waren voor het rijden van een snellere eindtijd. Het bleek dat onder andere het aantal eendaagse en meerdaagse wedstrijden gereden in het seizoen voorafgaand aan de Tour bepalend zijn, evenals de ratio van het aantal uitgereden Tours in de afgelopen twee jaar ten opzichte van het aantal deelgenomen Tours in de afgelopen twee jaar. Daarnaast bleek het aantal ProCyclingStats punten, een maat om de prestatie van wielrenners te beoordelen, verdiend tijdens gereden wedstrijden in het seizoen voorafgaand aan de Tour bepalend voor het eindklassement van een renner in de Tour. Aan de hand van onder andere deze variabelen hebben we een voorspelling gemaakt van het eindklassement van de Tour de France 2019.

Gebruikte methodieken
  • Webscraping.
  • Voorspelmodel.

En nu duimen voor Fuglsang, Yates en Alaphilippe!

De renners die met hun eigenschappen en historische prestaties de snelste eindtijd als voorspelling kregen zijn Jakob Fuglsang, Adam Yates en Julian Alaphilippe, waardoor we verwachten dat zij in de top 5 van de Tour de France 2019 zullen eindigen. De Tour is nu in volle gang en wij volgen deze natuurlijk op de voet. We waren teleurgesteld dat Fuglsang al vroeg in een valpartij terecht kwam, maar ook euforisch toen Alaphilippe op de derde dag de gele trui pakte! We hebben in ieder geval een hoop van dit project geleerd en kunnen dus de skills en technieken die we bij klanten vaker gebruiken ook toepassen op sportdata.

Eerste hulp bij data

Bergen data, maar geen idee wat je er mee kunt? Laat de data scientists van EY VODW je helpen! Ze helpen je inzichten uit je data te halen waarmee je business structureel uitgebouwd kan worden.

Vertel mij meer

Onze blogs direct in je mailbox?

Interessant? Laat een reactie achter