Data als nieuwe doping

Nooit eerder produceerden sporters zoveel getallen.

Schaatscoach Jac Orie was er vlot bij. Hij verzamelde de afgelopen vijftien jaar trainingsdata van veertig schaatsers: hartfrequentie, rondetijden en subjectieve intensiteitsscores. Samen met datawetenschapper Arno Knobbe van Universiteit Leiden ontdekte Orie het verschijnsel van de ‘supercompensatie’; dat sporters na een zware training eerst vermoeid zijn, daarna even superfit waarna ze weer terugzakken naar hun basis. Orie gebruikt die kennis in zijn trainingen om schaatsers precies op het goede moment te laten pieken. Kjeld Nuis won er afgelopen winter goud mee op het WK.

Foto © Sam Rentmeester . 20160529 . Sports Datavalley, meten aan een fiets, Delft Integraal DI // thema

Ook wielerploegen gebruiken data over de renners om te kijken hoe hun prestaties beter kunnen. Foto © Sam Rentmeester

Meten is winnen
Ook wielerploeg Giant-Alpecin monitort zijn renners op prestaties. TU-studente Marieke de Vries (technische wiskunde) helpt hen bij het vinden van afwijkende prestaties in de enorme datasets die de ploegleiding binnenkrijgt over de coureurs: hartslag, kracht op de pedalen, snelheid en parcours. Blijft de prestatie achter bij de verwachting, dan heeft de renner wellicht iets onder de leden.
Een andere TU-student, Jeroen Roseboom, werkte met embedded scientist Koen Muilwijk van het InnoSports Lab Den Haag aan de data van stroming, wind, bootsnelheid en positie bij het zeilen over de baai van Rio de Janeiro. De coach krijgt in een volgboot die data binnen, maar juist bij het overstag gaan zitten daar vaak vreemde waarden tussen. “Er zat veel ruis tussen”, vat prof.dr.ir. Geurt Jongbloed de problemen samen. Jongbloed is hoogleraar mathematische statistiek bij de faculteit Elektrotechniek, Wiskunde en Informatica. Roseboom ontwikkelde een correctie van de meetdata op basis van een wiskundig model. “Het gaat om metingen van stroming, wind en snelheid ten opzichte van het water. Die gegevens vertonen onderlinge samenhang. De redundantie kun je gebruiken om afwijkende meetwaarden te verbeteren.”

Zijn collega prof.dr.ir. Geert-Jan Houben (webinformatiesystemen bij EWI) werkte met Ortec Sports (‘creating value from official data’) aan de invoer van voetbal- en hockeydata. Sommige gegevens, zoals positie op het veld, snelheid en hartfrequentie, komen rechtstreeks van sensoren. Andere gegevens, zoals balbezit en of passes al dan niet geslaagd zijn, zijn afkomstig van personen. Maar hoe betrouwbaar zijn die gegevens, wat doe je als er delen ontbreken en hoeveel mensen heb je eigenlijk nodig? Houben gebruikt er kennis voor die hij heeft opgedaan met de inzet van crowdsourcing voor de beschrijving van tekeningen van het Rijksmuseum. Houben: “Wij ontwikkelen algemene theorieën die in concrete situaties toe te passen zijn. De generieke principes om mensen in te zetten zijn bij het duiden van een tekening of een spelsituatie gelijk.”

Als voorbeeld noemt Houben de analyse van passes die uiteen kunnen lopen van snel en kort (‘tiki-taka’-stijl) tot lang en ver (‘kick & rush’). Voor een coach is het van belang om te zien waar de bal vandaan komt die via een spits in een doelpunt eindigt. Als daar een patroon in zit, dan weet de coach waar hij zijn verdedigers moet plaatsen om zo’n pass te onderscheppen.
Levert dat voordeel op? Tijdelijk wel, denkt  Houben. Wanneer de ene partij wel zulke
data-analyses gebruikt, en de ander niet is er één in het voordeel. “Als iedereen data science gebruikt, betekent dat het einde van de topsport”, filosofeert Houben. “Want juist het ongewisse maakt topsport spannend. Dat raak je kwijt als je alles al weet.”

Hoe betrouwbaar zijn de gegevens?
Fietsapp Strava heeft meer dan acht miljoen gebruikers wereldwijd, waarvan iets meer dan een miljoen actief. Daarmee is de sportapp waarmee wielrenners en lopers hun prestaties en routes kunnen delen met andere gebruikers één van de bekendste breedtesportapplicaties.
“In amateursport zijn gegevens per sporter minder omvangrijk en minder betrouwbaar dan in de profsport”, stelt Houben. Gegevens over leeftijd, geslacht, hartfrequentie, snelheid, parcours, hoogtemeters, en eventueel pedaalkracht worden allemaal opgeslagen zodat je je eigen prestatie kunt vergelijken met die van anderen. Maar hoe betrouwbaar zijn die gegevens? Houben pleit voor een data-geletterdheid om beter te leren omgaan met applicaties. “Je moet niet klakkeloos een trainingsadvies geloven als je niet weet hoe dat tot stand is gekomen.” Zijn collega Jongbloed ziet ook voordelen: “Als je ziet dat op een bepaald traject je eigen hartslag in vergelijking met anderen toch wel heel snel omhoog gaat, is het misschien verstandig om er eens naar te laten kijken.”

Filteren van data
Rekenkracht stijgt volgens Moore’s Law, de hoeveelheid data neemt echter veel sneller toe. Op een gegeven moment kruisen die lijnen elkaar en zijn er meer data dan we aankunnen. Hoe houden we sportdata beheersbaar en relevant?  “Devices genereren een tsunami aan data”, zegt Houben. “Het valt niet mee om daar chocolade van te maken. Het filteren van data is onze grootste uitdaging. Data moeten heldere betekenis en structuur hebben. Daarna kun je ze vrij eenvoudig verwerken.”
Jongbloed ziet een heel belangrijke uitdaging in de presentatie van de uitkomsten. Hoe vertaal je statistische verbanden naar een advies aan een coach of trainer? Visualisatie kan daarbij helpen. Mooie plaatjes doen het goed. Maar ook dan blijft de vraag: hoe is dit resultaat tot stand gekomen? “Daar blijft een vorm van opvoeding voor nodig”, zegt Houben.

Blijf op de hoogte van het onderzoek

Ontvang de Delft Integraal nieuwsbrief 4 keer per jaar