Vor einer Woche habe ich meinen Vortrag vom ENERGIC Workshop an der Uni Zürich veröffentlicht. Darin ging es um Crowdsourcing und die Verwendung von Daten aus Crowdsourcing.
Auf ein Beispiel für eine mögliche Nutzung in meinem Vortrag möchte ich hier nochmals etwas vertiefter eingehen: Vor einigen Wochen hat Strava, Vertreiber einer App zur Aufzeichnung von Velo- und Jogging-Routen, eine sogenannte Heatmap der gesammelten GPS-Aufzeichnungen ihrer Nutzerinnen und Nutzer veröffentlicht. Ähnliche Daten wurden in der letzten Zeit auch von anderen Anbietern, zum Beispiel Runkeeper, veröffentlicht.
Wofür können solche Crowdsourcing-Daten nun verwendet werden? Welche Fragen können wir mit ihnen beantworten? Als Beispiel habe ich eine kleine Webkarte gebaut, welche die Strava-Daten mit der Velo-Infrastruktur der Stadt Zürich überlagert (danke, Open Data-Team). Sie können die Karte hier betrachten und mit der Schaltfläche links unterhalb der Zoom-Schaltflächen auf Vollbild umschalten:
- Die Strava-Daten umfassen mehrheitlich Velo-Aufzeichnungen (global 77’688’848), aber nicht nur (global 19’660’163 Jogging-Aufzeichnungen).
- Wie sicher sind wir, dass Nutzerinnen und Nutzer die Art ihrer Aufzeichnung (Velo vs. Jogging) richtig gewählt haben?
- Gibt es Nutzerinnen und Nutzer, die es praktisch finden, mit der Strava-App ihre Autofahrten, Motorradausflüge oder Sonntagsspaziergänge mit dem Hund aufzuzeichnen? Falls ja, unternimmt der Datenprovider Schritte, um die Daten von solchen Aufzeichnungen zu reinigen, zum Beispiel mittels Filterung anhand des Geschwindigkeitsprofils?
- Wieviele Nutzerinnen und Nutzer haben ihre Daten beigesteuert: im Raum Zürich, in der Innenstadt, auf einem vielbefahrenen/einem wenig befahrenen Streckenabschnitt?
- Gibt es vielbefahrene Routen, deren scheinbare Popularität aber von relativ wenigen, aber sehr enthusiastischen und konsistenten Nutzerinnen und Nutzern herrührt?
- Gibt es demgegenüber „demokratisch besser legimitierte“, also durch zahlreiche Personen genutzte vielbefahrene Routen?
- Falls wir diese zwei Typen von Routen unterscheiden könnten, welche Informationen würde diese Unterscheidung allenfalls preisgeben?
- Welche Aufzeichnungsfehler (zum Beispiel ungenügende GPS-Abdeckung oder GPS-Mehrfachreflexionen in Strassenschluchten bzw. im Wald) sind in den Daten enthalten und wie beeinflussen diese Analysen, welche mit solchen Daten durchgeführt werden können?
- Wie ist die zeitliche Verteilung der gesammelten Daten? Wurde ein Grossteil der Daten innerhalb der letzten drei Jahre, des letzten Jahres, der letzten sechs Monate gesammelt? Und wie beeinflusst eine zeitliche Ungleichverteilung die Erkenntnisse aus Analysen der Daten? (Vor drei Jahren wurde beispielsweise geschätzt, dass 10% aller existierenden Fotos in den letzten 12 Monaten gemacht worden sind. Die Schiefe der Verteilung über die Zeit ist beispielsweise bei Flickr ein wohlbekanntes Phänomen.)

Grundsätzlich ist es am besten, eine möglichst umfassende Kontrolle über den Entstehungsprozess der Daten zu haben. Bezieht man Daten von einem Anbieter, ist es äusserst wichtig, über die Prozessierung der Daten (zum Beispiel Stichprobennahme, Filterung, Entfernung von ‚Fehlern‘, Aufbereitungsschritte, etc.) möglichst genau Bescheid zu wissen. Nur so kann der potenzielle Nutzen der Daten vor dem Hintergrund der beabsichtigten Verwendung seriös abgeschätzt werden.
Ergänzende Lektüre: Timo Grossenbacher diskutiert die Repräsentativität von Crowdsourcing-Daten in seiner Master-Arbeit bzw. in diesem sehr interessanten Blogpost (beide englisch).
Einige Tage nach meinem Blogpost hat Patrick Traughber den folgenden Vergleich von Strava-Daten mit Human.co-Daten auf Twitter gepostet und damit eine interessante Diskussion eröffnet.
* Strava erwähnt auch, dass für manche Analysen tiefergehende Daten nötig sind, und bietet unter dem Namen Metro anonymisierte Rohdaten für solche speziellen Analysen an.
Danke für diesen spannenden Beitrag. Er findet Beachtung 🙂
Vielen Dank! Darf ich fragen, wo?
Daten aus Crowdsourcing und modernen App-Plattformen sind auf jeden Fall interessant. Aber vor der Nutzung sollte man die aufgeworfenen Fragen (und noch einige mehr!) auf jeden Fall gut abklären lassen.