Im ersten Teil dieser Miniserie über R habe ich einfache Standard-Visualisierungen vorgestellt und Tipps zu Entwicklungsumgebungen gegeben. Der zweite Teil hat dann etwas speziellere Visualisierungen und eine Demonstration einer Datenaggregation in R enthalten. In diesem, dem letzten, Teil möchte ich nochmals zwei Visualisierungen zeigen: eine thematische Karte und eine derzeit sehr populäre Visualisierung, die sogenannte Heatmap.
Nachdem ich im letzten Blogpost den Wochenrhythmus in den Velozähldaten der Stadt Zürich untersucht habe, fokussieren die heutigen Visualisierungen auf andere Zeitskalen. Die bereits vorgestellten Aggregationsoperationen können natürlich für die Darstellung anderer Zeitperioden als Wochentag angepasst werden.
Thematische Karten
Der nächsten Darstellung liegt der Jahresrhythmus zugrunde. Für die Messung der Saisonalität des Veloverkehrs habe ich (sehr vereinfachend!) den Quotienten aus der Veloanzahl im Juli und jener im Dezember verwendet. Diese einfache Operationalisierung erlaubt mir, auch die Zählstelle an der Langstrasse (LANG) einzubeziehen, denn diese ist erst im Juli 2013 in Betrieb genommen worden.
Den Saisonalitätsfaktor habe ich dann, kombiniert mit der mittleren Anzahl von Velos pro Stunde, wiederum im räumlichen Kontext visualisiert. Die Karte verknüpft proportional skalierte Symbole mit einer Farbgebung, welche die Saisonalität darstellt:
Wie man unschwer erkennt, schwingen die peripher gelegenen Zählstellen an der Andreasstrasse (ANDR) in Schwamendingen und am Mythenquai (MYTH) bezüglich Saisonalität obenaus. Demgegenüber fahren an den Zählstellen Schulstrasse (SCHU) in Oerlikon und Langstrasse (LANG) „nur“ circa doppelt soviele Velofahrende im Sommer vorbei als im Winter. Wegen des geringen Veloaufkommens (rund um die Uhr gemessen durchschnittlich weniger als 5 Velos pro Stunde) ist aber auch klar, dass diese Aussage für die Schulstrasse eher unsicher ist.
Basierend auf diesen Betrachtungen und jenen aus dem zweiten Blogpost kann man also sagen: Die Zählstelle am Mythenquai gibt zwei Hinweise auf starken Freizeitverkehr: aussergewöhnlich hohe Saisonalität bei sehr gleichmässigem Wochenrhythmus. Demgegenüber scheinen zum Beispiel Scheuchzerstrasse (SCHE), Mühlebachstrasse (MUEH) und Sihlpromenade (SIHL) (zu einem etwas geringeren Grad auch die Langstrasse) typische „Pendlerstrecken“ zu sein.
Heatmap
Bei einer Heatmap handelt es sich um eine mit Farben codierte Matrix von Werten.
In meinem Beispiel habe ich den täglichen Verlauf der Aktivität an einzelnen Zählstellen anhand der Stundenmittel richtungsgetrennt visualisiert. (Alle Zählstellen bis auf jene an der Hofwiesenstrasse messen den Veloverkehr in beide Fahrtrichtungen.)
Je intensiver das Grün in einem Zeitabschnitt, desto mehr Velos sind in dieser Stunde an der jeweiligen Zählstelle vorbeigefahren. Mit der Heatmap lassen sich beispielsweise identifizieren:
- Zählstellen mit ausgeprägten Belastungsspitzen: Die Belastungsspitzen treten morgens von 7–8 Uhr und nachmittags von 17–18 Uhr auf. Es gibt Zählstellen, bei denen beide Fahrtrichtungen morgens und abends Spitzen aufweisen. Andere haben eine Belastungsspitze am Morgen in eine Fahrtrichtung und am Abend in die entgegengesetzte Fahrrichtung. Typisch für diese zweite Gruppe sind zum Beispiel Lux-Guyer-Weg (LUXG), Scheuchzerstrasse (SCHE) oder Sihlpromenade (SIHL).
- Zählstellen ohne ausgeprägte Belastungsspitzen: Der Verkehr ist über den gesamten Tagesverlauf recht gleichmässig verteilt. Die üblichen Spitzen am Morgen und am Abend sind vergleichsweise gering ausgeprägt. In diese Kategorie gehört zum Beispiel die Schulstrasse (SCHU).
Zählstellen mit sehr ausgeprägten Belastungsspitzen weisen auf einen hohen Anteil Berufspendlerinnen und -pendler im Tagesablauf hin. Die Lage im Verkehrsnetz führt dann zu einer starken Richtungsausprägung am Morgen und/oder am Abend: Bei „Randlagen“ bzw. einem Ring um die Innenstadt (zum Beispiel Mythenquai, Mühlebachstrasse, Sihlpromenade) tritt das morgendliche sogenannte Einpendeln und am Abend das Auspendeln auf, also morgens in die Innenstadt hinein, abends wieder in die umliegenden Quartiere und Vororte.
Bei zentralen Lagen überlagern sich Pendlerwege so, dass Spitzen in beide Richtungen gleichzeitig auftreten können. Meist kommen in zentralen lagen weitere Aktivitäten hinzu (wie Freizeit, Einkauf), welche zu einem insgesamt stärker geglättetem Veloaufkommen über den Tag sorgen.
Interessant ist schliesslich noch die Langstrasse: Dort deutet der zunehmend starke Verkehr am Nachmittag, die gegenüber der Morgenspitze grössere Abendspitze sowie der wahrnehmbare Verkehrsanteil bis nach Mitternacht auf die hohe Bedeutung des Freizeitverkehrs hin.
Trotzdem sind an der Langstrasse noch signifikanten Belastungsspitzen am Morgen und Abend und zwar für beide Fahrtrichtungen zu erkennen. Hier zeigt sich, dass die Langstrasse eben auch eine wichtige Tangentialverbindung zwischen bedeutenden Zürcher Wohn- und Arbeitsquartieren ist, welche in beiden Fahrtrichtungen annähernd gleich grosse Verkehrsströme anzieht.
Fazit
Ich hoffe, ich konnte unterstützt von meinem Kollegen Toralf Dittrich einige interessante Einblicke in den Veloverkehr von Zürich geben. Daneben wollte ich auch aber auch aufzeigen, was alles mit der Software R möglich ist:
- Import von Daten und Geodaten in zahlreichen Formaten (auch Geodaten)
- Datenmanipulation: Umklassieren, Säubern, Filtern, Gruppieren, Aggregieren, etc. (auch mit räumlichen Funktionen)
- Berechnung beschreibender Statistiken: Mittelwert, Median, Standardabweichung, Schiefe einer Verteilung, und vieles mehr
- Gängige Visualisierungen wie zum Beispiel Balkendiagramme, Liniendiagramme und Karten
- Spezialisiertere Visualisierungen wie Starplots/Spiderplots, kombinierte Diagramme und Heatmaps
Natürlich ist R als Ganzes noch sehr viel mächtiger und umfasst zum Beispiel Tools zur Klassifikation bzw. Clustering, für Data Mining, Regressionsanalysen, schliessende Statistik, und vieles mehr. Auf diese gehe ich vielleicht mal zu einem anderen Zeitpunkt genauer ein.
Hat die Mini-Serie Ihr Interesse an R geweckt? Ist R das richtige Tool für Ihre Organisation? Möchten Sie gerne eine vertiefte Einführung erhalten? Wie kann R mit Ihren GIS-Tools und Ihren Python-Skripts kombiniert werden? Oder haben Sie eine andere Frage in diesem Zusammenhang? Kontaktieren Sie mich unverbindlich.
3 Gedanken zu „Blick in die Werkzeugkiste: Offene Daten in R – Teil 3“
Kommentare sind geschlossen.