Am 9. November 2010 hat Google bekanntgegeben, dass innerhalb der nächsten 24 Stunden für gewisse Gebiete in Teilen Europas (und Australien, Neuseeland, Südafrika) auf eine neue Datengrundlage umgestellt wird:
These map updates will improve our geocoding and directions, increase the accuracy and coverage of natural features such as forest and water bodies, and add walking paths and bicycling trails.
Gemäss Screenshot stammen die Kartendaten in Zürich von AND (Automotive Navigation Data; Wikipedia), einem unabhängigen (von Navteq/Nokia und TeleAtlas/TomTom) Anbieter digitaler Karteninhalte.
Für ein Kundenprojekt haben wir im Juni 2010 knapp 4200 Adressen geokodiert. Nun liegt natürlich nichts näher, als die bestehende Geocodierung zu wiederholen und die Resultate zu vergleichen:
Kriterium | Juni 2010 | November 2010 |
Anzahl Adressen | 4177 | |
davon: | ||
… grundstücksgenau geocodiert | 3 / 0.07% | 6 / 0.14% |
… adressgenau geocodiert | 4031 / 96.5% | 4057 / 97.13% |
… strassengenau geocodiert | 68 / 1.63% | 38 / 0.91% |
… PLZ-genau geocodiert | 55 / 1.32% | 57 / 1.36% |
… ortschaftsgenau geocodiert | 15 / 0.36% | 14 / 0.34% |
… nicht geocodiert | 5 / 0.12% | 5 / 0.12% |
In der Folge habe ich die Lageunterschiede der exakt (adress- oder grundstückgenau) geocodierten Adressen angeschaut. 4013 Adressen waren in beiden Analysen exakt geocodiert worden. Wie die folgende Tabelle zeigt, beträgt der Mittelwert der Abweichungen etwas über 20 Meter. Die Verteilung der Abweichungen ist ziemlich schief; sehr viele Adressen hatten keine Abweichung, nur 284 Adressen hatten positive Abweichungen (deshalb Median-Abweichung von 0 Metern).
In einem zweiten Schritt habe ich nur die Abweichungen > 0 m angeschaut. Der Median der Abweichungen in dieser Gruppe beträgt etwas über 35 Meter.
Abweichungen der adress- oder grundstücksgenau geocodierten Adressen |
|
Mittelwert der Abweichungen zwischen der ersten und der zweiten Geocodierung | 22.7 m |
Median der Abweichungen | 0 m |
Median der Abweichungen > 0 m | 36.7 m |
Die Abweichungen zwischen den beiden Geocodierungen scheinen mit solch einem Median nicht sehr gross. Je nach Anwendung kann eine solche Abweichung aber natürlich trotzdem wichtig sein.
Interessanterweise zeigt die Analyse, dass die Geocodierung von 21 Adressen schlechter geworden ist (4013 Adressen sind in beiden Geocodierungen exakt, 4034 in der ersten). Allerdings ist dies nicht die ganze Geschichte. Tatsächlich ist die Geocodierungsqualität von Google anhand der von Google angegebenen Genauigkeit seit Sommer 2010 über alles gesehen ein bisschen besser geworden. Wie die erste Tabelle dokumentiert, ist die Anzahl exakt geocodierter Adressen tendentiell gestiegen und jene der schlecht geocodierten Adressen gesunken. Dies sehe ich denn auch als die hauptsächliche Verbesserung der Google-Geocodierung seit Sommer 2010. Ob diese Qualitätsverbesserung aber auch zu einer wirklich exakteren Positionierung der Adressen führt, kann ohne ground truth natürlich nicht beurteilt werden.