Immer wieder wird im Geschäftskontext über Datenqualität gesprochen. Leider oft genug ziemlich unscharf. Nachdem ich im ersten Blogpost dieser informellen Serie auf den Begriff der Datenqualität generell eingegangen bin, möchte ich nun etwas hineinzoomen auf die Beschreibung der Datenqualität. Ich tue das anhand eines breit etablierten Standards.
Aber erst ein Kürzest-Recap von Teil 1: Wieso sind Daten und deren Qualität wichtig? – Vereinfacht gesagt, weil Leute sich auf Daten verlassen:

Qualität: Mehr als Beschaffenheit
Wie im ersten Blogpost dargelegt, gibt es unterschiedliche Qualitätsbegriffe («5-Sterne-Qualität», zum Beispiel). Ich finde, umgangssprachlich – und leider auch zu oft im professionellen Kontext – wird «Qualität» oft mit «Beschaffenheit» gleichgesetzt. Gemäss der Standard-Familie «ISO 9000 – Qualitätsmanagement» greift diese Auffassung zu kurz, denn die Qualität [eines Guts, eines Produkts, …] beschreibt den Grad, wie gut dessen inhärente Charakteristika (also seine Beschaffenheit) Anforderungen erfüllen. Mit diesen zwei Dimensionen – inhärente Charakteristika und Anforderungserfüllung – habe ich meine Auslegeordnung im letzten Blogpost abgeschlossen.
Standards
Wie können wir Datenqualität nun beschreiben? – Dafür gibt es (natürlich) eine Reihe von Standards. Hier fokussiere ich auf räumliche Daten und bezüglich Standards auf einschlägige ISO-Grundlagen. Wieso räumliche Daten? Weil hier die Standards rund um Datenqualität recht weit entwickelt und an einem Ort gebündelt vorliegen. Ähnliche Standards (zu ISO 19157, um den es im Folgenden geht) existieren für nicht-räumliche Daten:
- ISO/IEC 25012 thematisiert die Qualität von Daten aus dem Blickwinkel von IT-Systemen
- ISO 8000 behandelt die Qualität von Daten inbesondere hinsichtlich Master Data
- ISO/IEC 27001 thematisiert Informationssicherheit und somit unter anderem Datenintegrität
Eine standard-zentrische Sicht auf die Qualität räumlicher Daten könnte so aussehen:

Im Folgenden konzentriere ich mich auf den oben orange eingefärbten Standard, «ISO 19157 Geographic information – Data quality». Am Rand: Unterdessen existiert von ISO 19157 aus 2013 eine überarbeitete Version aus 2023. Soweit ich gesehen habe, wurde der Standard unter der Bezeichnung «ISO 19157-1» unter anderem stärker auf FAIR-Prinzipien ausgerichtet, mit Extensions erweiterbar gestaltet und die Datenqualitätsmasse, die 2013 in einem Anhang definiert waren, wurden neu als «ISO 19157-3 Geographic Information – Data quality measures register» ausgekoppelt.
Betrachtungseinheit = Granularität
ISO 19157 beschreibt Masse für die Qualität von Daten, Reporting-Prinzipien bezüglich Datenqualität und generelle Vorgehensweisen für die Evaluation von Datenqualität. Vorab ist wichtig zu wissen, dass Datenqualität auf verschiedenen Ebenen beschrieben werden kann. Folgende Ebenen oder Betrachtungseinheiten für Datenqualität sind denkbar (die Abgrenzungen sind nicht immer ganz trivial und gleich scharf zu ziehen):
- Datensatz-Familie: zum Beispiel das swissTLM3D oder die Arealstatistik
- Datensatz: zum Beispiel swissSURFACE3D
- Teil-Datensatz: zum Beispiel swissSURFACE3D 2023 im Gebiet des Kantons Solothurn
- Feature-Typ: zum Beispiel Strassen in swissTLM3D
- Feature-Instanz: zum Beispiel die Nationalstrasse A1 in swissTLM3D
- Feature-Attribut: zum Beispiel das Attribut «Strassenklasse» der Strassen in swissTLM3D
- Attributwert: zum Beispiel der Wert «übrige» für das Attribut «Strassenklasse» der Strassen in swissTLM3D
Ich glaube, ich kann für viele Geodaten-Nutzende sprechen und sagen: In der Praxis sind wir uns dieser unterschiedlichen Möglichkeiten der Granularität, in der man Datenqualität beschreiben kann, häufig nicht recht bewusst. Aus zwei Gründen, würde ich sagen:
- Der Diskurs rund um Datenqualität findet sowieso relativ selten statt und wenn, dann häufig oberflächlich. Zum Beispiel: «Diese Daten sind von sehr guter Qualität!»
- Und: Wir bewegen uns häufig auf der Ebene «Datensatz» (teilweise noch auf Ebene «Feature-Instanz») und machen folglich relativ grobe Angaben bzw. müssen mit solchen leben. Zum Beispiel: «Nachführungszeitraum: 2023–2025».
Beispiele aus der Praxis
Wie sieht es in der Praxis aus? – Ich habe einige (nicht näher kuratierte) Beispiele rausgesucht.
Amtlicher Datensatz swissBUILDINGS3D 2.0
Die Produktseite von swissBUILDINGS3D macht Aussagen und Angaben zur Datenqualität. Einiges davon ist relativ grob, anderes relational mit unklarem Bezugspunkt («besserer Detaillierungsgrad», vermutlich «als in Version 1.0» (?)). Generell sind die Angaben auf Betrachtungseinheit «Datensatz» gehalten.

Amtlicher Datensatz swissSURFACE3D
Die «Detaillierte Produktioninformation» (pdf) des Swisstopo-Datensatzes swissSURFACE3D spezifiziert den Qualitätsaspekt der Aktualität mit untenstehender Abbildung. Es handelt sich um eine Angabe auf Betrachtungseinheit «Teil-Datensatz».

Geocodierung
Bei der Geocodierung von Adressdaten machen Geocodierungsservices häufig Angaben über die Qualität der resultierenden Geodaten. Eine Geocodierung umfasst verschiedene Arbeitsschritte: Parsen der Adressinformationen (die sehr heterogen daherkommen können), Matching bzw. Fuzzy Matching mit Gazetteers und Adressdatenbanken und zum Teil Anwendung von Spezial-Methoden (zum Beispiel die lineare Interpolation von Bereichen von Hausnummern entlang eines Strassenzugs).
Im Beispiel des Esri ArcGIS Online Geocoding Service weisen die resultierenden Daten auch eine Art von Qualitätsmassen auf. Hier liegen diese für die Betrachtungseinheit «Feature-Instanz» vor, d.h. jede geocodierte Adresse verfügt über instanz-spezifische Angaben:

Die Dokumentation beschreibt die Angaben «Status» und «Score» wie folgt:
- Status: 
- M: Match. The returned address matches the request and is the highest scoring candidate.
- T: Tie. The returned address matches the request but has the same score as one or more additional candidates.
- U: Unmatch. No addresses match the request.
 
- Score: A number from 1–100 indicating the degree to which the input tokens in a geocoding request match the address components in a candidate record. A score of 100 represents a perfect match, while lower scores represent decreasing match accuracy. Score is always returned by default.
Floating-Car-Data
Bei Floating-Car-Data (FCD) handelt es sich um Daten, die aus Fahrzeugen, die sich im Verkehrsgeschehen befinden, gewonnen werden. Solche FCD werden in der Regel über einen bestimmten Zeitraum und pro Streckenabschnitt des Verkehrsnetzes aggregiert. Aus einem solchen Prozess resultieren Datenprodukte, aus denen sich interessante Erkenntnisse ergeben können. Im unten gezeigten Beispiel kann die Nutzerin zusätzlich zu den eigentlichen Daten beim Datenbezug auch eine Art Qualitätsmasse wünschen. Im Beispiel geben diese ebenfalls Hinweise auf Betrachtungseinheit «Feature-Instanz»: Jeder Strassenabschnitt weist eine spezifische Stichprobengrösse ( «Sample Count») auf und eine – mutmasslich ein Stück weit damit korrelierte? – «Confidence» bezüglich der eigentlichen Daten aus.


Meine Learnings aus Teil 2:
- Für unterschiedliche Arten von Daten existieren bereits «nur» in der ISO-Familie zahlreiche Standards rund um das Thema der Datenqualität.
- Die Standards thematisieren unter anderem die Spezifikation von Datenprodukten, die Form der Beschreibung der Datenqualität, die Qualitätssicherung für Daten und Prozesse für die Evaluation von Datenqualität.
- Für unterschiedliche Datenprodukte können Qualitätsangaben auf unterschiedlicher Betrachtungsebene erfolgen, von sehr grob zu sehr detailliert. Verschiedene Anwendungszwecke erfordern mutmasslich unterschiedliche Granularität von Qualitätsangaben für Daten.