Best Practices für das Erstellen von Parquet-Dateien

Nachdem mein Kollege Ralph Straumann seine zweiteilige Serie zu CSV und dessen designierten Nachfolger Parquet verfasst hat, gab es einige Fragen, wie denn eine «gute» Parquet-Datei erstellt werden soll. Aus diesem Grund möchte ich hier gerne einige Überlegungen dazu teilen, was es zu beachten gilt. Einige der hier vorgestellten Optimierungen kommen naturgemäss erst ab einer … Best Practices für das Erstellen von Parquet-Dateien weiterlesen

Barrierefreiheit durch KI: Aktualisierung von Rollstuhlparkplatz-Daten mit Deep Learning und Luftbildern

In einer digitalisierten Welt sind präzise und aktuelle Daten entscheidend. In dieser Blogserie zeige ich, wie moderne Technologien wie Deep Learning genutzt werden können, um Daten zu Rollstuhlparkplätzen effizient zu aktualisieren und zu pflegen. Begleiten Sie mich im ersten Teil auf eine Reise durch die Welt der Datenverarbeitung für ein möglichst barrierefreies Umfeld. Die Entstehung … Barrierefreiheit durch KI: Aktualisierung von Rollstuhlparkplatz-Daten mit Deep Learning und Luftbildern weiterlesen

DuckDB: Schnelle Datenbank für Analysen

Ist Ihnen DuckDB auch schon begegnet? In meinen Feeds ist diese Datenbank-Technologie schon länger ein vieldiskutiertes Thema. Der Titel sagt schon vieles: DuckDB ist ist ein relationales Datenbank-Managementsystem (DBMS) und verfügt über eine sehr performante Engine für analytische Anwendungsfälle. Meines Erachtens für Data Engineers und Data Scientists Grund genug, sich diese Technologie genauer anzuschauen. Ich … DuckDB: Schnelle Datenbank für Analysen weiterlesen

Death to CSV ☠️ — Part II

Das CSV-Format hat sich für viele Anwendungen überlebt. Im zweiten Teil dieser kleinen Blogserie möchte ich ausführen, wie Parquet – eine prominente Alternative zu CSV für die Speicherung tabellarischer Daten – im Vergleich mit CSV abschneidet. Ich setze dafür einige beispielhafte Datenverarbeitungsschritte in R um und erstelle quantitative Vergleiche. Im ersten Teil dieses Blogposts bin … Death to CSV ☠️ — Part II weiterlesen

Death to CSV ☠️

Das CSV-Format hat sich für viele Anwendungen überlebt. Im ersten Teil dieser kleinen Blogserie zeige ich Vor- und vor allem Nachteile von CSV für die professionelle Arbeit mit Daten auf. Aber kein Niederschlag ohne Regenbogen: Ich erläutere auch kurz eine aus meiner Sicht valable Alternative, um im 21. Jahrhundert tabellarische Daten zu speichern und weiterzugeben. … Death to CSV ☠️ weiterlesen

FOSS4G 2023 in Prizren, Kosovo

Neben dem bewährten GIS-Technologiestack basierend auf der Esri-Produktpalette, etabliert sich bei uns mehr und mehr auch ein Open Source GIS-Stack. Um auf dem neusten Stand zu bleiben und uns aktiver in die Community einbringen zu können, besuchen wir regelmässig die FOSS4G. Dieses Jahr hat uns Lukas Merz vertreten. Ein Erfahrungsbericht aus seiner Sicht. Einmal im … FOSS4G 2023 in Prizren, Kosovo weiterlesen