Best Practices für das Erstellen von Parquet-Dateien

Nachdem mein Kollege Ralph Straumann seine zweiteilige Serie zu CSV und dessen designierten Nachfolger Parquet verfasst hat, gab es einige Fragen, wie denn eine «gute» Parquet-Datei erstellt werden soll. Aus diesem Grund möchte ich hier gerne einige Überlegungen dazu teilen, was es zu beachten gilt. Einige der hier vorgestellten Optimierungen kommen naturgemäss erst ab einer … Best Practices für das Erstellen von Parquet-Dateien weiterlesen

DuckDB: Schnelle Datenbank für Analysen

Ist Ihnen DuckDB auch schon begegnet? In meinen Feeds ist diese Datenbank-Technologie schon länger ein vieldiskutiertes Thema. Der Titel sagt schon vieles: DuckDB ist ist ein relationales Datenbank-Managementsystem (DBMS) und verfügt über eine sehr performante Engine für analytische Anwendungsfälle. Meines Erachtens für Data Engineers und Data Scientists Grund genug, sich diese Technologie genauer anzuschauen. Ich … DuckDB: Schnelle Datenbank für Analysen weiterlesen

Death to CSV ☠️ — Part II

Das CSV-Format hat sich für viele Anwendungen überlebt. Im zweiten Teil dieser kleinen Blogserie möchte ich ausführen, wie Parquet – eine prominente Alternative zu CSV für die Speicherung tabellarischer Daten – im Vergleich mit CSV abschneidet. Ich setze dafür einige beispielhafte Datenverarbeitungsschritte in R um und erstelle quantitative Vergleiche. Im ersten Teil dieses Blogposts bin … Death to CSV ☠️ — Part II weiterlesen

Death to CSV ☠️

Das CSV-Format hat sich für viele Anwendungen überlebt. Im ersten Teil dieser kleinen Blogserie zeige ich Vor- und vor allem Nachteile von CSV für die professionelle Arbeit mit Daten auf. Aber kein Niederschlag ohne Regenbogen: Ich erläutere auch kurz eine aus meiner Sicht valable Alternative, um im 21. Jahrhundert tabellarische Daten zu speichern und weiterzugeben. … Death to CSV ☠️ weiterlesen

Cloudnative Geospatial: DIY-Höhenlinien aus der Cloud – Teil 2

Nachdem wir uns im letzten Blogpost durch verschiedene DEMs gewühlt haben, widmen wir uns jetzt der technischen Umsetzung, aus DEM abgeleitete Höhenlinien «cloudnative» in eine Webmap zu bringen. Konkret ist das Ziel, aus den einzelnen Rasterdaten des Copernicus-DEM einen Cloudnative Geospatial-Datensatz mit Protomaps zu erstellen, mit dem wir in einer Webapplikation mit MapLibre GL JS … Cloudnative Geospatial: DIY-Höhenlinien aus der Cloud – Teil 2 weiterlesen

Cloudnative Geospatial: DIY Höhenlinien aus der Cloud – Teil 1

Vor einigen Wochen nahm ich an der diesjährigen FOSS4G in Prizren teil (siehe meinen Bericht). Nebst einer ziemlich genialen Typescript-Library namens TerraDraw, welche sich zum Ziel gesetzt hat, die ganze Logik für das Zeichnen von Daten in Webapplikationen zu abstrahieren (und für die ich in der Zwischenzeit noch einen Adapter für die ArcGIS Maps SDK … Cloudnative Geospatial: DIY Höhenlinien aus der Cloud – Teil 1 weiterlesen