Deduplizieren mit OpenRefine
In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei […]