Deduplizieren mit OpenRefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei […]

Annemarie Schwarzenbach

histHub setzt sich seit Oktober mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach auseinander. In einer Blogserie zeigen wir, wie die tabellenförmigen Daten in OpenRefine verbessert und angereichert werden können. Aus Anlass des 75. Todestags von Annemarie Schwarzenbach hat das Schweizerische Literaturarchiv nun über 3000 Fotografien auf Wikimedia Commons zur Verfügung gestellt. Für histHub bietet […]

Cluster

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag beschäftigt sich mit Clustern als Methode zum Reinigen von Daten und mit den verschiedenen Methoden, die OpenRefine dafür bietet. Die Beispiele und Screenshots in diesem Beitrag stammen wieder aus dem Projekt mit den Metadaten zu den Fotografien von […]

Bearbeiten von Spalten und Zellen

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag zeigt häufig angewandte Transformationen. Als Grundlage dienen weiterhin die Metadaten zu den Fotografien von Annemarie Schwarzenbach, die im Beitrag über das Erstellen eines OpenRefine-Projekts vorgestellt wurden. Häufige Transformationen Die Spalte «Titel_Name» enthält Informationen über die Fotografie, die meist […]

Facetten und Filter

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Im letzten Beitrag haben wir ein Projekt mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach erstellt, heute befassen wir uns mit Facetten und Filtern. Die Erklärungen beziehen sich auf die […]

Erste Schritte mit OpenRefine: ein erstes Projekt

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. OpenRefine starten HistHub arbeitet an einer Webinstanz, in die künftig neben OpenRefine weitere Tools zur Bearbeitung historischer Daten integriert werden. Eine Alpha-Version ist bereits verfügbar. Wer schon jetzt die Online-Version testen […]

Über OpenRefine

Wer oft mit automatisch generierten oder übernommenen historischen Daten arbeitet, kennt das Problem von sogenannten «Messy Data»: Daten, die in Form und Aufbereitung noch nicht den Bedürfnissen einer historischen Fragestellung entsprechend oder in dieser Form noch nicht mit anderen Tools weiterverwendet werden können. Es kann einiges an Aufwand erfordern, diese Daten aufzubereiten und für die […]