Fill down und Blank down

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Im letzten Beitrag haben wir uns mit dem Unterschied zwischen Rows und Records befasst. Ein Vorteil des Record-Mode ist die Möglichkeit, «Fill Down» und «Blank down» zu kontrollieren. «Fill down» und «Blank down» werden in OpenRefine recht häufig verwendet, beispielsweise beim Deduplizieren. Beide Funktionen sind «gierig». Das heisst, sie füllen alle leeren Zellen bis zum nächsten […]

Zeilen und Einträge – Rows und Records

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir den Unterschied zwischen Row- und Record-Mode.  Oben links im OpenRefine Bearbeitungsfenster kann gewählt werden, ob die Daten das «row» oder als «record» angezeigt werden.   Unterschied zwischen row und record  Eine «row» ist eine einzelne Zeile in OpenRefine. Sie enthält Daten zu einem bestimmten Objekt. Im Idealfall enthält sie zu Beginn eine […]

Ergänzen eines OpenRefine Projekts mit einem anderen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag befassen wir uns mit dem Zusammenfügen von Inhalten aus verschiedenen Tabellen. Dabei greifen wir auf das im letzten Beitrag erstellte Projekt zurück. Tabellen mit abgleichbaren Spalten Für das Ergänzen eines OpenRefine Projekts mit Inhalten aus einem anderen Projekt braucht es eine Spalte mit Identifikatoren, die abgeglichen werden können. Das heisst, in beiden Projekten […]

OpenRefine Projekt von Website erstellen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir, wie ein neues Projekt aus einer Website erstellt werden kann. Als Beispiel verwenden wir dazu die Wikipedia-Seite mit den Bevölkerungszahlen von 1939 nach Ländern. Projekt erstellen von Clipboard OpenRefine bietet beim Erstellen eines neues Projekts die Option «Web Addresses (URLs)». Diese eignet sich für strukturierte Daten, die bei der Wikipedia-Seite nicht […]

Usecase: Reconciling von Geodaten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Der heutige Beitrag widmet sich einem konkreten Anwendungsfall. Im Folgenden werden wir beschreiben, wie wir für die Vernetzung der Geodaten verschiedener Provider vorgegangen sind. Probleme Bei einem grossen, heterogenen Datensatz, in unserem Beispiel ist das eine Liste von geografischen Bezeichnungen, bestehend aus Ländern und Orten, aber auch Gebirgen oder Gewässern, ergeben sich bei der Reconciliation mit Wikidata zwei Probleme: Die Daten mit einem spezifischen Wikidata […]

Reconciling

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In den bisherigen Blogbeiträgen dieser Serie haben wir uns mit dem Reinigen und Aufbereiten von Daten befasst. Ein grosser Vorteil von OpenRefine blieb dabei aussen vor: die Möglichkeit, externe Datenbestände mit den eigenen Daten abzugleichen, das Reconciling. Darum geht es in diesem Beitrag. Ein häufig genutzter und deshalb gut funktionierender Recionciliation Service ist Wikidata. Dieser Service […]

GREL

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Bereits in früheren Beiträgen sind wir auf die General Refine Expression Language, kurz GREL, gestossen. Befehle an OpenRefine werden in GREL formuliert, es ist jedoch auch möglich andere Sprachen (Python/Jython oder Clojure) zu verwenden. In diesem Beitrag werden wir uns mit GREL befassen, um eigene Befehle formulieren zu können. Verwendung von GREL GREL kann sowohl zum […]

Spalten bearbeiten

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von Spalten verändern wollen? Damit befasst sich dieser Beitrag. Im Beitrag zum Bearbeiten von Spalten und Zellen haben wir bereits gelernt, Inhalte von Spalten zu trennen. […]

Deduplizieren mit OpenRefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in Openrefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei Signatur-Spalten. Beide diese Spalten enthalten einzigartige Signaturen für jede einzelne Zeile. Richtige Dubletten enthält dieser Datensatz nicht.  Zu Übungszwecken können wir nun beispielsweise anhand der […]

Cluster

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Dieser Beitrag beschäftigt sich mit Clustern als Methode zum Reinigen von Daten und mit den verschiedenen Methoden, die OpenRefine dafür bietet. Die Beispiele und Screenshots in diesem Beitrag stammen wieder aus dem Projekt mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach. Die Arbeitsschritte können mit einem anderen Datensatz (oder über andere Spalten dieses Datensatzes) nachvollzogen werden. Cluster sind Vorschläge des Computers, welche Einträge in […]