OpenRefine: Record auf einer Zeile zusammenfassen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Der letzte Beitrag erklärte das Erstellen von OpenRefine Projekten aus nicht tabellenförmigen Daten. Dabei wurden Records generiert. Es wäre jedoch sinnvoller, die Informationen in einer einzigen Zeile zusammen zu fassen. In diesem Beitrag zeigen wir Möglichkeiten dazu auf. Zusammenfügen Im Beispiel aus dem letzten Beitrag haben wir ein OpenRefine Projekt aus einem json erstellt. Dabei wurden […]

Import nicht tabellenförmiger Daten in OpenRefine

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie sind in einer Übersicht gesammelt. Bisher haben wir in dieser Blogserie jeweils mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach gearbeitet. Diese kommen als csv daher, sind also bereits tabellenförmig. In diesem Beitrag werden wir zeigen, wie andere, nicht tabellenförmige Daten in OpenRefine importiert werden können, um sie dort aufzubereiten und anzureichern. Openrefine bietet den Import sehr unterschiedlicher Formate an. […]

Fill down und Blank down

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Im letzten Beitrag haben wir uns mit dem Unterschied zwischen Rows und Records befasst. Ein Vorteil des Record-Mode ist die Möglichkeit, «Fill Down» und «Blank down» zu kontrollieren. «Fill down» und «Blank down» werden in OpenRefine recht häufig verwendet, beispielsweise beim Deduplizieren. Beide Funktionen sind «gierig». Das heisst, sie füllen alle leeren Zellen bis zum nächsten […]

Zeilen und Einträge – Rows und Records

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir den Unterschied zwischen Row- und Record-Mode.  Oben links im OpenRefine Bearbeitungsfenster kann gewählt werden, ob die Daten das «row» oder als «record» angezeigt werden.   Unterschied zwischen row und record  Eine «row» ist eine einzelne Zeile in OpenRefine. Sie enthält Daten zu einem bestimmten Objekt. Im Idealfall enthält sie zu Beginn eine […]

Ergänzen eines OpenRefine Projekts mit einem anderen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag befassen wir uns mit dem Zusammenfügen von Inhalten aus verschiedenen Tabellen. Dabei greifen wir auf das im letzten Beitrag erstellte Projekt zurück. Tabellen mit abgleichbaren Spalten Für das Ergänzen eines OpenRefine Projekts mit Inhalten aus einem anderen Projekt braucht es eine Spalte mit Identifikatoren, die abgeglichen werden können. Das heisst, in beiden Projekten […]

OpenRefine Projekt von Website erstellen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir, wie ein neues Projekt aus einer Website erstellt werden kann. Als Beispiel verwenden wir dazu die Wikipedia-Seite mit den Bevölkerungszahlen von 1939 nach Ländern. Projekt erstellen von Clipboard OpenRefine bietet beim Erstellen eines neues Projekts die Option «Web Addresses (URLs)». Diese eignet sich für strukturierte Daten, die bei der Wikipedia-Seite nicht […]

Usecase: Reconciling von Geodaten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Der heutige Beitrag widmet sich einem konkreten Anwendungsfall. Im Folgenden werden wir beschreiben, wie wir für die Vernetzung der Geodaten verschiedener Provider vorgegangen sind. Probleme Bei einem grossen, heterogenen Datensatz, in unserem Beispiel ist das eine Liste von geografischen Bezeichnungen, bestehend aus Ländern und Orten, aber auch Gebirgen oder Gewässern, ergeben sich bei der Reconciliation mit Wikidata zwei Probleme: Die Daten mit einem spezifischen Wikidata […]

Reconciling

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In den bisherigen Blogbeiträgen dieser Serie haben wir uns mit dem Strukturieren, Reinigen und Aufbereiten von Daten befasst. Ein grosser Vorteil von OpenRefine blieb dabei aussen vor: die Möglichkeit, externe Datenbestände mit den eigenen Daten abzugleichen, das Reconciling. Darum geht es in diesem Beitrag. Ein häufig genutzter und gut funktionierender Recionciliation Service ist Wikidata. Dieser Service […]

GREL

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Bereits in früheren Beiträgen sind wir auf die General Refine Expression Language, kurz GREL, gestossen. Befehle an OpenRefine werden in GREL formuliert, es ist jedoch auch möglich andere Sprachen (Python/Jython oder Clojure) zu verwenden. In diesem Beitrag werden wir uns mit GREL befassen, um eigene Befehle formulieren zu können. Verwendung von GREL GREL kann sowohl zum […]

Spalten bearbeiten

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von Spalten verändern wollen? Damit befasst sich dieser Beitrag. Im Beitrag zum Bearbeiten von Spalten und Zellen haben wir bereits gelernt, Inhalte von Spalten zu trennen. […]