histHub-Lab: Tutorials zu OpenRefine

Das histHub-Lab enthält derzeit auch eine cloudbasierte Version von OpenRefine. OpenRefine ist ein Tool zur strukturierten Bearbeitung von grossen tabellarischen Daten. Um den Einstieg in die Arbeit mit Openrefine zu vereinfachen, haben wir in einer Blogserie die wichtigsten Arbeitsschritte beschrieben. Wir wünschen Ihnen viel Spass und Erfolg bei der Arbeit mit OpenRefine und freuen uns […]

OpenRefine: Record auf einer Zeile zusammenfassen

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Der letzte Beitrag erklärte das Erstellen von OpenRefine-Projekten aus nicht tabellenförmigen Daten. Dabei wurden «records» generiert. Es wäre jedoch sinnvoller, die Informationen in einer einzigen Zeile zusammenzufassen. In diesem Beitrag zeigen wir […]

Import nicht tabellenförmiger Daten in OpenRefine

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie sind in einer Übersicht gesammelt. Bisher haben wir in dieser Blogserie jeweils mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach gearbeitet. Diese kommen als CSV daher, sind also bereits tabellenförmig. In diesem Beitrag werden wir […]

Fill down und Blank down

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Im letzten Beitrag haben wir uns mit dem Unterschied zwischen «rows» und «records» befasst. Ein Vorteil des «Record»-Modus ist die Möglichkeit, «Fill Down» und «Blank down» zu kontrollieren. «Fill down» und […]

Ergänzen eines OpenRefine-Projekts mit einem anderen

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag befassen wir uns mit dem Zusammenfügen von Inhalten aus verschiedenen Tabellen. Dabei greifen wir auf das im letzten Beitrag erstellte Projekt zurück. Tabellen mit abgleichbaren Spalten Für das […]

OpenRefine-Projekt von Website erstellen

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir, wie ein neues Projekt aus einer Website erstellt werden kann. Als Beispiel verwenden wir dazu die Wikipedia-Seite mit den Bevölkerungszahlen von 1939 nach Ländern. Projekt erstellen […]

Usecase: Reconciling von Geodaten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Der heutige Beitrag widmet sich einem konkreten Anwendungsfall. Im Folgenden werden wir beschreiben, wie wir für die Vernetzung der Geodaten verschiedener Provider vorgegangen sind. Probleme Bei einem grossen, heterogenen Datensatz, in unserem Beispiel ist das eine Liste von geografischen Bezeichnungen, […]

GREL

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Bereits in früheren Beiträgen sind wir auf die General Refine Expression Language, kurz GREL, gestossen. Befehle an OpenRefine werden in GREL formuliert, es ist jedoch auch möglich andere Sprachen (Python/Jython oder […]

Spalten bearbeiten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von […]

Deduplizieren mit OpenRefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei […]