Erste Schritte mit OpenRefine: ein erstes Projekt

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt.


OpenRefine starten

HistHub arbeitet an einer Webinstanz, in die künftig neben OpenRefine weitere Tools zur Bearbeitung historischer Daten integriert werden. Eine Alpha-Version ist bereits verfügbar. Wer schon jetzt die Online-Version testen will, kann unter net@histhub.ch einen Zugang beantragen.

Prinzipiell kann OpenRefine aber auch auf dem eigenen Computer installiert werden. Der Download und Anleitungen zur Installation für verschiedene Betriebssysteme sind auf der Website von OpenRefine verfügbar.

Beispieldatensatz – Fotosammlung Annemarie Schwarzenbach (Schweizerische Nationalbibliothek)

Für die ersten Übungen verwenden wir die Metadaten zu den Fotografien von Annemarie Schwarzenbach. Die Daten werden von der Nationalbibliothek zur Verfügung gestellt und sind auf dem Portal opendata.swiss abrufbar. Die Metadaten sind im CSV-Format vorhanden.

Die Digitalisate der Fotos sind auf Wikimedia Commons verfügbar, Links auf die Digitalisate sind in der Tabelle vorhanden.

Hier geht es direkt zum Download.

Upload der Daten

In dieser ersten Übung verwenden wir den simplen Upload einer Datei vom eigenen Computer aus. Nach dem Start von OpenRefine in der Navigation links «Create Project» wählen, dann unter «Get data from» «This Computer» aussuchen. Mit einem Klick auf «Durchsuchen» kann zur zuvor gespeicherten CSV-Datei navigiert werden.


Mit einem Klick auf «Next» werden die Daten geladen. Der Upload kann ein paar wenige Minuten dauern.

Konfiguration der Tabelle

Danach zeigt sich folgender Bildschirm:

Hier werden die Textdateien für den eigentlichen Import vorbereitet.

Wichtige Parameter, die häufig benötigt werden, sind:

  • Zeichencodierung (Character encoding)
    In unserem Fall ist die Codierung UTF-8.
    Einen ersten Überblick über die unterschiedlichen Codierungsmöglichkeiten für westeuropäische Alphabete bietet dieser Wikipedia-Artikel.
  • Zeichen, die die Spaltengrenzen markieren (Columns are separated by)
    Die Spalten sind in unserem Beispiel mit «;» voneinander getrennt, dementsprechend muss unter «custom» ein ; eingetragen werden. Neben Komma und Tab, die Standard sind, können im «Custom»-Feld alle beliebigen Zeichen eingetragen werden, bei denen eine neue Spalte beginnen soll.
  • Im rechten unteren Bildschirmbereich kann man die Bearbeitung der Zeilen auswählen.
    Hierbei ist es möglich, den Import erst ab einer bestimmten Zeile zu beginnen. Hier kann unter anderem angegeben werden, ob die Spalte eine Kopfzeile hat oder nicht («Parse next _ line(s) as column header»).
  • Sobald die Vorschau wie gewünscht aussieht, kann oben rechts noch ein aussagekräftiger Name gewählt werden, bevor mit einem Klick auf «Create Project» das OpenRefine-Projekt angelegt wird.

Orientierung in OpenRefine

Bevor wir im nächsten Blogbeitrag mit den ersten Bearbeitungen loslegen, wollen wir uns zuerst etwas orientieren.

Oben erscheint direkt neben dem OpenRefine-Logo der Name des aktuell offenen Projekts. Mit einem Doppelklick kann der geändert werden. Das Logo führt zurück auf die Startseite von OpenRefine, wo ein neues Projekt gestartet oder ein bereits vorhandenes Projekt geöffnet werden kann. Oben rechts sind Buttons für das Öffnen eines neuen OpenRefine-Fensters, den Export des aktuell offenen Projekts und zur Hilfe.

In der linken Seitenspalte gibt es zwei Tabs. Der Facet/Filter Tab zeigt Facetten und Filter an, wenn solche ausgewählt wurden. Dort können auch Cluster angewählt werden. Der Tab Undo/Redo ermöglicht es, Schritte rückgängig zu machen oder zu wiederholen. Dort ist es ausserdem möglich, Schritte zu exportieren oder zu importieren. Die Undo/Redo-Funktion sowie Filter und Facetten werden in anderen Blogbeiträgen ausführlich behandelt.

In der blauen Zeile oben wird die Anzahl Zeilen angezeigt. Darunter lässt sich einstellen, wie viele Zeilen sichtbar sein sollen. In der Zeile mit den Titeln der Spalten ist bei jeder Spalte ein Pfeilsymbol. Damit lässt sich ein Menü öffnen. Fast alle Funktionen von OpenRefine verbergen sich hier. Die Spalte ganz links («All») wird von OpenRefine für jedes Projekt automatisch erstellt. Dort lassen sich Zeilen mit Stern oder Fähnchen markieren, ausserdem vergibt OpenRefine selbstständig eindeutige IDs.

Soviel zum Erstellen eines Projekts und zur Orientierung in OpenRefine. Fragen, Wünsche und Anregungen können jederzeit per Mail an uns gerichtet werden.