Facetten und Filter

openrefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt.

Im letzten Beitrag haben wir ein Projekt mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach erstellt, heute befassen wir uns mit Facetten und Filtern. Die Erklärungen beziehen sich auf die Metadaten der Fotografien von Annemarie Schwarzenbach, können aber natürlich auch mit einem anderen Datansatz nachvollzogen werden.

Filter und Facetten werden jeweils für eine Tabellenpalte über deren Menü aufgerufen und angewandt. Bei einem geöffneten Projekt gibt es in der linken Seitenspalte zwei Tabs, mit denen man zwischen den Ansichten «Facet/Filter» und «Undo/Redo» wechseln kann. Für den Moment interessiert uns nur der «Facet/Filter» Tab.

Facetten

Wenn wir in der Spalte Orientierung_Form das Menü mit einem Klick auf den Pfeil neben der Spaltenüberschrift öffnen, dann «Facet» und «Text facet» wählen, wird in der linken Seitenleiste folgendes Fenster dargestellt:

Hier sind alle in dieser Spalte vorkommenden Werte mit Anzahl des Vorkommens aufgelistet. Es kann alphabetisch oder nach Anzahl sortiert werden. Ein Klick auf einen  der Werte wählt alle Zeilen mit diesem Wert aus und zeigt sie an.

Facetten sind hilfreich, um beispielsweise Schreibfehler oder Inkonsistenzen schnell zu finden und gegebenenfalls zu korrigieren. Die Einträge «QuadratHorizontal» und «HorizontalQuadrat» im obigen Beispiel könnten das gleiche meinen, zumal einer davon nur ein einziges Mal auftaucht.

Zeigen wir nun die Zeilen zu diesen beiden Ausprägungen an. Bei Mousevoer wird der aktive Eintrag im Facettenfenster grau hinterlegt, und rechts erscheinen die Schaltflächen «edit» und «include». Mit einem Klick auf «include» bei den beiden Zeilen werden nur noch die entsprechenden Beiträge in der Tabelle angezeigt. In der blau hinterlegten Kopfzeile ist «28 matching rows (3486 total)» zu sehen. Diese Information ist besonders wichtig für weitere Transformationen. Werden jetzt Transformationen auf eine Spalte oder auf Zellen einer Spalte gemacht, geschieht dies nur in diesen gematchten Zeilen.

Zur Vereinheitlichung dieser 28 Zeilen bieten sich verschiedene Möglichkeiten an:

  • Im Facetten-Fenster in der linken Seitenleiste kann «edit» gewählt werden. Das ändert alle Vorkommen dieses Eintrags. Bei einer überschaubaren Anzahl Werte wie in diesem Beispiel ist das oft die schnellere Variante.
  • Der zweite Weg ist etwas komplexer. Hier ist wichtig, dass nur die Zeilen gematched sind, also angezeigt werden, die auch bearbeitet werden sollen.
    Über das Spalten-Menü zuerst auf «Edit cells», dann «Transform…». Hier öffner sich ein Bearbeitungsfenster. In Openrefine wird üblicherweise mit der General Refine Expression Language GREL gearbeitet, es sind aber auch andere Sprachen möglich. GREL wird in einem späteren Beitrag in dieser Blogserie vertieft behandelt werden.
    Zu Beginn ist im Eingabefenster immer «value» angegeben. Wollen wir nun alle aktiven (also gematchten) Zeilen mit einem einzigen Wert befüllen, können wir diesen in Anführungszeichen eingeben. «value» benötigen wir dazu nicht:

    Nach dem Klick auf «OK» wird oben vor gelbem Hintergrund angezeigt, wie viele Zellen bearbeitet wurden. Bei diesem Beispiel ist dies eine einzige Zeile.

Filter

Ein anderer Ansatz, nur bestimmte Zeilen anzuzeigen und gegebenenfalls zu bearbeiten sind Filter. Diese betreffen nicht den gesamten Inhalt der Zelle wie die Facetten.

Im Spaltenmenü kann unter «Text filter» ein Filter aufgerufen und angewandt werden. Es ist möglich, hier Reguläre Ausdrücke zu verwenden.

In der Spalte «Orientierung_Form» kann z.B. nach «Quadrat» gefiltert werden. Gematched werden dann nicht nur die Zeilen mit dem exakten Inhalt «Quadrat», sondern beispielsweise auch «QuadratHorizontal».

Ist ein Filter aktiv, werden wie bei Facetten weitere Transformationen nur über die sichtbaren Zeilen ausgeführt. Umgekehrt kann mit Filter eine über Facetten getroffene Auswahl weiter eingeschränkt werden. Die Anzahl der gematchten, also sichtbaren Zeilen ist jeweils oberhalb der Tabelle in der blau hinterlegten Zeile zu sehen.

Kennenlernen der Daten

Facetten helfen, sich einen Überblick über die Daten zu verschaffen. Tippfehler lassen sich hier schnell beheben, wenn die Anzahl der Werte überschaubar ist. Bei grösseren Datenmengen oder wenn viele unterschiedliche Werte in einer Spalte vorhanden sind, eignet sich dafür das Clustern besser. Das Clustern wird in einem späteren Beitrag behandelt.

Mit Filtern kann gezielt nach einem bestimmten Begriff in einer Spalte gesucht werden.

Filter und Facetten helfen, die eigenen Daten kennenzulernen. Fehler in den Daten lassen sich so schnell aufspüren und korrigieren. Ausserdem ermöglichen es Filter und Facetten, nur eine bestimmte Auswahl an Zeilen zu transformieren. Dazu gibt es mehr im nächsten Beitrag.

Wünsche oder Anregungen für weitere Beiträge in dieser Blogserie nehmen wir gerne per Mail entgegen.