Ergänzen eines OpenRefine Projekts mit einem anderen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag befassen wir uns mit dem Zusammenfügen von Inhalten aus verschiedenen Tabellen. Dabei greifen wir auf das im letzten Beitrag erstellte Projekt zurück. Tabellen mit abgleichbaren Spalten Für das Ergänzen eines OpenRefine Projekts mit Inhalten aus einem anderen Projekt braucht es eine Spalte mit Identifikatoren, die abgeglichen werden können. Das heisst, in beiden Projekten […]

OpenRefine Projekt von Website erstellen

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In diesem Beitrag zeigen wir, wie ein neues Projekt aus einer Website erstellt werden kann. Als Beispiel verwenden wir dazu die Wikipedia-Seite mit den Bevölkerungszahlen von 1939 nach Ländern. Projekt erstellen von Clipboard OpenRefine bietet beim Erstellen eines neues Projekts die Option «Web Addresses (URLs)». Diese eignet sich für strukturierte Daten, die bei der Wikipedia-Seite nicht […]

Ontologien und Datenmodelle

Während menschliche Nutzer durch ihr Welt- und Kontextwissen die Bedeutung von Daten und deren Zusammenhang selbst aus einer unstrukturierten Datenmenge meist noch erschliessen können, gelingen solche Kontextualisierungsleistungen Maschinen prinzipiell weniger gut. Die unter dem Stichwort des «semantic web» zusammengefassten Bemühungen begegnen dieser Schwierigkeit dadurch, dass sie nicht nur die Daten selbst (in einer allenfalls flachen Struktur) speichern, sondern vielmehr auch deren Bedeutung und das semantische Geflecht, in dem sie stehen, offenlegen und dem Datenmodell mit einzubeschreiben versuchen. In den weiteren […]

Usecase: Reconciling von Geodaten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Der heutige Beitrag widmet sich einem konkreten Anwendungsfall. Im Folgenden werden wir beschreiben, wie wir für die Vernetzung der Geodaten verschiedener Provider vorgegangen sind. Probleme Bei einem grossen, heterogenen Datensatz, in unserem Beispiel ist das eine Liste von geografischen Bezeichnungen, bestehend aus Ländern und Orten, aber auch Gebirgen oder Gewässern, ergeben sich bei der Reconciliation mit Wikidata zwei Probleme: Die Daten mit einem spezifischen Wikidata […]

Reconciling

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In den bisherigen Blogbeiträgen dieser Serie haben wir uns mit dem Strukturieren, Reinigen und Aufbereiten von Daten befasst. Ein grosser Vorteil von OpenRefine blieb dabei aussen vor: die Möglichkeit, externe Datenbestände mit den eigenen Daten abzugleichen, das Reconciling. Darum geht es in diesem Beitrag. Ein häufig genutzter und gut funktionierender Recionciliation Service ist Wikidata. Dieser Service […]

Workshop zu Ortstypologie und Ortsontologie

Ortsdaten gehören zu den Basics historischer Forschungsdaten und sind für viele Forschungsvorhaben und Editionsprojekte unerlässlich. Trotz einer grossen Anzahl von guten Datenbanken mit Ortsdaten und punktuell bestehenden Verlinkungen zwischen diesen Datenbanken besteht ein Bedarf an stabilen Normdaten für die historische Forschung. Eine Typologie und eine Ontologie zu historischen Schweizer Ortsdaten existieren bisher nicht. Hier setzt histHub an. Am Workshop präsentieren wir unsere bisherigen Entwicklungen in diesem Bereich. Bild: Screenshot des Thesaurusmanagers mit Ortstypen von histHub Programm Begrüssung und Einführung in […]

GREL

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Bereits in früheren Beiträgen sind wir auf die General Refine Expression Language, kurz GREL, gestossen. Befehle an OpenRefine werden in GREL formuliert, es ist jedoch auch möglich andere Sprachen (Python/Jython oder Clojure) zu verwenden. In diesem Beitrag werden wir uns mit GREL befassen, um eigene Befehle formulieren zu können. Verwendung von GREL GREL kann sowohl zum […]

Aufbereitung der Forschungsdaten der SSRQ für histHub

Projekte und Forschende, die über Forschungsdaten zu historischen Personen, Orten, Organisationen oder Konzepten verfügen, können diese in histHub mit den Daten verwandter Projekte verlinken und mit Normdaten anreichern. Die fünf Träger von histHub erarbeiten anhand ihrer Daten einen Normdatensatz sowie mehrere kontrollierte Vokabulare zur Schweizer Geschichte. Die Daten aus den zwei XML-Datenbanken zu historischen Ortsnamen bzw. zu historischen Begriffen (Schlagwörter und Lemmata) sowie aus dem RDF–Triplestore zu historischen Personen und Organisationen der Sammlung Schweizerischer Rechtsquellen (SSRQ) wurden für den histHub-Normdatensatz […]

Spalten bearbeiten

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von Spalten verändern wollen? Damit befasst sich dieser Beitrag. Im Beitrag zum Bearbeiten von Spalten und Zellen haben wir bereits gelernt, Inhalte von Spalten zu trennen. […]

histHub-geo und histHub-geotype

Im Herbst 2013 stellten Dodis, das HLS und die SSRQ am internationalen DARIAH-DE Expert workshop on controlled vocabularies, der von Michael Piotrowski am Institut für Europäische Geschichte in Mainz organisiert wurde, ihre Ortstypen vor. Nach dem Workshop verfolgten die Schweizer Teilnehmenden das Ziel, eine Ortstypologie für historische Orte der Schweiz zu entwickeln. Die Idee wurde in den Projektplan von histHub aufgenommen und wird nun zusammen mit dem Idiotikon und ortsnamen.ch in die Tat umgesetzt. Der interne Workshop, der am 29. […]