News

Ontologien und Datenmodelle

Während menschliche Nutzer durch ihr Welt- und Kontextwissen die Bedeutung von Daten und deren Zusammenhang selbst aus einer unstrukturierten Datenmenge meist noch erschliessen können, gelingen solche Kontextualisierungsleistungen Maschinen prinzipiell weniger gut. Die unter dem Stichwort des «semantic web» zusammengefassten Bemühungen begegnen dieser Schwierigkeit dadurch, dass sie nicht nur die Daten selbst (in einer allenfalls flachen […]

Usecase: Reconciling von Geodaten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Der heutige Beitrag widmet sich einem konkreten Anwendungsfall. Im Folgenden werden wir beschreiben, wie wir für die Vernetzung der Geodaten verschiedener Provider vorgegangen sind. Probleme Bei einem grossen, heterogenen Datensatz, in unserem Beispiel ist das eine Liste von geografischen Bezeichnungen, […]

Reconciling

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. In den bisherigen Blogbeiträgen dieser Serie haben wir uns mit dem Strukturieren, Reinigen und Aufbereiten von Daten befasst. Ein grosser Vorteil von OpenRefine blieb dabei aussen vor: die Möglichkeit, externe Datenbestände […]

GREL

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Bereits in früheren Beiträgen sind wir auf die General Refine Expression Language, kurz GREL, gestossen. Befehle an OpenRefine werden in GREL formuliert, es ist jedoch auch möglich andere Sprachen (Python/Jython oder […]

Aufbereitung der Forschungsdaten der SSRQ für histHub

Projekte und Forschende, die über Forschungsdaten zu historischen Personen, Orten, Organisationen oder Konzepten verfügen, können diese in histHub mit den Daten verwandter Projekte verlinken und mit Normdaten anreichern. Die fünf Träger von histHub erarbeiten anhand ihrer Daten einen Normdatensatz sowie mehrere kontrollierte Vokabulare zur Schweizer Geschichte. Die Daten aus den zwei XML-Datenbanken zu historischen Ortsnamen […]

Spalten bearbeiten

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von […]

histHub-geo und histHub-geotype

Im Herbst 2013 stellten Dodis, das HLS und die SSRQ am internationalen DARIAH-DE Expert workshop on controlled vocabularies, der von Michael Piotrowski am Institut für Europäische Geschichte in Mainz organisiert wurde, ihre Ortstypen vor. Nach dem Workshop verfolgten die Schweizer Teilnehmenden das Ziel, eine Ortstypologie für historische Orte der Schweiz zu entwickeln. Die Idee wurde in den Projektplan von histHub aufgenommen und wird nun zusammen […]

Deduplizieren mit OpenRefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei […]

Temporale Ausdrücke in historischen Texten

In Texten beschreiben temporale Ausdrücken verschiedene Phänomene, z. B. einen Zeitpunkt oder eine Zeitspanne. Ein Datum kann explizit mit 25. Dezember 2015 oder implizit als Weihnachten 2015 genannt werden. Ebenso kommen relative Begriffe wie «im nächsten Jahr» oder «heute» oder gar freie Formulierungen wie «nach der Verlobung von Prinz Harry» vor. Für das Tagging solcher […]

Annemarie Schwarzenbach

histHub setzt sich seit Oktober mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach auseinander. In einer Blogserie zeigen wir, wie die tabellenförmigen Daten in OpenRefine verbessert und angereichert werden können. Aus Anlass des 75. Todestags von Annemarie Schwarzenbach hat das Schweizerische Literaturarchiv nun über 3000 Fotografien auf Wikimedia Commons zur Verfügung gestellt. Für histHub bietet […]