Spalten bearbeiten

histHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Dabei haben wir festgestellt, dass OpenRefine stark über die Spalten organisiert ist. Bearbeitungsschritte, Facetten oder Filter werden jeweils für eine Spalte aufgerufen. Was ist denn nun, wenn wir den Inhalt von Spalten verändern wollen? Damit befasst sich dieser Beitrag. Im Beitrag zum Bearbeiten von Spalten und Zellen haben wir bereits gelernt, Inhalte von Spalten zu trennen. […]

histHub-geo und histHub-geotype

Im Herbst 2013 stellten Dodis, das HLS und die SSRQ am internationalen DARIAH-DE Expert workshop on controlled vocabularies, der von Michael Piotrowski am Institut für Europäische Geschichte in Mainz organisiert wurde, ihre Ortstypen vor. Nach dem Workshop verfolgten die Schweizer Teilnehmenden das Ziel, eine Ortstypologie für historische Orte der Schweiz zu entwickeln. Die Idee wurde in den Projektplan von histHub aufgenommen und wird nun zusammen mit dem Idiotikon und ortsnamen.ch in die Tat umgesetzt. Der interne Workshop, der am 29. […]

Deduplizieren mit OpenRefine

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in Openrefine. Dieser Beitrag beleuchtet das Deduplizieren, also das finden und löschen doppelter Einträge. Kriterien zum Deduplizieren Voraussetzung dafür ist (mindestens) eine Spalte, in der Dubletten eindeutig als solche auftauchen. In den Metadaten zu den Fotografien von Annemarie Schwarzenbach gibt es zwei Signatur-Spalten. Beide diese Spalten enthalten einzigartige Signaturen für jede einzelne Zeile. Richtige Dubletten enthält dieser Datensatz nicht.  Zu Übungszwecken können wir nun beispielsweise anhand der […]

Temporale Ausdrücke in historischen Texten

In Texten beschreiben temporale Ausdrücken verschiedene Phänomene, z. B. einen Zeitpunkt oder eine Zeitspanne. Ein Datum kann explizit mit 25. Dezember 2015 oder implizit als Weihnachten 2015 genannt werden. Ebenso kommen relative Begriffe wie «im nächsten Jahr» oder «heute» oder gar freie Formulierungen wie «nach der Verlobung von Prinz Harry» vor. Für das Tagging solcher Ausdrücke wurde 2009 der TEI-kompatible Standard TimeML eingeführt. Er teilt temporale Ausdrücke in folgende vier Kategorien: DATE für Datierungen nach dem heutigen Kalender (z. B. […]

Annemarie Schwarzenbach

histHub setzt sich seit Oktober mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach auseinander. In einer Blogserie zeigen wir, wie die tabellenförmigen Daten in OpenRefine verbessert und angereichert werden können. Aus Anlass des 75. Todestags von Annemarie Schwarzenbach hat das Schweizerische Literaturarchiv nun über 3000 Fotografien auf Wikimedia Commons zur Verfügung gestellt. Für histHub bietet dies Gelegenheit, den Blick über die Metadaten zu den Fotografien hinaus auf das Schaffen von Annemarie Schwarzenbach und ihre jetzt offen verfügbaren Bilder zu erweitern. […]

Bericht: Workshop on the creation of an international Data for History consortium


Vom 23. bis 24. November 2017 fand an der École normale supérieure in Lyon ein Workshop zur Gründung des internationalen Konsortiums Data for History statt, der vom Pôle histoire numérique des Laboratoire de recherche historique Rhône-Alpes organisiert wurde. Am Workshop nahmen rund 40 Expertinnen und Experten aus den Niederlanden, Frankreich, Griechenland, Italien, Deutschland, Luxemburg, Österreich und der Schweiz teil. Nach der herzlichen Begrüssung durch den Gastgeber Bernard Hours (Université Jean-Moulin Lyon 3, Direktor des Laboratoire de recherche historique Rhône-Alpes) führte […]

Cluster

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Dieser Beitrag beschäftigt sich mit Clustern als Methode zum Reinigen von Daten und mit den verschiedenen Methoden, die OpenRefine dafür bietet. Die Beispiele und Screenshots in diesem Beitrag stammen wieder aus dem Projekt mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach. Die Arbeitsschritte können mit einem anderen Datensatz (oder über andere Spalten dieses Datensatzes) nachvollzogen werden. Cluster sind Vorschläge des Computers, welche Einträge in […]

Bearbeiten von Spalten und Zellen

HistHub befasst sich in einer Blogserie mit der Aufbereitung und Anreicherung von Daten in Openrefine. Dieser Beitrag zeigt häufig angewandte Transformationen. Als Grundlage dienen weiterhin die Metadaten zu den Fotografien von Annemarie Schwarzenbach, die im Beitrag über das Erstellen eines OpenRefine Projekts vorgestellt wurden. Häufige Transformationen Die Spalte «Titel_Name» enthält Informationen über die Fotografie, die meist aus einem Land, einem Ortsnamen und einer genaueren Bezeichnung bestehen. Diese wollen wir extrahieren. Es gibt in der Tabelle zwar eine Spalte «Ort», mit […]

histHub-Ontologie

In histHub entstehen Normdaten zu den Hauptentitäten Personen, Orte, Organisationen und Konzepte sowie Thesauri zu verschiedenen Unterentitäten wie z. B. Vornamen (histHub-fornames), Orts- und Organisationstypen, Berufen etc. Thesauri sind standardisierte Vokabulare, die sowohl hierarchisch als auch in beliebigen Relationen strukturiert sind und das in einem Themengebiet gebrauchte Vokabular beschreiben und normieren. histHub modelliert die Normdaten mit Hilfe einer Ontologie. Die histHub-Ontologie strukturiert Daten anhand eines eindeutig definierten und dokumentierten Datenmodells und bildet den historischen Diskurs über die Wirklichkeit in Daten ab. […]

Facetten und Filter

In einer Blogserie befasst sich histHub mit der Aufbereitung und Anreicherung von Daten in OpenRefine. Alle Beiträge der Serie werden in einer Übersicht gesammelt. Im letzten Beitrag haben wir ein Projekt mit den Metadaten zu den Fotografien von Annemarie Schwarzenbach erstellt, heute befassen wir uns mit Facetten und Filtern. Die Erklärungen beziehen sich auf die Metadaten der Fotografien von Annemarie Schwarzenbach, können aber natürlich auch mit einem anderen Datansatz nachvollzogen werden. Filter und Facetten werden jeweils für eine Tabellenpalte über […]