Importer

Tool zum Importieren von Entitäten in die histHub-Normdatenbank und zur nachträglichen Datensynchronisation.

Beim Importieren von Normdaten muss zwischen zwei Workflows unterschieden werden: Dem ersten oder ursprünglichen Import (Initialimport) und den späteren Importen (Datensynchronisation), bei denen auch Modifikationen oder Löschungen von früher importierten Entitäten möglich sind. Im Folgenden wird der Initialimport beschrieben, weil für die Datensynchronisation prinzipiell auch dessen Mechanismus verwendet werden kann. Abhängig von Datenart und -menge sind jedoch individuelle, mit dem Provider abzusprechende Mechanismen vorzuziehen. 

Der Initialimport von Normdaten besteht vereinfacht aus drei Schritten: 

  • Load: Die Daten des Providers werden mit Unterstützung von histHub in die histHub-Ontologie (Link) transformiert. Der Input des Loaders sind sog. TSV-Dateien (TSV: tab-separated values) – tabellarische Textdateien à la Excel – und eine Konfigurationsdatei, die das Mapping zwischen Providerdaten und histHub-Ontologie spezifiziert.  
  • Link: Beim Linking werden Konkordanzen zwischen den zu importierenden Daten und den in der histHub-Datenbank vorhandenen Normdaten gesucht. Es wird überprüft, ob eine zu importierende Entität wie beispielsweise eine Person schon in der histHub-Datenbank existiert. Falls die Entscheidung nicht automatisch (mit Methoden des maschinellen Lernens) getroffen werden kann, muss der Provider mit Unterstützung von histHub manuell bestimmen, ob eine Konkordanz besteht. Falls die Verlinkung bereits via Metagrid etc. erfolgt ist, werden die Links in diesem Schritt überprüft. 
  • Write: Die neuen Entitäten erhalten eine histHub-ID (einen unveränderlichen Identifikator). Die bereits vorhandenen Entitäten werden mit den importierten Daten angereichert. Es kann sich dabei etwa um zusätzliche Wirkungsorte bei einer Person handeln. 

Die drei Schritte sind in der unten stehenden Grafik skizziert: