Datenbereinigungen

Die Bereinigung und Aufbereitung der Dokumente sind in der Arbeit Datenarchäologie detailliert beschrieben. Die Bereinigung betraf nicht die Dokumente, die im Rahmen des Synopsis-Projektes eingescannt worden waren (TIFF-Files).

Bei der Bereinigung wurden im Wesentlichen Dubletten entfernt, die sich aus der besonderen Ablagestruktur der Synopsis-Datenbank ergeben hatten. Ebenso wurden so genannte «Vorversionen» entfernt, zum Teil via einen Prüfalgorithmus, z.T. auch via Beurteilung der Entstehungsgeschichte eines Dokumentes (Zeit/Tag). Dokumente wurden oft von verschiedenen Personen ergänzt bzw. korrigiert. Diese Interventionen wurden anstellte der File-Extension in einem Kürzel aus drei Buchstaben bzw. einer Kombination von Zahlen und Buchstaben festgehalten, z.B. bedeutete die Endung «.B03», dass Andrea Bugari die dritte Version erstellt hatte. Da es in der Datenbank Geschichte KKL 1991-2000 nicht um die Editionsgeschichte von Texten geht, wurde versucht, nur abschliessende Versionen von Dokumenten aufzunehmen. Zusätzlich wurden rein administrative Dokumente wie Adresslisten, Terminpläne, Stundenblätter, Faxformulare, Spesenabrechnungen etc. als irrelevant ausgeschieden. Diese Relevanz-bezogene Selektion geschah auf zwei Wegen:

  • Alle Dokumente aus Ordnerpfaden mit Ordnern überwiegend oder gänzlich administrativen Inhalts (z.B. ADMIN, INTERN, ADRESSEN etc.) wurden ohne weitere Überprüfung weggelassen (siehe Liste der weggelassenen Ordner)
  • Die restlichen Dokumente aus den Ordnern der Projektorganisation wurden von einem Team aus Veteranen des KKL-Projektes auf inhaltliche Relevanz überprüft (siehe Kriterienkatalog).