Die halleschen Zeitungen und Zeitschriften 1688-1815
Topic-Modeling bieten eine Möglichkeit, große Dokumentensammlungen zu durchsuchen, zu strukturieren und zu selektieren. Die Darstellung von Themen als Liste der wahrscheinlichsten Top-Wörter ist jedoch nicht ausreichend, um ein nützliches Werkzeug in den Geisteswissenschaften zu etablieren. Der in Halle entwickelte TopicExplorer kombiniert Themenmodelle mit standardmäßigen linguistischen Annotationswerkzeugen und visuellen interaktiven Techniken, um Inhalte von Dokumenten auf nützliche Weise auszuwählen und darzustellen, um es Geisteswissenschaftlern zu ermöglichen, versteckte Bezüge zwischen Texten aufzudecken und ohne Programmierkenntnisse zu modellieren.
Da die Themenmodelle durch unüberwachtes Lernen erstellt werden, können sie angewendet werden, ohne dass Dokumente manuell kommentiert werden müssen. Allerdings können alle bekannten Algorithmen keine Garantie dafür geben, dass die abgeleiteten Themen für den Menschen auch interpretierbar sind. Daher sind Themen, die automatisch aus Themenmodellen abgeleitet werden, nicht immer einfach und klar ‚lesbar‘. Im Beitrag sollen die Vor- und Nachteile des Topic-Modeling, zunächst anhand einer lokal ausgerichteten Modelstudie für eine Anwendung auf heterogene historische Texte dargestellt werden.