Das Beste aus beiden Welten: Die Verbindung manueller und automatisierter Kodierung
Die manuelle Kodierung großer Textkorpora ist eine wichtige, aber sehr arbeitsintensive und zeitaufwändige Säule politikwissenschaftlicher Forschung. Die zunehmende und ständige Verbesserung automatischer Klassifikationsmodelle stellt daher eine perfekte Möglichkeit dar, diese Hürden zu senken, indem sie es Forscher:innen ermöglicht, große Kodierungsarbeiten in einem Bruchteil der normalerweise erforderlichen Zeit und des Arbeitsaufwands durchzuführen. Die Reliabilität, Konsistenz und Qualität der automatisierten Kodierung bleibt jedoch ein Problem. Kann der Computer wirklich den Menschen ersetzen und wie vergleichbar werden die Ergebnisse sein? Diese Frage ist besonders wichtig für Langzeitprojekte wie das Manifesto-Projekt, die nicht nur zu einem bestimmten Zeitpunkt, sondern über einen längeren Zeitraum hinweg reliable Ergebnisse gewährleisten müssen.
In diesem Projekt untersuchen und diskutieren wir den gesamten Integrationsprozess eines automatischen Textklassifikationsmodells in das feinstufige Kodierungsverfahren des Manifesto-Projekts. Wir vergleichen 1.) die Leistung einer Reihe verschiedener Textklassifikationsmethoden für das Manifesto-Klassifikationsschema, einschließlich von traditionellen Bag-of-Words-Modellen, Word-Embedding-Feature-Ansätzen und Transformer-basierten Modellen. Als Ergebnis des Vergleichs stellen wir 2.) einen neuen State-of-the-Art-Modellansatz für die Klassifikation von Manifestos auf: ein shared layer XML-RoBERTa-Modell, das den Kontext des zu klassifizierenden Satzes nutzt. In Anbetracht der Stärken und verbleibenden Defizite des Modells diskutieren wir 3.) die potenziellen Vorzüge und Grenzen automatisierter Kodierungsansätze für menschliche Kodieraufgaben. Drei Anwendungsbereiche werden hierbei besonders berücksichtigt: verschiedene Formen der Qualitätskontrolle, (semi-)automatische Beschriftung ganzer Manifestos und Code-Vorschläge sowie Vorauswahlen für Coder:innen. Darüber hinaus nutzen wir 4.) dieses Wissen, um Möglichkeiten für die Anwendung automatisierter Klassifikationsmodelle über verschiedene Textsorten und -gebiete hinweg (z. B. Wahlprogramme, Parlamentsreden, Pressemitteilungen, Tweets) zu erforschen und zu testen, wie das Manifesto-Kodierschema möglicherweise auf neue, bisher nicht abgedeckte Daten ausgeweitet werden kann.