Moderne Methoden der automatisierten Textanalyse
Neben vielen Bildern und Videos finden sich im Internet besonders viele Textinformationen. Deren Interpretation durch Computer ist traditionell schwierig. Im Bereich Machine Learning, Natural Language Processing und semantische Interpretation durch Embeddings hat es in den letzten Jahren allerdings sehr viele Fortschritte gegeben.
Ausgehend von einem öffentlich verfügbaren Standard-Daten-Set geben wir einen Überblick über traditionelle Verfahren der Textanalyse. Anschließend zeigen wir die Unterschiede zu den Embedding-Methoden word2vec, GloVe und ELMo mit ihren spezifischen Stärken und Schwächen. Diese bewerten wir hinsichtlich Einsatzzweck, Rechenzeitanforderungen und Ergebnisqualität.
Für alle Programmbeispiele verwenden wir Python und Open-Source-Software.
Vorkenntnisse
Besucher sollten sich grundsätzlich mit Methoden des maschinellen Lernens beschäftigt haben. Eine Vertrautheit mit automatisierter Textanalyse ist hilfreich, aber nicht unbedingt notwendig. Unsere Programmbeispiele sind in Python; ein Verständnis der Programmiersprache hilft, den Beispielen detailliert zu folgen, ist für ein methodisches Verständnis aber nicht nötig.
Lernziele
* Besucher verstehen, wie man komplexe und umfangreiche Texte mit modernen Methoden analysieren und interpretieren kann.
* Insbesondere können Teilnehmer die unterschiedlichen Embedding-Verfahren bewerten und eine auf ihre Bedürfnisse abgestimmte Methode auswählen.
* Teilnehmer können die vorgestellten Methoden in unterschiedlichen Bereichen anwenden, z.B. in der Marktforschung, der Requirements-Analyse oder bei der Strukturierung eines Dokumentenarchivs.