Ähnlichkeitsmetriken für Worte und Texte
Alljährlich im Sommerloch melden sich die Plagiatsjäger mit einem neuen prominenten Opfer. Ähnlichkeiten von Worten und Texten spielen aber auch bei Spam-Emails, doppelten Bug-Tickets oder bereits gelesenen Nachrichten eine Rolle.
Im Vortrag führen wir zunächst unterschiedliche Vektor-Darstellungen für Worte und Textdokumente ein. Anschließend betrachten wir genau den Ähnlichkeitsbegriff. Ein entscheidender Unterschied ist dabei die syntaktische und semantische Ähnlichkeit, die wir anhand von TF/IDF, n-Grammen und Embeddings (word2vec, fastText, ELMo, BERT) erläutern.
In einem Praxisbeispiel zeigen wir, wie sich die Techniken anwenden lassen und teilweise überraschende (aber interpretierbare) Resultate liefern.
Vorkenntnisse
Besucher sollten sich grundsätzlich mit Methoden des maschinellen Lernens beschäftigt haben. Eine Vertrautheit mit automatisierter Textanalyse ist hilfreich, aber nicht unbedingt notwendig. Unsere Programmbeispiele sind in Python; ein Verständnis der Programmiersprache hilft, den Beispielen detailliert zu folgen, ist für ein methodisches Verständnis aber nicht nötig.
Lernziele
Nach dem Vortrag haben Teilnehmer ein gutes Verständnis über unterschiedliche Vektorisierungsmöglichkeiten für Texte. Um Ähnlichkeitsmetriken in hochdimensionalen Räumen erklären zu können, wird kurz der Begriff der Metrik eingeführt. Teilnehmer können die unterschiedliche Bedeutung von syntaktischen, semantischen und paradigmatischen genau verstehen und in eigenen Projekten anwenden.