Ähnlichkeitsmetriken für Worte und Texte

Alljährlich im Sommerloch melden sich die Plagiatsjäger mit einem neuen prominenten Opfer. Ähnlichkeiten von Worten und Texten spielen aber auch bei Spam-Emails, doppelten Bug-Tickets oder bereits gelesenen Nachrichten eine Rolle.

Im Vortrag führen wir zunächst unterschiedliche Vektor-Darstellungen für Worte und Textdokumente ein. Anschließend betrachten wir genau den Ähnlichkeitsbegriff. Ein entscheidender Unterschied ist dabei die syntaktische und semantische Ähnlichkeit, die wir anhand von TF/IDF, n-Grammen und Embeddings (word2vec, fastText, ELMo, BERT) erläutern.

In einem Praxisbeispiel zeigen wir, wie sich die Techniken anwenden lassen und teilweise überraschende (aber interpretierbare) Resultate liefern.

Vorkenntnisse

Besucher sollten sich grundsätzlich mit Methoden des maschinellen Lernens beschäftigt haben. Eine Vertrautheit mit automatisierter Textanalyse ist hilfreich, aber nicht unbedingt notwendig. Unsere Programmbeispiele sind in Python; ein Verständnis der Programmiersprache hilft, den Beispielen detailliert zu folgen, ist für ein methodisches Verständnis aber nicht nötig.

Lernziele

Nach dem Vortrag haben Teilnehmer ein gutes Verständnis über unterschiedliche Vektorisierungsmöglichkeiten für Texte. Um Ähnlichkeitsmetriken in hochdimensionalen Räumen erklären zu können, wird kurz der Begriff der Metrik eingeführt. Teilnehmer können die unterschiedliche Bedeutung von syntaktischen, semantischen und paradigmatischen genau verstehen und in eigenen Projekten anwenden.

 

Speaker

 

Christian Winkler
Christian Winkler ist ein Gründer der datanizing GmbH und promovierte an der FAU Erlangen Nürnberg. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Als Data Scientist und Solution Architect begleitet Dr. Winkler Projekte in den Bereichen Text Mining, Netzwerkanalyse, Forum Analytics und Sentiment Analyse. Er ist Speaker auf Konferenzen und Autor von Artikeln zu Big Data/KI.

Gold-Sponsor

Novatec

Silber-Sponsor

inovex

M3-Newsletter

Sie möchten über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden