Moderne Methoden der automatisierten Textanalyse

Neben vielen Bildern und Videos finden sich im Internet besonders viele Textinformationen. Deren Interpretation durch Computer ist traditionell schwierig. Im Bereich Machine Learning, Natural Language Processing und semantische Interpretation durch Embeddings hat es in den letzten Jahren allerdings sehr viele Fortschritte gegeben.

Ausgehend von einem öffentlich verfügbaren Standard-Daten-Set geben wir einen Überblick über traditionelle Verfahren der Textanalyse. Anschließend zeigen wir die Unterschiede zu den Embedding-Methoden word2vec, GloVe und ELMo mit ihren spezifischen Stärken und Schwächen. Diese bewerten wir hinsichtlich Einsatzzweck, Rechenzeitanforderungen und Ergebnisqualität.

Für alle Programmbeispiele verwenden wir Python und Open-Source-Software.

Vorkenntnisse

Besucher sollten sich grundsätzlich mit Methoden des maschinellen Lernens beschäftigt haben. Eine Vertrautheit mit automatisierter Textanalyse ist hilfreich, aber nicht unbedingt notwendig. Unsere Programmbeispiele sind in Python; ein Verständnis der Programmiersprache hilft, den Beispielen detailliert zu folgen, ist für ein methodisches Verständnis aber nicht nötig.

Lernziele

* Besucher verstehen, wie man komplexe und umfangreiche Texte mit modernen Methoden analysieren und interpretieren kann.
* Insbesondere können Teilnehmer die unterschiedlichen Embedding-Verfahren bewerten und eine auf ihre Bedürfnisse abgestimmte Methode auswählen.
* Teilnehmer können die vorgestellten Methoden in unterschiedlichen Bereichen anwenden, z.B. in der Marktforschung, der Requirements-Analyse oder bei der Strukturierung eines Dokumentenarchivs.

 

Speaker

 

Christian Winkler Christian Winkler ist ein Gründer der datanizing GmbH und promovierte an der FAU Erlangen Nürnberg. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligenten Algorithmen zur Massendatenverarbeitung im Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Als Data Scientist und Solution Architect begleitet Dr. Winkler Projekte in den Bereichen Text Mining, Netzwerkanalyse, Forum Analytics und Sentiment Analyse. Er ist Speaker auf Konferenzen und Autor von Artikeln zu Big Data/KI.

Jens Albrecht Jens Albrecht ist als Professor an der Fakultät Informatik der Technischen Hochschule Nürnberg für das Lehrgebiet Datenbanken und Big Data verantwortlich. Darüber hinaus ist er als selbständiger Berater und Trainer tätig. Seit über 20 Jahren beschäftigt er sich mit der Aufbereitung und Analyse von Daten, die meiste Zeit davon in der Industrie. Seine Interessensgebiete umfassen Big-Data-Technologien und maschinelles Lernen, insbesondere im Kontext Natural Language Processing. Er ist Organisator des Big Data Meetup Nürnberg und Co-Organisator des TDWI Roundtable Nürnberg.

Gold-Sponsor

Novatec

Silber-Sponsoren

ETECTURE
inovex
inovex
Phytec

Bronze-Sponsoren

M3-Newsletter

Sie möchten über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden