Machine Learning mit domänenspezifischer Ontologie für die IT-Sicherheitsbranche
Das BSI beobachtet und beurteilt die aktuelle IT-Sicherheitslage und deren langfristige Veränderung. Dazu gehören unter anderem Hackergruppen oder neu entdeckte Sicherheitslücken. Zu diesem Zweck werden diverse Nachrichtenquellen beobachtet und wichtige Informationen extrahiert, um aktuelle Trends zu erkennen und einen Überblick zu gewinnen.
Zur Optimierung dieses Prozesses entwickeln wir gemeinsam mit dem BSI ein System, das die Arbeit unterstützt, indem Dokumente einer automatischen Analyse mit Verfahren wie Named Entity Recognition (NER) und Named Entity Linking (NEL) unterzogen werden. Während NER die Zuordnung von Textstellen zu vorgegebenen Klassen durch Machine Learning bezeichnet (z.B. "Browser" zu Software), wird beim NEL eine Zuordnung zu konkreten Entitäten einer Ontologie angestrebt (z.B. "DOS" zu "Disk Operating System").
Wir erklären, wie wir mit der besonderen Herausforderung begrifflicher Ambiguitäten umgehen ("DOS" steht nicht nur für "Disk Operating System" sondern auch für "Denial of Service"). Der Vortrag gibt einen Einblick in unser Entitäten-Erkennungs-System und wie wir mit der Verbindung von Ontologie und ML ein leistungsfähiges Werkzeug zur Analyse von IT-Sicherheitsdokumenten erstellen.
Vorkenntnisse
Vorkenntnisse im Bereich ML, NLP sind wünschenswert, aber keine Voraussetzung.
Lernziele
- Einblick in den Aufbau und die kontinuierliche Verbesserung eines Entitäten-Erkennungs-Systems unter Verwendung einer eigens entwickelten Ontologie und eines angepassten Sprachmodells
- Verbindung von Ontologie und Maschinellem Lernen zu einem leistungsfähigen Werkzeug zur Analyse von IT-Sicherheitsdokumenten