Von Daten zu Probabilistic Models – ein Unsupervised-Learning-Ansatz
Die realen Anwendungesfälle für Maschinelles Lernen werden weitgehend von der Art und Qualität der Datensätze bestimmt. In diesem Vortrag wird ein Überblick über einen beispielhaften Workflow gegeben – von der Rohdatenquelle bis zum endgültigen Modell durch ein Step-by-step-Assessment der einzelnen Schritte.
Bevor man ML-Algorithmen auswählen und in der Praxis anwenden kann, muss man sich mit den Eigenschaften der Daten befassen. Eine Möglichkeit, Einblicke in den Datensatz zu gewinnen und nützliche Parameter zu extrahieren, sind "Unsupervised Machine Learning"-Methoden.
Wir gehen durch ein beispielhaftes Feature Assessment, das an einem realen Datensatz durchgeführt wurde. Wir bewerten kritische Parameter, und deren Extraktion sowie ihre Einflüsse in mehrdimensionalen Datensätzen. Dazu wird ein Überblick über PCA, t-SNE, k-Means Clustering, Gaussian Mixture Modeling und deren Anwendung in realen Szenarien gegeben. Es wird eine Verbindung zur Komplexität von Modellen und deren Parameterinteraktionen hergestellt im Hinblick auf die Trainingszeit, die Modellqualität und die endgültige Modell-Performance.
Vorkenntnisse
* Grundlagen in Python und/oder R
* Grundlegendes Verständnis statistischer Zusammenhänge ist von Vorteil.
Lernziele
* Einblick in den Prozess zur Entwicklung eines Models,
* Erkenntnisse zur Parameter Evaluation von großen Datensätzen
* Praktischer Einsatz von Unsupervised Machine Learning Models
* Vorzuege von Probabilistic Models und deren Explainability