Im Himmel des maschinellen Lernens sind alle Datenpunkte vollständig. Leider sieht die Realität anders aus. Eine Möglichkeit damit umzugehen besteht darin, unvollständige Datenpunkte zu ignorieren ... und dabei wertvolle Information zu verlieren.
Alternativ kann man die fehlenden Merkmale ersetzen. Viele der dafür entwickelten Methoden stammen aus den Sozialwissenschaften, in denen man mühsam erhobene Datenpunkte in seine Analyse mit einfließen lassen möchte. In Zeiten von Big Data geht es weniger darum, einzelne Datenpunkte einzubeziehen, sondern vielmehr ganze Datenepochen mit fehlenden Merkmalen fürs Trainieren nutzbar zu machen.
Im Vortrag stellen wir eine Auswertung verschiedener Methoden auf unseren Daten vor.
Vorkenntnisse
Algemeines Verständnis von Machine-Learning-Methoden
Lernziele
Erkennen, welche Probleme entstehen, wenn Datenpunkte unvollständig sind und wie man diesem Problem entgegenwirken kann.
//
Stanimir Dragiev
@ssdpd
entwickelt als Teil von Zalando Payments das Machine-Learning-basierte Betrugserkennungssystem mit. Er schloss sein Informatikstudium an der TU Berlin mit einer Diplomarbeit über Resource Management in verteilten Systemen 2009 ab und promovierte 2014 im Machine Learning and Robotics Lab der Universität Stuttgart über Gegenstandsrepräsentationen zum Greifen mit Unsicherheiten.
// Sascha Effenberger
ist als Data-Scientist bei Zalando Payments tätig. Zu seinen Aufgaben gehören die Entwicklung von Machine-Learning-Modellen zur Betrugserkennung. Vor seiner Zeit bei Zalando Payments arbeitete er bei Zalando Operations, wo er sich mit Problemstellungen aus dem Operations Research Bereich beschäftigte.