Projekt 7: Effiziente Anfragen für explorative Datenanalyse – Digitalisierung der Lebenswissenschaften

Involvierte Personen: S. Böcker, J. Giesen

Insbesondere „tiefe“ Lernverfahren mit ihren zahlreichen Freiheitsgraden neigen zum Overfitting, bei dem der resultierende Klassifikator lediglich „auswendig lernt“, aber nicht zum Generalisieren fähig ist. Dies kann auch dann geschehen, wenn scheinbar genügend Trainingsdaten zur Verfügung stehen, aber diese signifikant von der impliziten Annahme einer Gleichverteilung abweichen.

Ein wichtiger Unterschied zwischen überwachten und unüberwachten Lernverfahren ist, dass bei überwachten Lernverfahren die Inferenzanfrage schon zur Trainingszeit bekannt ist. Die Beantwortung von Inferenzanfragen ist deshalb bei überwachten Lernverfahren oft sehr viel effizienter möglich als bei unüberwachten Lernverfahren. Eine wichtige Klasse von unüberwachten Lernverfahren lernt in der Trainingsphase eine multivariate Wahrscheinlichkeitsverteilung aus Daten. In der Inferenzphase sollen dann Anfragen an diese Wahrscheinlichkeitsverteilung beantwortet werden. Solche Anfragen basieren unter anderem auf den Operationen Konditionieren und Marginalisieren, die deshalb effizient unterstützt werden müssen.

Multivariate Wahrscheinlichkeitsverteilungen, die aus Daten gelernt werden, unterstützen eine explorative Datenanalyse insbesondere in der frühen Phase, in der noch nicht klar ist, welche Fragen mithilfe der Daten beantwortet werden sollen oder können. Zu diesem Zweck haben wir ein interaktives graphisches Interface entwickelt, dass es erlaubt multivariate Daten zusammen mit einem abgeleiteten Modell (z.B. eine conditional Gaussians Verteilung oder ein sum-produkt-network) zu explorieren. Das abgeleitete Modell, eine Wahrscheinlichkeitsverteilung, erlaubt insbesondere auch die Beantwortung von Anfragen prädiktiver Natur. Die prädiktive Qualität, wenn auch schlechter als die Qualität der Antwort aus einem überwachten Modell, das für jede Frage trainiert werden müsste, ist oft erstaunlich gut. Leider ist die Antwortzeit oft nicht interaktiv, wenn viele diskrete Dimensionen marginalisiert werden müssen.

Es soll eine Datenstruktur für multivariate Wahrscheinlichkeitsverteilungen von gemischtem Typ entwickelt werden, die die Anfrageoperationen Konditionieren und Marginalisieren beschleunigt. Die resultierenden Methoden sollen insbesondere zur explorativen Analyse der Trainingsdaten verwendet werden, bevor in den übrigen Projekten überwachtes maschinelles Lernen zum Einsatz kommt.

Projekte » Projekt 7: Effiziente Anfragen für explorative Datenanalyse