Page Areas:



Current Submenu:

Additional Information:

FAW @ Lange Nacht der Forschung 2016

Lange Nacht der Forschung 2016

Campus map

Campusplan JKU Linz

Our location on campus ...  more of Campus map (Titel)

Softwarepark Hagenberg

Hier den Alternativtext zum Bild eingeben!

Our location on Softwarepark Hagenberg ...  more of Softwarepark Hagenberg (Titel)


Position Indication:

Content

Weakly supervised Learning in Imbalanced Data Classification PART 2

Supervisor(s): A.Univ.-Prof. DI Dr. Birgit Pröll , Dipl.-Ing. Dr. Christina Feilmayr (karenziert)
Student: Severin Linecker
End: 2012

Abstract(DE)
Die größten Probleme bei der Verwendung der teilweise automatisierten Informationsextraktion sind die Menge und die Qualität der verfügbaren Trainingsdaten. Die Wahl der Trainingsdaten ist jedoch ausschlaggebend, um eine qualitative Informationsextraktion zu erreichen, denn ein schlecht oder falsch gewähltes Trainingsset beeinflusst maßgeblich die Ergebnisse.

(1) Qualität der Trainingsdaten Nicht balancierte Datensätze, darunter versteht man eine Unausgeglichenheit der positiven und negativen Trainingsbeispiele, bedeutet, dass zu wenig positive Trainingsdaten vorhanden sind. Im Beispielszenario der Lebensläufe findet man in jedem Trainingsdokument nur einen Personenname (im gesamten Korpus 210), im Verhältnis dazu stehen tausende andere Token (im gesamten Korpus ~77.600), die beim Erlernen eines Modells für einen Klassifizierer als negative Beispiele zur Verfügung stehen. Die Folge einer solchen Unausgeglichenheit sind zu viele nicht erkannte, jedoch korrekte Entities (false negatives), was wiederum zu einem sehr niedrigen Recall – bei einer sehr hohen Precision – führt.

(2) Repräsentative Trainingsdatenmenge Zu wenig Trainingsdaten sind einerseits nicht repräsentativ, um ein generelles Modell zu erstellen, andererseits führen die wenig positiven Trainingsdaten leicht zu einer Überanpassung (overfitting). Das zeigt sich vor allem wenn der Fehler im Trainingsset sinkt, aber der Fehler in Verwendung eines Testsets wieder massiv zu steigen beginnt, weil eben das Modell zu sehr an die vorhandenen Beispiele angepasst wurde.


Zieldefinition Das Ziel der beiden Masterarbeiten ist es, neue Konzepte zu entwickeln, die die wenigen vorhandenen, jedoch qualitativen Trainingsdaten als Intial-Trainingsset zum Lernen eines Klassifizieres verwenden und dabei gleichzeitig die Menge an positiven Beispielen erhöhen bzw. die negativen Beispiele deutlich reduzieren.