Page Areas:



Current Submenu:


Position Indication:

Content

Klassifizierung und Informations Extraktion aus touristischen Webseiten unter Anwendung einer Support Vector Machine und regelbasierter Methoden

Supervisor(s): A.Univ.-Prof. DI Dr. Birgit Pröll , Dipl.-Ing. Dr. Jürgen Palkoska
Student: Stefan Parzer
End: 2008

Abstract(DE)
In dieser Masterarbeit wird das Projekt TourIE (Touristische Informationsextraktion) vorgestellt. In diesem Projekt sollen, ausgehend von unstrukturierten Dokumenten (im vorliegenden Fall aus Webseiten), bestimmte Daten (zum Beispiel Name, Adresse, Bilder oder Preise einer Unterkunft) mit Hilfe von Methoden aus dem Bereich der "Information Extraction" gewonnen, also extrahiert werden. Die Webseiten einer Unterkunft werden durch einen Crawler gesammelt und nach der Sprache gefiltert. Zusätzlich wird eine Support Vector Machine (SVM) verwendet, um die Seiten in vorgegebene Klassen einzuordnen. Dies wird am Beispiel von Seiten mit Preisinformationen gezeigt. Die gesuchten Daten werden mit Hilfe einer Wissensbasis (Ontologie) und einem Regelwerk durch das Werkzeug GATE in den Webseiten annotiert und extrahiert. Anschließend erfolgt eine Gewichtung der Daten und die strukturierte Ausgabe nach einem für TourIE entwickeltem XML-Schema. Zur Visualisierung der Ergebnisse wurde eine Benutzeroberfläche erstellt, in der auch die Steuerung von TourIE vorgenommen werden kann.

Abstract(EN)
In this master thesis the project TourIE (Touristic Information Extraktion) is introduced. Based on unstructured documents (in this case web pages) the aim of this project is the extraction of certain data (e.g. name, address, pictures or prices of an accomodation) applying methods of the field of "Information Extraction". The web pages describing an accomodation are collected by a crawler and filtered according to the language. Additionally a Support Vector Machine (SVM) is used to classify the web pages. The classification is shown on the example of pages containing price informations. The collected data is annotated by a knowledge base (ontology) and a body of rules and regulations and extracted by the tool GATE. Afterwards the data gets assigned a weight and gets transferred to a structured output according to a TourIE specific XML-Schema. The visualization of the results is managed by a user interface, which can also be used to control TourIE. The main focus of this master thesis is on the classification of the web pages and on the body of rules and regulations written in JAPE. These rules contain most of the knowledge to extract the data.