-Zurück-

Semantische Indexierung von Nachrichtendaten

Information Retrieval Methoden, die auf dem Vektorraummodell basieren, weisen einige Schwächen auf und liefern oft nur unbefriegende Resultate. LSI ist eine Variante des Vektorraum-Retrievals, welche auf der Annahme basiert, dass Dokumente eine verborgene semantische Struktur besitzen. Diese Struktur wird durch statistische Verfahren aufgebaut, und kann dann mittels den klassischen IR Ansätzen (wie Ähnlichkeitsmaße) durchgesucht werden. Im Rahmen dieser Bachelorarbeit sollen das Retrieval in Nachrichtendaten mit einer Komponete zur semantischen Indexierung erweitert werden. Die zu verwendeten Publikationsdaten sind in einer relationalen Datenbank gespeichert. Im ersten Schritt müssen bereits vorhandene Merkmalsextraktionsmethoden (Stopwörter entfernen, Stemming) auf die vorliegenden Daten angewendet und geeignete Datenstrukturen für zu implementierenden Methoden zur Semantischen Indexierung. Anschließend sollen entsprechende Suchfunktionen auf dem Datensatz implementiert und die Retrieval-Qualität evaluiert werden. Die Arbeit setzt die Einarbeitung in Ansätze wie Co-Occurrence Theory, Singular Value Decomposition (SVD) und Latent Semantic Indexing (LSI) voraus.

Ansprechpartner:

Bereich: Multimedia/Bild-Datenbanken, Knowledge Discovery, Data Mining, Information Retrieval

Heinrich Heine Universität

Datenbanken und Informationssysteme

Lehrstuhlinhaber

Prof. Dr. Stefan Conrad


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.24
Tel.: +49 211 81-14088

Sekretariat

Lisa Lorenz



Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.22
Tel.: +49 211 81-11312
Verantwortlich für den Inhalt:  E-Mail senden Datenbanken & Informationssysteme