Semantische Indexierung von Nachrichtendaten
Information Retrieval Methoden, die auf dem Vektorraummodell basieren, weisen einige Schwächen auf und liefern oft nur unbefriegende Resultate. LSI ist eine Variante des Vektorraum-Retrievals, welche auf der Annahme basiert, dass Dokumente eine verborgene semantische Struktur besitzen. Diese Struktur wird durch statistische Verfahren aufgebaut, und kann dann mittels den klassischen IR Ansätzen (wie Ähnlichkeitsmaße) durchgesucht werden. Im Rahmen dieser Bachelorarbeit sollen das Retrieval in Nachrichtendaten mit einer Komponete zur semantischen Indexierung erweitert werden. Die zu verwendeten Publikationsdaten sind in einer relationalen Datenbank gespeichert. Im ersten Schritt müssen bereits vorhandene Merkmalsextraktionsmethoden (Stopwörter entfernen, Stemming) auf die vorliegenden Daten angewendet und geeignete Datenstrukturen für zu implementierenden Methoden zur Semantischen Indexierung. Anschließend sollen entsprechende Suchfunktionen auf dem Datensatz implementiert und die Retrieval-Qualität evaluiert werden. Die Arbeit setzt die Einarbeitung in Ansätze wie Co-Occurrence Theory, Singular Value Decomposition (SVD) und Latent Semantic Indexing (LSI) voraus.
Ansprechpartner: echo $arbeit[3]." ".$arbeit[4]?>
Bereich: Multimedia/Bild-Datenbanken, Knowledge Discovery, Data Mining, Information Retrieval