-Zurück-

Entwicklung eines Systems zur Stilanalyse wissenschaftlicher Veröffentlichungen

Im Rahmen dieser Bachelorarbeit soll ein neues System zur Analyse sprachlicher Mittel aus englischsprachigen Texten erstellt werden, das den Autor auf sprachliche Mängel hinweisen kann. Als Eingabe erhält das System einen Text in Form eines wissenschaftlichen Papers. Anschließend erfolgt die Verwendung einer Natural Language Processing Pipeline (bestehend aus Tokenizer, Sentence Splitter, POS-Tagger, Lemmatizer), die den Eingabetext für eine Analyse vorbereitet. Dafür können fertige NLP-Pipelines, wie OpenNLP oder StanfordCoreNLP, verwendet werden. Danach werden verschiedene sprachliche Eigenschaften untersucht, wie z.B.:

Dabei soll auf eine erweiterbare Systemarchitektur geachtet werden. Als Ausgabeformat kann HTML oder LaTeX verwendet werden, wobei die entsprechenden Fundstellen farblich markiert und die Analyseergebnisse angehangen werden.

Zur Erstellung von Wortlisten umgangssprachlicher Wörter können eigene Ideen eingebracht werden. Optional kann die Eingabe auch im PDF-Format erfolgen, aus dem zunächst, mittels einer geeigneten Bibliothek, der Text extrahiert wird.

Anforderung:

Kategorisierung der Arbeit:
Theorie (Analyse): 2/4
Praktisch (Implementation): 4/4
Literatur: 1/4

Ansprechpartner: Matthias Liebeck

Bereich:

Heinrich Heine Universität

Datenbanken und Informationssysteme

Lehrstuhlinhaber

Prof. Dr. Stefan Conrad


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.24
Tel.: +49 211 81-14088
Fax: +49 211 81-13463

Sekretariat

Sabine Freese


Sprechzeiten:
Mo-Fr: 10:00-11:30 Uhr
Mo-Do: 13:00-14:30 Uhr


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.22
Tel.: +49 211 81-11312
Fax: +49 211 81-13463
Verantwortlich für den Inhalt:  E-Mail senden Datenbanken & Informationssysteme