-Zurück-

Entwicklung eines Systems zur Stilanalyse wissenschaftlicher Veröffentlichungen

Im Rahmen dieser Bachelorarbeit soll ein neues System zur Analyse sprachlicher Mittel aus englischsprachigen Texten erstellt werden, das den Autor auf sprachliche Mängel hinweisen kann. Als Eingabe erhält das System einen Text in Form eines wissenschaftlichen Papers. Anschließend erfolgt die Verwendung einer Natural Language Processing Pipeline (bestehend aus Tokenizer, Sentence Splitter, POS-Tagger, Lemmatizer), die den Eingabetext für eine Analyse vorbereitet. Dafür können fertige NLP-Pipelines, wie OpenNLP oder StanfordCoreNLP, verwendet werden. Danach werden verschiedene sprachliche Eigenschaften untersucht, wie z.B.:

Dabei soll auf eine erweiterbare Systemarchitektur geachtet werden. Als Ausgabeformat kann HTML oder LaTeX verwendet werden, wobei die entsprechenden Fundstellen farblich markiert und die Analyseergebnisse angehangen werden.

Zur Erstellung von Wortlisten umgangssprachlicher Wörter können eigene Ideen eingebracht werden. Optional kann die Eingabe auch im PDF-Format erfolgen, aus dem zunächst, mittels einer geeigneten Bibliothek, der Text extrahiert wird.

Anforderung:

Kategorisierung der Arbeit:
Theorie (Analyse): 2/4
Praktisch (Implementation): 4/4
Literatur: 1/4

Ansprechpartner:

Bereich:

Heinrich Heine Universität

Datenbanken und Informationssysteme

Lehrstuhlinhaber

Prof. Dr. Stefan Conrad


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.24
Tel.: +49 211 81-14088

Sekretariat

Lisa Lorenz



Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.22
Tel.: +49 211 81-11312
Verantwortlich für den Inhalt:  E-Mail senden Datenbanken & Informationssysteme