Entwicklung eines Systems zur Stilanalyse wissenschaftlicher Veröffentlichungen
Im Rahmen dieser Bachelorarbeit soll ein neues System zur Analyse sprachlicher Mittel aus englischsprachigen Texten erstellt werden, das den Autor auf sprachliche Mängel hinweisen kann. Als Eingabe erhält das System einen Text in Form eines wissenschaftlichen Papers. Anschließend erfolgt die Verwendung einer Natural Language Processing Pipeline (bestehend aus Tokenizer, Sentence Splitter, POS-Tagger, Lemmatizer), die den Eingabetext für eine Analyse vorbereitet. Dafür können fertige NLP-Pipelines, wie OpenNLP oder StanfordCoreNLP, verwendet werden. Danach werden verschiedene sprachliche Eigenschaften untersucht, wie z.B.:
- Erkennung von mehrfach verwendeten Wörtern in kurzem Abstand (z.B. binnen mehrerer Sätze), z.B. "so gilt" oder gleiche Verben
- Analyse in welchem Tempus die einzelnen Sätze geschrieben sind, um unbewusste Wechsel erkennen zu können
- Liste von umgangssprachliche Wörtern, die vermieden werden können (z.B. "halt", "man")
- identische Satzanfänge kennzeichnen (z.B. mehrfach "Ich" als Satzanfang)
- Satzlänge
- usw.
Dabei soll auf eine erweiterbare Systemarchitektur geachtet werden. Als Ausgabeformat kann HTML oder LaTeX verwendet werden, wobei die entsprechenden Fundstellen farblich markiert und die Analyseergebnisse angehangen werden.
Zur Erstellung von Wortlisten umgangssprachlicher Wörter können eigene Ideen eingebracht werden. Optional kann die Eingabe auch im PDF-Format erfolgen, aus dem zunächst, mittels einer geeigneten Bibliothek, der Text extrahiert wird.
- gute Programmierkenntnisse in C# (bevorzugt) oder Java
- selbstständiges Arbeiten
- hohe Motivation
Kategorisierung der Arbeit:
Theorie (Analyse): 2/4
Praktisch (Implementation): 4/4
Literatur: 1/4
Ansprechpartner: echo $arbeit[3]." ".$arbeit[4]?>
Bereich: