Erkennung und Korrektur von Rechtschreibfehlern in deutschsprachigen Online-Foren
Die Qualität von Textanalysen wird unter anderem von der Qualität des zugrunde liegenden Texts bestimmt. Während zum Beispiel editierte Nachrichtenartikel eine sehr geringe Rate an Schreibfehlern aufweisen, treten in Online-Plattformen (u.a. Twitter, Facebook, Blogs und Foren) vermehrt Fehler dieser Art auf. In dieser Arbeit soll die Textqualität in medizinischen Foren aufgebessert werden, indem Schreibfehler automatisiert korrigiert werden. Mögliche Fehlertypen sind dabei nicht existierende Wörter (Txte statt Texte) und Fehler, bei denen Wörter vertauscht werden, z.B Homophone (Lehre statt Leere).
Diese Arbeit umfasst die folgenden Punkte:
- Literaturrecherche nach passenden Verfahren
- voraussichtlich Annotation eines gegebenen Datenkorpus
- Evaluation und Bewertung der ausgewählten Verfahren auf dem Korpus
- Entwicklung des Ansatzes als Baustein einer Natural Language Pipeline
Ansprechpartner: echo $arbeit[3]." ".$arbeit[4]?>
Bereich: