Zurück zur Übersicht

Improving Integration Quality for Heterogeneous Data Sources

full text: PDF
author/s: Evguenia Altareva
type:PHDThesis
publisher:Mathematisch–Naturwissenschaftliche Fakultät
school:Heinrich-Heine-Universität Düsseldorf
month:January
year:2005
howpublished:Online
Abstract

Diese Dissertation betrachtet das Problem der Integration von heterogenen semistrukturierten Datenquellen zwecks Bewertung der Integrationsqualität (IQ). Integration solcher Datenquellen führt zu Ergebnissen mit nicht absehbarer Zuverlässigkeit, und keine der vorhandenen Methoden ist in der Lage die Unsicherheiten zu berechnen, die sich in den aufeinanderfolgenden Integrationsschritten aggregieren und die Integrationsqualität beeinflussen. Um die Unsicherheiten zu berechnen, schlagen wir die Benutzung einer etablierten statistischen Methode, der Latent-Class-Analyse (LCA), vor. Diese Methode erlaubt uns, den Einfluss der latenten Faktoren zu analysieren, die mit den Real-Welt Entitäten assoziiert sind. Wir zeigen an Beispielen, wie das vorgeschlagene Framework für die Bewertung und die Verbesserung von IQ verwendet werden kann und gleichzeitig Anwendern, die für die Zuverlässigkeit von Daten zuständig sind, als ein wichtiges Werkzeug dienen kann.

This thesis considers a problem of integrating heterogeneous semi-structured data sources with the purpose of estimating integration quality (IQ). Integration of such data sources leads to results with unpredictable trustworthiness and none of the existing methods is capable of accounting for the uncertainty accumulated over all of the integration steps and affecting integration quality. To compute the uncertainties we suggest using a well-established statistical method Latent Class Analysis (LCA). This method allows to analyze the influence of the latent factors associated with the real-world entities on the set of data. We show on examples how the proposed approach can be used for evaluating and improving IQ giving an important tool to the users concerned with the data's trustworthiness.

Heinrich Heine Universität

Datenbanken und Informationssysteme

Lehrstuhlinhaber

Prof. Dr. Stefan Conrad


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.24
Tel.: +49 211 81-14088
Fax: +49 211 81-13463

Sekretariat

Sabine Freese


Sprechzeiten:
Mo-Fr: 10:00-11:30 Uhr
Mo-Do: 13:00-14:30 Uhr


Universitätsstr. 1
40225 Düsseldorf
Gebäude: 25.12
Etage/Raum: 02.22
Tel.: +49 211 81-11312
Fax: +49 211 81-13463
Verantwortlich für den Inhalt:  E-Mail senden WE Informatik