Expose für WikiWord Diplomarbeit
- WikiWord: Automatischer Aufbau eines multilingualen Thesaurus durch Extraktion semantischer und lexikalischer Relationen aus Wikipedia
Contents |
Überblick
Gegenstand der Diplomarbeit soll Entwurf, Umsetzung und Evaluation eines Systems sein, das auf Basis des Datenbestandes der Wikipedia automatisch einen mehrsprachigen Thesaurus aufbaut. Die so gewonnenen Informationen sollen für eine Weiternutzung in anderen Projekten zugänglich gemacht werden, insbesondere für Wortschatz (Quasthoff) und DBPedia (Auer/Lehmann).
Eine Analyse natürlichsprachlicher Inhalte ist nicht Gegenstand der Diplomarbeit. Statt dessen soll primär die Verknüpfungsstruktur (Hyperlinks) und Ankertexte in sprachneutraler Weise untersucht werden. Der Fokus liegt dabei auf der Abstraktion von sprachunabhängigen Konzepte, ihren semantischen Relationen, und ihren Bezeichnungen in verschiedenen Sprachen.
Die Arbeit teilt sich in drei Abschnitte: Entwurf, Umsetzung und Evaluation. Das zu erstellende System arbeitet in drei Phasen: Extraktion der Rohdaten, Statistische Verarbeitung, und Bereitstellung des Thesaurus. Bei der Evaluation sollen verschiedene Verfahren und Heuristiken für Extraktion und Verarbeitung, sowie Formate für die Bereitstellung verglichen und auf ihre Tauglichkeit für die gesetzten Ziele untersucht werden.
Extraktion
Der erste Schritt ist die Extraktion von Rohdaten aus den Datenbeständen der Wikipedia(s).
- Als Quelle dienen XML-Dumps der Wikipedia, die von Wikimedia bereitgestellt werden
- Aus jedem Artikel werden die relevanten Rohdaten extrahiert und in einer Datenbank gespeichert, insbesondere Hyperlinks mit Ankertexten und Link-Type, sowohl eine grobe Klassifikation der Seite anhand heuristischer Merkmale.
- Hierbei wird die Besonderheit der Wikipedia ausgenutzt, dass (fast) jede Seite genau ein Konzept definiert.
- Es ergeben sich (zunächst sprachspezifisch) folgende Beziehungen:
- Term-Konzept-Relationen, und damit Synonyme und Homonyme
- Eine Hyponymrelation durch die Kategoriesierung der Seiten (und damit der Konzepte) (evtl Konvertierung Plural->Singular notwendig, ggf nachträglich, nur, wenn Plural-Lemma nicht als Konzept definiert ist)
- Eine Kookkurrenzrelation, gemeinsames Auftreten von Verknüfungen der selben Seite.
- Verknüpfungen zu äquivalenten (oder übergeordneten) Konzepten in anderen Sprachen
- Auswertung von Redirects (Synonym-Definitionen) und Begriffsklärungen/Disambiguierungen (Homonym-Definitionen)
- zudem werden Definitionen für die Konzepte extrahiert (erster Satz)
Es soll der vollständige Inhalt der deutschen und englischen Wikipedia ausgewertet werden, sowie einiger kleinerer Wikipedias, insbesondere Französisch, Niederländisch und Norwegisch sowie Niederdeutsch (Plattdeutsch).
Verarbeitung
In der Verarbeitungsphase werden aus den Rohdaten abstraktere Informationen abgeleitet. Insbesondere:
- Auswerten von Redirects (Alias-Auflösung)
- Sprachunabhängige Konzepte: Clustering über Nachbarschaft bezüglich Interwiki-Links
- Kookkurrenzanalyse (gemeinsam Auftretende Konzepte auf einer Seite, wobei ein Hyperlink als "Auftreten" gewertet wird)
- Disambiguierungsliste: aus den Rohdaten (Seite, Term, Konzept) wird eine Disambiguierungsdatenbank (Sprache, Term, Kontextterm, Konzept, Frequenz) aufgebaut. (Kontext entweder nur Konzept-Eigene Seite, oder jedes Auftreten des Konzeptes)
Bereitstellung
DIe gewonnenen Daten sollen einerseits direkt abgefragt werden können (das ist insbesondere zum Testen und bei der Evaluation nützlich). Anfragemodi sind insbesondere:
- Bedeutungen für gegebenen Term
- Terme/Bezeichnungen für gegebene Bedeutung
- Verknüpfte Bedeutungen (Über/Unterbegriffe, Kookkurrenzen)
- Übersetzungen für verschiedene Bedeutungen eines Terms
- Disambiguierung (Bedeutung über Kontextwörter finden)
Desweiteren soll ein Export in unterschiedliche Formate möglich sein, insbesondere:
- RDF (SKOS Vokabular)
- Topic Maps
- LMF, evtl. TBX
- "Flache" Tabellen/Listen (TSV)
Verschiedene Formate werden auch auf ihre Eignung untersucht.
Evaluation
Abschließend sollen die Qualität der gewonnenen Daten empirisch untersucht werden. Die verwendeten Verfahren und Heuristiken werden im Hinblick auf das Ergebnis bewertet. (Wie umfangreich muss die empirische Untersuchung sein?)
Zusammenfassung
Die Art und Weise, in der in der Wikipedia Terme und Konzepte verwendet und verknüpft werden, enthält implizit Informationen über diese Konzepte sowie darüber, die diese Konzepte in verschiedenen Sprachen bezeichnet werden. Ziel von WikiWord ist es, diese Informationen zugänglich zu machen, sowohl zur weiteren Analyse, als auch zur direkten Verwendung als Thesaurus oder in Ontologie-Systemen oder Wortnetzen. Dies soll in sprachunabhängiger Weise geschehen, ohne eine Verarbeitung natürlicher Sprache oder Betrachtung von Satzstrukturen, allein auf Grund der Verknüpfungen zwischen Seiten.
Zeitplan
- November 07: Entwicklung des Prototypes
- Dezember 07: Fertigstellen des Prototypes
- Januar 08: Extraktion der Rohdaten, Verarbeitung, empirische Anpassung von Parametern
- Februar 08: Analyse und Evaluation der Ergebnisse, Dokumentation
- März 08: Fertigstellen der Diplomarbeit
- April 08: Reserve
Zu beachten ist, dass für einen kompletten Analyse-Lauf auf der vollen Datenmenge mindestens eine Woche anzusetzen ist, so dass sich leicht größere Verzögerungen ergeben können, sollten im Nachhinein Fehler entdeckt werden.




(no comments yet)