Startseite | Reihen und Herausgeber | Dissertation veröffentlichen | Autorenbereich | Presse | Über den Verlag | Kontakt | AGB | Datenschutzerklärung | Impressum   
Philosophie Politikwissenschaft Geschichte Recht Religionswissenschaft Pädagogik/Soziologie Orientalistik Literaturwissenschaft Kunst/Altertumswissenschaft Informationswissenschaft Zeitschriften Varia Ebooks
Monografien Advances in Knowledge Management Advances in Knowledge Organization Bibliotheca Academica Content and Communication Fortschritte in der Wissensorganisation IITF-Infoterm-Series Knowledge Organization in Subject Areas Knowledge Organization (Journal) Terminology and Knowledge Engineering Textbooks for Knowledge Organization

Band 1

Witschel, Hans Friedrich
Terminologie-Extraktion
Möglichkeiten der Kombination statistischer und musterbasierter Verfahren

2004. 131 Seiten – 155 x 225 mm. Kartoniert
ISBN 978-3-89913-408-7

 

24,00 EUR

Produkt-ID: 978-3-89913-408-7  

incl. 7% USt.

Lieferbar in 3-5 Werktagen  
 
Anzahl:   St


Die Suche nach Informationen in unstrukturierten natürlichsprachlichen Daten ist Gegenstand des sogenannten Text Mining. In dieser Arbeit wird ein Teilgebiet des Text Mining beleuchtet, nämlich die Extraktion domänenspezifischer Fachbegriffe aus Fachtexten der jeweiligen Domäne.
Wofür überhaupt Terminologie-Extraktion? Die Antwort darauf ist einfach: der Schlüssel zum Verständnis vieler Fachgebiete liegt in der Kenntnis der zugehörigen Terminologie. Natürlich genügt es nicht, nur eine Liste der Fachtermini einer Domäne zu kennen, um diese zu durchdringen. Eine solche Liste ist aber eine wichtige Voraussetzung für die Erstellung von Fachwörterbüchern (man denke z.B. an Nachschlagewerke wie das klinische Wörterbuch "Pschyrembel"): zunächst muß geklärt werden, welche Begriffe in das Wörterbuch aufgenommen werden sollen, bevor man sich Gedanken um die genaue Definition der einzelnen Termini machen kann. Ein Fachwörterbuch sollte genau diejenigen Begriffe einer Domäne beinhalten, welche Gegenstand der Forschung in diesem Gebiet sind oder waren. Was liegt also näher, als entsprechende Fachliteratur zu betrachten und das darin enthaltene Wissen in Form von Fachtermini zu extrahieren? Darüberhinaus sind weitere Anwendungen der Terminologie-Extraktion denkbar, wie z.B. die automatische Beschlagwortung von Texten oder die Erstellung sogenannter Topic Maps, welche wichtige Begriffe zu einem Thema darstellt und in Beziehung setzt.
Es muß also zunächst die Frage geklärt werden, was Terminologie eigentlich ist, vor allem aber werden verschiedene Methoden entwickelt, welche die Eigenschaften von Fachtermini ausnutzen, um diese aufzufinden. Die Verfahren werden aus den linguistischen und "statistischen" Charakteristika von Fachbegriffen hergeleitet und auf geeignete Weise kombiniert.
So läßt sich z.B. die Tatsache, daß viele Fachbegriffe Nominalphrasen einer bestimmten Form sind, direkt für eine Suche nach gewissen syntaktischen Mustern ausnützen, die Verteilung von Termen in Fachtexten führt zu einem statistischen Ansatz -- der Differenzanalyse. Einige dieser Ideen wurden in ein System integriert, welches auf dem Feedback des Benutzers aufbaut: da es keine "objektive" Definition für Terminologie gibt, werden gewisse Wörter von manchen Menschen als terminologisch empfunden, von anderen nicht. Die Implementierung des Verfahrens, welche genau beschrieben wird, hält daher während der Extraktion immer wieder "Rücksprache" mit dem Anwender und versucht aus dessen Feedback zu lernen.
Die im System enthaltenen Komponenten werden sodann genauer untersucht und bezüglich ihrer Leistungsfähigkeit verglichen. Die dabei erhaltenen Resultate lassen einige interessante Schlußfolgerungen über den Einfluß verschiedener Textstrukturen auf den Extraktionsprozeß zu, werfen aber auch etliche Probleme auf, die mit dem Facettenreichtum natürlicher Sprache zusammenhängen.
Anliegen dieser Abhandlung ist es also, die Möglichkeiten aufzuzeigen, die eine Kombination verschiedener musterbasierter und statistischer Verfahren im Hinblick auf Problemstellungen des Text Mining bietet. Es werden aber auch die Grenzen und Probleme dieser Ansätze angedeutet.