| ![]() |
Ein Email-Korpus zur Entwicklung und Evaluierung der Analysekomponente eines Terminvereinbarungssystems
Thierry Declerck, Judith Klein
fdeclerck;[email protected]
Abstract: This paper describes the development of a diagnostic tool, implemented as an annotated Email corpus database, for the evaluation of the analysis component of a German dialogue system, which has been realized as a NL front end to autonomous agent systems for appointment scheduling that use Email as their communication means. A shallow parsing approach has been adopted as the NL server's module. Methodology and measures applied for the evaluation must be understood in the context of the role played by the NL component within the overall system.
1 Hintergrund
Diese Arbeit beschreibt den Einsatz eines annotierten Korpus deutscher Emails zur Unterst?utzung
einer empirisch fundierten linguistischen Verarbeitung der Analysekomponente eines
Terminvereinbarungssystems, das als Testanwendung zum wiederverwendbaren Server f?ur Dialogsysteme
im Projekt Cosma (Cooperative Schedule Management Agent)1 entwickelt wurde.
Um die Subsprache der Terminplanungsdom?ane zu spezifizieren und den Abdeckungsgrad der
Analysekomponente feststellen zu k?onnen, wurden typische sprachliche Konstruktionen des
Email-Korpus identifiziert und mit syntaktischen und semantischen Informationseinheiten annotiert.
Email-Texte und Annotationen wurden in einem relationalen Datenbankschema klassifiziert,
so dass eine linguistische Auswertung der Sprachdaten leicht unter unterschiedlichen
Fragestellungen durchgef?uhrt werden konnte.
F?ur die Entwicklung der anwendungsspezifischen Analysekomponente wurde ein robuster Shallowparsing
Ansatz gew?ahlt, da es bei der nat?urlichsprachlichen Eingabe via Email nicht ungew?ohnlich
ist, | ganz im Gegenteil | unvollst?andige oder fehlerhafte Texte vorzufinden.
Zudem stand die effiziente Verarbeitung der f?ur die Terminvereinbarung relevanten EmailFragmente
| bei gleichzeitiger Vernachl?assigung irrelevanter Textteile | im Vordergrund,
um eine erfolgreiche und reibungslose Kommunikation mittels des Dialogsystems zu gew?ahrleisten.
Daher wurde f?ur die nat?urlichsprachliche Analyse das System smes (Saarbr?ucker Message
Extraction System)2, ein Informationsextraktionssystem f?ur das Deutsche, gew?ahlt, das ein
Kernsystem zum robusten Shallowparsing und den Einsatz benutzerdefinierter endlicher Automaten
zur anwendungsorientierten, selektiven Syntaxverarbeitung kombiniert.
Die Weiterentwicklung von smes basiert auf den Ergebnissen diagnostischer Evaluierungszyklen,
die auf der Basis der Email-Texte des Referenzkorpus durchgef?uhrt wurden. Die Evaluierung
der Analysekomponente ist im Zusammenhang mit der speziellen Anwendung zu verstehen:
Die Leistungen des Shallowparsers werden im Kontext des Dialogsystems zu Terminvereinbarungen
evaluiert.
1Das Projekt Cosma [Busemann et al.1997] ist vom Bundesministerium f?ur Bildung, Wissenschaft, Forschung
und Technologie (BMB+F) gef?ordert worden (FKZ ITW 9402).
2Das System wurde von G?unter Neumann entwickelt [Neumann1997].