page 1  (7 pages)
2to next section

Ein Email-Korpus zur Entwicklung und Evaluierung der Analysekomponente eines Terminvereinbarungssystems

Thierry Declerck, Judith Klein
fdeclerck;[email protected]

Abstract: This paper describes the development of a diagnostic tool, implemented as an annotated Email corpus database, for the evaluation of the analysis component of a German dialogue system, which has been realized as a NL front end to autonomous agent systems for appointment scheduling that use Email as their communication means. A shallow parsing approach has been adopted as the NL server's module. Methodology and measures applied for the evaluation must be understood in the context of the role played by the NL component within the overall system.

1 Hintergrund

Diese Arbeit beschreibt den Einsatz eines annotierten Korpus deutscher Emails zur Unterst?utzung einer empirisch fundierten linguistischen Verarbeitung der Analysekomponente eines Terminvereinbarungssystems, das als Testanwendung zum wiederverwendbaren Server f?ur Dialogsysteme im Projekt Cosma (Cooperative Schedule Management Agent)1 entwickelt wurde. Um die Subsprache der Terminplanungsdom?ane zu spezifizieren und den Abdeckungsgrad der Analysekomponente feststellen zu k?onnen, wurden typische sprachliche Konstruktionen des Email-Korpus identifiziert und mit syntaktischen und semantischen Informationseinheiten annotiert. Email-Texte und Annotationen wurden in einem relationalen Datenbankschema klassifiziert, so dass eine linguistische Auswertung der Sprachdaten leicht unter unterschiedlichen Fragestellungen durchgef?uhrt werden konnte.
F?ur die Entwicklung der anwendungsspezifischen Analysekomponente wurde ein robuster Shallowparsing Ansatz gew?ahlt, da es bei der nat?urlichsprachlichen Eingabe via Email nicht ungew?ohnlich ist, | ganz im Gegenteil | unvollst?andige oder fehlerhafte Texte vorzufinden. Zudem stand die effiziente Verarbeitung der f?ur die Terminvereinbarung relevanten EmailFragmente | bei gleichzeitiger Vernachl?assigung irrelevanter Textteile | im Vordergrund, um eine erfolgreiche und reibungslose Kommunikation mittels des Dialogsystems zu gew?ahrleisten. Daher wurde f?ur die nat?urlichsprachliche Analyse das System smes (Saarbr?ucker Message Extraction System)2, ein Informationsextraktionssystem f?ur das Deutsche, gew?ahlt, das ein Kernsystem zum robusten Shallowparsing und den Einsatz benutzerdefinierter endlicher Automaten zur anwendungsorientierten, selektiven Syntaxverarbeitung kombiniert. Die Weiterentwicklung von smes basiert auf den Ergebnissen diagnostischer Evaluierungszyklen, die auf der Basis der Email-Texte des Referenzkorpus durchgef?uhrt wurden. Die Evaluierung der Analysekomponente ist im Zusammenhang mit der speziellen Anwendung zu verstehen: Die Leistungen des Shallowparsers werden im Kontext des Dialogsystems zu Terminvereinbarungen evaluiert.

1Das Projekt Cosma [Busemann et al.1997] ist vom Bundesministerium f?ur Bildung, Wissenschaft, Forschung und Technologie (BMB+F) gef?ordert worden (FKZ ITW 9402).
2Das System wurde von G?unter Neumann entwickelt [Neumann1997].