[ACM Press the 16th conference - Namur, Belgium (2004.08.30-2004.09.03)] Proceedings of the 16th conference on Association Francophone d'Interaction Homme-Machine - IHM 2004 - Une

Une interface conversationnelle pour les agents assis-tants appliqués à des activités professionnelles

Emerson Cabrera Paraiso

Université de Technologie de Compiègne Centre de Recherches Royalieu

60205, Compiègne, France [email protected]

Jean-Paul A. Barthès

Université de Technologie de Compiègne Centre de Recherches Royalieu

60205, Compiègne, France [email protected]

RESUME Cet article décrit la conception d'une interface conversa-tionnelle et d’ un système de dialogue en langage naturel parlé pour les agents assistants personnels. Nous nous in-téressons à l’ application des agents assistants pour des activités professionnelles. Nous estimons que l'utilisation de la parole facilitera l'interaction entre l'homme et la machine, car les utilisateurs pourront utiliser leurs pro-pres termes, comme ils le feraient en s’ adressant à une autre personne. La difficulté principale reste cependant la manipulation du langage parlé et la compréhension du contexte. Pour cela, nous limitons les échanges à des ac-tes de langage illocutoires : inform, question ou answer. Nous présentons l’ architecture d’ un système multi-agents pour une gestion personnelle de l'information. Les tous premiers résultats font espérer une amélioration de la qualité de l’ interface et de l'aide à l’ utilisateur.

MOTS CLES : Interface conversationnelle, système de dialogue, agent assistant, ontologies, langage naturel.

ABSTRACT This paper describes the design of a speech and natural language dialog interface for personal assistants. We are specially interested in working with personal assistants in professional domains. We believe that the use of speech will facilitate the interaction between human and ma-chine, since the user may speak with the agent using her own terms, increasing the quality of the assistance. The main difficulty in our approach however is to handle spoken natural language, and to understand its actual context. To overcome such difficulties, we restrict the exchanges to Directives Speech Act classes: inform, re-quest, or answer.

We present a conversational speech interface architecture in a multi-agent system applied to personal information management. As a clear result, we expect an increase in the quality of the interface and of the assistance to the user, which seems to be the case on preliminary results.

CATEGORIES AND SUBJECT DESCRIPTIONS : H.5 [Information Systems Applications] : User Interfaces.

GENERAL TERMS : Design, Human Factors

KEYWORDS : Speech interface, dialog systems, assistant agents, ontology, natural language.

INTRODUCTION Les agents assistants personnels sont des systèmes qui aident les utilisateurs humains utilisant des ordinateurs de façon coopérative [5]. Nous nous intéressons en particu-lier à l’ application des agents assistants pour des activités professionnelles. Dans ce cas, l’ agent joue le rôle d’ assistant et son rôle est de diminuer la charge de travail de son maître (utilisateur) pendant la réalisation des acti-vités qui nécessitent une interaction avec l’ ordinateur ou un autre moyen informatique [2]. Nous pensons que les composants graphiques traditionnels d’ une interface utili-sateur (GUI), comme les menus hiérarchisés ou les bou-tons, sont inadéquats et peu motivants pour des interfaces où une attention particulière est recquise pour piloter le système. Nous sommes convaincus que l’ utilisation d’ interfaces conversationnelles améliorera la qualité de l'aide qu’ un agent assistant peut offrir dans certaines si-tuations spécifiques. Nous proposons donc une interface conversationnelle spécialement conçue pour les agents assistants permettant à l’ utilisateur d’ utiliser des expres-sions en langage naturel parlé. Les interfaces conversa-tionnelles comme celles de Kölzer [4] laissent les utilisa-teurs disent ce qu'ils veulent dans leurs propres termes, comme ils le feraient en s’ adressant à une autre personne. Enfin, interfacer des humains aux systèmes informati-ques utilisant des agents assistants personnels constitue un bon terrain de test d’ une approche conversationnelle.

Nous avons développé une architecture pour le dialogue parlé que nous utilisons pour construire une interface

Copyright © 2004 by the Association for Computing Machinery, Inc. permission to make digital or hard copies of part or all of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. Copyrights for components of this work owned by others than ACM must be honored. Abstracting with credit is permitted. To copy otherwise, to republish, to post on servers, or to redistribute to lists, requires prior specific permission and/or a fee. Request permissions from Publications Dept., ACM, Inc., fax +1 (212) 869-0481, or [email protected]. IHM 2004 Aug 30 – Sep 3, 2004, Namur, Belgium Copyright 2004 ACM 1-58113-926-8 ……. $5.00

243

pour les agents assistants [7]. Le système de dialogue parlé que nous avons conçu est capable de réaliser des tâches simples, comme localiser un document, mais aussi des tâches plus complexes qui doivent être décomposées en tâches subsidiaires. Dans cette optique, chaque utilisa-teur a un agent assistant et peut utiliser la voix pour le commander ou lui demander d’ accomplir des tâches pré-cises. Dans ce contexte, l’ utilisateur et son agent assistant utilisent des dialogues pratiques pour accomplir des buts de façon coopérative comme décrit par Allen et al. [1]. Les tâches de l’ agent sont décrites comme des fonctions correspondant à ses compétences et dont l’ ensemble tra-duit sa raison d’ être, c’ est-à-dire correspond à l’ objectif pour lequel l’ agent a été construit. La recherche d’ un do-cument dans une base de données ou sur Internet, ou en-core l’ envoi de messages sont des exemples de telles compétences. L’ interaction vocale permet à l’ utilisateur de rester concentré sur ses activités principales tout en conversant de temps en temps avec son agent. Ainsi, no-tre approche diffère d’ autres approches comme celle du système TRIPS [1], puisqu’ elle, n’ utilise qu’ un minimum d’ informations récoltées à la suite d’ échanges avec l’ utilisateur dans un domaine bien précis. Le vocabulaire utile peut être défini grâce aux ontologies du domaine. Le domaine qui nous intéresse est par ailleurs bien connu et limité à des applications professionnelles. Les types d’ applications que nous avons envisagées nous ont per-mis de limiter l'espace des dialogues à ceux ne contenant que des actes de langage de type illocutoires et, parmi les classes proposées par Searle [8], à la classe Directives : inform, question ou answer. D'ailleurs, il est difficile d’ imaginer actuellement un système qui pourrait manipu-ler un dialogue véritablement ouvert avec un vocabulaire illimité. Donc, notre approche reste cantonnée à des si-tuations spécifiques qui limitent l'étendue du dialogue et la taille du vocabulaire. Comme résultat nous espérons que la qualité de l’ aide va nettement s’ améliorer sans que nous ayons besoin de modifier les compétences internes de l’ agent assistant. Notre but est :

• de réduire la surcharge cognitive de l’ utilisateur ; • de traiter les requêtes hors contexte grâce aux onto-

logies du domaine et après un traitement linguisti-que ;

• d’ utiliser l’ agent assistant également pour des per-sonnes inexpérimentées ou ayant des difficultés, comme les personnes dont les mains sont occupées ou les personnes handicapées.

Dans ce qui suit, nous présentons tout d'abord notre inter-face conversationnelle, puis nous expliquons comment l'interface a été mise en place sur un agent assistant. En conclusion, nous indiquons les résultats attendus, surtout concernant l’ amélioration de la qualité de l’ aide. Ceci dernier point fera l’ objet d’ une expérimentation future poussée.

ARCHITECTURE DE L’INTERFACE CONVERSATION-NELLE Nous présentons une vision générale de l’ architecture dans la Figure 1. Elle est composée de plusieurs modules qui font partie de l’ agent assistant.

Figure 1 : Structure de l’ interface.

L’architecture globale est composée de trois parties : un ensemble de modules d’ interface, un ensemble de modu-les de traitement linguistiques, et un ensemble de modu-les de gestion du dialogue. Les modules d’interface Si l'interface est prioritairement orientée vers la voix, ce n’ en est pas moins une interface multi-modale. Par conséquent, les événements déclenchés par des clics de souris ou par les touches du clavier doivent être pris en compte. D’ autre part, toutes les entrées vocales sont en-voyées aux modules linguistiques appropriés.

Le traitement linguistique Comme dans la plupart des systèmes de dialogue, nous-traitons chaque expression parlée séquentiellement.

Figure 2 : a) Le traitement linguistique, et b) fichier XML produit.

Un énoncé peut être un mot simple ou peut contenir plu-sieurs mots (une expression ou une phrase). Chaque ex-pression est analysée par un processus indépendant. Le traitement d'une expression est fait parallèlement à la sai-

244

sie de la parole. Après saisie, l’ énoncé est traité par le module de Vérification Grammaticale (Figure 2a). L'al-gorithme d'analyse fonctionne de façon ascendante en remplaçant chaque mot de l'expression par sa catégorie syntaxique (verbe, nom, adverbe, etc.) avec l'aide d'un lexique et de WordNet [3]. À chaque énoncé, un fichier XML est mis à jour avec l’ arbre syntaxique, le type d’ énoncé et sa valeur, comme le montre la Figure 2b.

La restriction de l'espace des dialogues aux actes de lan-gage de type illocutoires et aux directives inform, ques-tion ou answer permet une classification plus facile des énoncés, réduits seulement à ces trois types.

Les ontologies et l’interprétation sémantique Après l’ interprétation syntaxique, nous faisons une inter-prétation sémantique à l’ aide des ontologies et de Word-Net [3]. Celle-ci est basée sur l’ idée que la signification des énoncés peut être obtenue à partir de mots-clés. Plus précisément, le module d'Application de l’ ontologie re-cherche la liste des verbes qui caractérisent la tâche qui devra être exécutée. Les mots-clés correspondent aux concepts de l'ontologie et sont directement liés à une liste d'actions.

Les ontologies ont été utilisées dans ce projet pour bien interpréter les énoncés, mais aussi comme aide au rai-sonnement. En particulier elles servent: a) à interpréter le contexte des messages envoyés par d'autres agents ou par l'utilisateur; et b) à garder une représentation informati-que de la connaissance utile au moment de l'inférence.

Pour illustrer le fonctionnement de cette approche, considérons l'expression liée à une application de gestion de projets: Could you list all project members?

Pour bien traiter cet énoncé, on a besoin d’ une ontologie de domaine. Prenons la description de concepts utilisés par le système, de la Figure 3. De façon très simple, elle définit qu’ un projet appelé BUCKS1 peut avoir trois ty-pes différents de documents (email, report et spreads-heet) et que ce même projet comprend plusieurs mem-bres. Elle définit aussi que sur ces deux propriétés (do-cuments et members) on peut appliquer trois actions : read, list et erase.

Comme l’ énoncé donné est une question et est de plus lié au domaine d'application, le module de Vérification Grammaticale crée une matrice contenant la liste d’ éléments (tokens) et leur classification syntactique, comme indiqué sur la figure 2b.

1 Bottom Up Cooperative Knowledge System, projet interne de l’ équipe de recherche.

En recherchant les éléments dans l'ontologie, on constate que l’ élément « list » est une action. À noter que l’ on uti-lise une liste de synonymes fournie par WordNet (par exemple « list », « enumerate » ou « name » sont des sy-nonymes dans ce cas). On trouve également que « project » est un objet et que « members » est une de ses proprié-tés. Nous avons donc une liste qui contient une référence à une tâche (lister les membres d’ un projet) et à ses pa-ramètres.

<project name="BUCKS" location="UTC"> <actions> read list erase </actions> <documents location="server"> <email> name sbuject date </email> <report> author description </report> <spreadsheet> author description </spreadsheet> </documents> <members> <tech> paul </tech> <adm> mary </adm> <supporting> john </supporting> </members> </project>

Figure 3 : Exemple de concepts utilisés par le système.

Les modules de Gestion Le gestionnaire du dialogue est capable de choisir un modèle de dialogue adéquat pour une session qui com-mence. Chaque session de dialogue est conduite comme une tâche contenant éventuellement des tâches secondai-res. Lorsque l'utilisateur demande une action, le gestion-naire de dialogue essaie de l'exécuter en créant une tâche en mémoire. Cependant, si l'expression initiale ne contient pas toute l'information nécessaire, par exemple s’ il manque un paramètre d'action, il déclenchera des tâ-ches secondaires pour obtenir la liste des paramètres manquants en demandant les informations à l'utilisateur.

UN SYSTEME MULTI-AGENTS GESTIONNAIRE PER-SONNEL Nous proposons d’ appliquer cette architecture conversa-tionnelle à la construction d’ un agent assistant dans un système multi-agents de gestion personnelle. Nous nous appuyons sur le projet BUCKS qui modélise un environ-nement de travail au sein d’ un groupe de recherche. Cet environnement offre des services personnalisés, mais doit également permettre de coopérer. Les services sont réali-sés par des agents, la coordination est faite par un agent assistant. Pour simplifier, la version en cours de dévelop-pement doit offrir les services suivants :

245

• gestion financière : gestion de ressources financières d’ un projet ;

• gestion de documents : gestion de documents stockés dans une base de données ;

• agenda de réunions : contrôle de l’ emploi du temps du responsable du projet ;

• carnet d’ adresses : liste d’ adresses électroniques ; • courrier électronique : client e-mail. L’ agent assistant est la seule interface entre l’ utilisateur et le système et entre l’ utilisateur et les services fournis par les autres agents. Les services sont exécutés par des agents spécialisés dits de service qui sont chargés de met-tre en forme les réponses avant de les transmettre à l’ agent assistant. Prenons l’ exemple d’ une situation où l’ utilisateur veut envoyer un courrier à quelqu’ un pour lui rappeler la date limite d’ une conférence :

USR: Could you list all conferences with deadline in Fe-bruary? PA: Agents et Langue: deadline 7, feb, 2004; International Conference on AI Application and In-novations: deadline 16, feb, 2004; European Conference on Artificial Intelligence – 2004: deadline 18, feb, 2004; USR: I would like to send an email to Jean-Paul Barthès. PA: What is the subject?, …

Deux services différents ont été utilisés : le suivi de ges-tion de congrès et le courrier électronique. Les questions posées par l’ agent assistant sont présentes dans la des-cription de chaque compétence et ont été définies au pré-alable pour chaque service disponible.

CONCLUSIONS L'utilisation d'une interface vocale pour les agents assis-tants peut améliorer la qualité de l'aide dans certaines si-tuations spécifiques, comme dans le contexte de gestion de connaissances ou la gestion des tâches personnelles. Tout d'abord, elle rend l'exploitation du système plus ra-pide et plus facile, puisque l'utilisateur n'a pas besoin d'être un expert du domaine, toute la complexité étant prise en charge par l'agent assistant. Nous pensons que les utilisateurs inexpérimentés trouveront l'interface plus facile à utiliser que les interfaces plus traditionnelles. On pourrait aussi penser à des usages plus exotiques comme dans les interfaces avec les appareils électroménagers, domaine qui est actuellement en plein développement (voir [6]). L’ association d’ un agent assistant et d’ une in-terface vocale pourrait fournir un apport significatif à ce genre d’ applications.

Ces conclusions résultent des toutes premières observa-tions. Nous projetons de tester cette approche en compa-rant la convivialité et la qualité de l’ aide de l’ application de gestion personnelle, à l’ approche traditionnelle pure-ment graphique dans des situations contrôlées. Nous dé-veloppons actuellement un agent assistant parlant et un autre agent doté d’ une seule interface graphique. Un groupe d’ utilisateurs les utilisera afin que nous puissions mesurer la qualité de l’ aide de façon précise. En fonction de l’ accessibilité aux services disponibles, nous pourrons évaluer s’ il y a eu ou non une amélioration significative.

REMERCIEMENTS Emerson Cabrera Paraiso remercie la CAPES-Brésil qui partiellement finance cette recherche.

BIBLIOGRAPHIE 1. Allen, J. et al. An Architecture for More Realistic

Conversational Systems, In Proceedings of Intelli-gent User Interfaces (IUI-01), Santa Fe, NM, USA..

2. Enembreck F. and Barthès J. Agents for Collabora-tive Filtering, In Proceedings of Cooperative Infor-mation Agents VII – CIA 2003, Springer, pp. 184-191.

3. Fellbaum, C. , WordNet: An Electronic Lexical Da-tabase. MIT Press, Cambridge, MA, USA, 1998.

4. Kölzer, A. Universal Dialogue Specification for Conversational Systems, In Proceedings of IJCAI 1999 – Workshop on Knowledge and Reasoning in Practical Dialogue Systems.

5. Maes, P. Agents that Reduce Work and Information Overload. In Communication ACM, Vol. 37, No.7 , ACM Press, 31-40, 146, 1994.

6. Quesada, J. et al. Dialogue Managements in a Home Machine Environment: Linguistic Components over an Agent Architecture, In Proceedings of SEPLN, 2001, pp. 89-98.

7. Paraiso, E. and Barthès, J. P. Architecture d’ une In-terface Conversationnelle pour les Agents Assis-tants, Actes de la journée Agents et Langue, 2004, Paris, pp. 83-90.

8. Searle, J. R. A Taxonomy of Illocutionary Acts, In Proceedings of Language, Mind and Knowledge, Vol. 7, University of Minnesota Press, 1975, pp. 344-369.

246

Documents

[ACM Press the 16th conference - Namur, Belgium (2004.08.30-2004.09.03)] Proceedings of the 16th conference on Association Francophone d'Interaction Homme-Machine - IHM 2004 - Une