122
1 L’Université Arisem Mise en place d’un portail de veille avec ActiveWatch Cédric Simard - février 2001 Première journée

Mise en place d’un portail de veille avec ActiveWatch

  • Upload
    cheng

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Mise en place d’un portail de veille avec ActiveWatch. Première journée. Cédric Simard - février 2001. Objectifs de la formation. Acquérir une vision globale d’ActiveWatch™ Comprendre le rôle de chaque module dans le processus de traitement d’information - PowerPoint PPT Presentation

Citation preview

Page 1: Mise en place d’un portail de veille avec ActiveWatch

1

L’Université Arisem 

Mise en place d’un portail de veille avec

ActiveWatch

Cédric Simard - février 2001

Première journée

Page 2: Mise en place d’un portail de veille avec ActiveWatch

2

L’Université Arisem 

Objectifs de la formation

- Acquérir une vision globale d’ActiveWatch™

- Comprendre le rôle de chaque module dans le processus de traitement d’information

- Prendre la mesure de l’analyse sémantique selon Arisem

- Identifier les facteurs clés de succès pour le lancement d’un premier arbre de veille

- Prendre en main ActiveWatch™

Page 3: Mise en place d’un portail de veille avec ActiveWatch

3

L’Université Arisem 

Cycle fonctionnel Administration

métier

Cycle Développement

Intégration

Mise en place d’un portail avec

ActiveWatch /DynamicKnowledge /

OpenPortal4U WebEdition /Corporate Media

(Durée totale 3 jours)

Programmation avec OpenPortal4U Integration

PlatFormDurée : 4 jours

Enrichissement de la Base de Connaissances Arisem avec

2MakeSense(Durée : 1 jour)

Place de cette formation parmi les autres :

Page 4: Mise en place d’un portail de veille avec ActiveWatch

4

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 5: Mise en place d’un portail de veille avec ActiveWatch

5

L’Université Arisem 

Présentation générale

• Des informations diverses et variées dans et à l’extérieur de l’entreprise

• Une couverture et une granularité différentes d’une même information pour une tâche donnée

• Le besoin d’un référentiel commun• La solution : OpenPortal4U™

Présentation générale

Page 6: Mise en place d’un portail de veille avec ActiveWatch

6

L’Université Arisem 

OpenPortal

Valoriser votre système d’information en fournissant des contextes dans lesquels l’information existante présente un sens pour l’utilisateur.

Présentation générale

Page 7: Mise en place d’un portail de veille avec ActiveWatch

7

L’Université Arisem 

e-commerceSites Web

documentairesMarketplaces

e-catalogs

OpenPortal4U

Web EditionOpenPortal4U Enterprise EditionOpenPortal4U Enterprise Edition

ActiveWatch Dynamic

Knowledge

CorporateMedia

OpenPortal4UOpenPortal4U

Verticalisations

Présentation générale

Page 8: Mise en place d’un portail de veille avec ActiveWatch

8

L’Université Arisem Présentation générale

Page 9: Mise en place d’un portail de veille avec ActiveWatch

9

L’Université Arisem 

La solution ActiveWatch™ est dédiée à la veille.Elle a quatre fonctions principales :

Elle est composée de 3 modules qui autorisent le paramétrage de la recherche, de l’analyse et du classement :

- recherche, collecte (orientée) et surveillance de l’information sur Internet- analyse et pré-qualification de cette information- classification des documents- publication de cette information (à venir)

- 2Crawl : recherche et surveillance sur Internet- 2Class : classement automatique de documents- 2MakeSense : paramétrage de l’analyse de l’information

ActiveWatch

Présentation générale

Page 10: Mise en place d’un portail de veille avec ActiveWatch

10

L’Université Arisem Présentation générale

Page 11: Mise en place d’un portail de veille avec ActiveWatch

11

L’Université Arisem 

Les modules fonctionnels d’AW :

• Rechercher

• Conserverles documentspertinents

• Assurerle suivi des documents dans le temps

• Idées

• Relations entre les idées

• Décomposer la thématiquedans un arbre de classement

• Mettre à la disposition l’information structurée

• Classer

Constituer un corpus

Expliciterune thématique

Définir un univers textuel

Publierdans un portail

2Crawl2Crawl 2MakeSense2MakeSense

L4UL4U

2Class2Class

• Expression des idées dans le texte

Présentation générale

- module

- fonction

Page 12: Mise en place d’un portail de veille avec ActiveWatch

12

L’Université Arisem 

Elle permet de désambiguïser la polysémie d’une requête et/ou d’un document, en identifiant les concepts présents à l’intérieur d’un contexte.

« Parmi les fruits les plus riches : avocat, banane, cassis, raisin noir… »

fruit?

juriste?

fruit + = Concept « avocat fruit  »

Document (extrait) :

Présentation générale

La sémantique selon Arisem

L’ information textuelle n’est pas une suite de caractères sans signification, mais l’expression d’idées et de concepts ayant une signification propre dans un contexte donné.

Page 13: Mise en place d’un portail de veille avec ActiveWatch

13

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 14: Mise en place d’un portail de veille avec ActiveWatch

14

L’Université Arisem 

La démarche de veille avec AW en 4 étapes

1. Phase de réflexion et de formulation de la problématique

Définition des objectifs et de la problématique :

- quels sont les tenants et aboutissants de mon projet ?- quels sont les acteurs de ce projet ?- quel est le lexique utilisé par ces acteurs ?- quels sont les éléments de réponse que j’attends ?

Préparation du travail à effectuer dans la base de connaissance :

- formaliser l’expertise à travers le passage par l’écriture ;- lister le lexique professionnel relatif au projet ;- mettre en évidence les concepts justes et justes nécessaires;

La démarche de veille avec AW en 4 étapes

Page 15: Mise en place d’un portail de veille avec ActiveWatch

15

L’Université Arisem 

2. Traduire les fondamentaux dans la base de connaissance

2MakeSense

Transfert de connaissances vers l’outil d’analyse :

- mise en évidence du niveau de connaissance de la base ;- inscription des concepts fondamentaux pour le projet ;- définition du projet par l’attribution de relations sémantiques ;- rattachement à la « réalité » par l’établissement d’un lexique métier.

Rendre l’outil expert pour effectuer l’analyse automatiquement :

- capitaliser les connaissances internes ;- compléter les thèmes métiers ;- désambiguïser des termes spécialisés.

La démarche de veille avec AW en 4 étapes

Page 16: Mise en place d’un portail de veille avec ActiveWatch

16

L’Université Arisem 

3. Constitution et surveillance d’un corpus issu du Web

2Crawl

L’heuristique de crawling :

- recherche de documents à l’intérieur d’un tunnel sémantique- progression des agents sur l’architecture hypertexte- accès au Web non indexé- rapatriement des documents pertinents

La surveillance automatique des documents découverts :

- ré-accès programmé de l’ensemble du corpus- signalisation des modifications

La démarche de veille avec AW en 4 étapes

Surveillance classique d’URLs ou de sites entiers

Page 17: Mise en place d’un portail de veille avec ActiveWatch

17

L’Université Arisem 

4. Élaboration d’un arbre de classement et diffusion de l’information

Déterminer la vue logique, espace de représentation et d’organisation du corpus.

2Class

Quelle navigation dans le corpus ?

- objectif « documentaire » ou « de veille » ? - vision partagée par l’entreprise ou personnelle ? - degré de complexité du projet ?

Maturité du projet :

- arbre de classement évolutif ou figé ? - public utilisateur de l’arbre de classement ?

La démarche de veille avec AW en 4 étapes

Prise en compte du Feed-back des utilisateurs

Page 18: Mise en place d’un portail de veille avec ActiveWatch

18

L’Université Arisem 

Une parfaite maîtrise des objectifs et une problématique clairement définie ...

pour une mise en œuvre technique rapidement opérationnelle et efficace

- la cohérence de l’arbre de classement (2Class)

- la spécialisation et actualisation du langage d’analyse

(2MS)

- la finesse et l’exhaustivité des WebSources (2Crawl)

- pourquoi souhaitez-vous effectuer une veille sur ce thème ?

- à qui sont destinées les informations de cette veille ?

- quel est le thème générique sur lequel est axée votre veille ?

- quels en sont les sous-domaines identifiés ?

- quels sont les résultats attendus ?

Méthodologie de mise en oeuvre

Quelques questions incontournables :

Des éléments de réponses efficaces, pour définir :

Page 19: Mise en place d’un portail de veille avec ActiveWatch

19

L’Université Arisem Méthodologie de mise en oeuvre

Quelques outils pour initier la démarche

• Progress4U, un espace d’explicitation

- Un tableau d’explication et d’argumentation littéraire des principaux axes (notions, expressions) de la thématique (concepts clés et termes de la langue illustrant les divers enjeux du thème)

- Une décomposition progressive de chaque idée pour extraire les concepts principaux, le vocabulaire (pour confronter ce premier capital à l’existant de la base de connaissance en vue de son enrichissement.)

• GoOn4U, un espace d’agencement

des items de couleurs, représentatifs des nœuds de différents niveaux d’un arbre de classement, à agenceragencer, par copier/coller sur un espace de travail, et à intitulerintituler aux thèmes de la problématique générale traitée par l’arbre

Page 20: Mise en place d’un portail de veille avec ActiveWatch

20

L’Université Arisem Méthodologie de mise en oeuvre

Mais aussi …• Collecte de l’existant :

- Documents illustrant la thématique

- (Thesaurus)

- Sources spécialisées identifiées (documents, Urls, …)

• Définition des rôles

Experts

Marketing

Juridique

Commercial

Technologique

AnimateursAdministrateurs

BU

Délimitation des rôles

Gestion et paramétragede la solution

Utilisationde la solution

Page 21: Mise en place d’un portail de veille avec ActiveWatch

21

L’Université Arisem 

Permetde

Accéder à l’information pertinenteIdentifier les compétences internes

Rester au contact des évolutionsEtre informé de façon ponctuelle

Rendre compte de la diversité

Enrichir la base de connaissanceMettre en oeuvre des WebSources de veille InternetConstruire des arbres de classement thématiques

Permetde

A pourcharge

Mise à jour de la base de connaissanceAlimentation des WebSources de veille

Repérage et intégration des sources internesMise en ligne des arbres de classement

Audit et maintenance de la solution

L’animateurL’administrateur

ont pourcharge

Explication des thèmes de veilleExpression des besoins en information

Production d ’information interne spécialiséeSurveillance qualité du fond informationnel

Commentaire du fond informationnel

Les experts

Méthodologie de mise en oeuvre

Comment sera utilisé l’outil ?

Page 22: Mise en place d’un portail de veille avec ActiveWatch

22

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 23: Mise en place d’un portail de veille avec ActiveWatch

e-commerce

Sites Web documentaires

Marketplaces e-catalogs

OpenPortal4U

Web Édition

OpenPortal4U Entreprise EditionOpenPortal4U Entreprise Edition

ActiveWatch Dynamic

Knowledge

CorporateMedia

L4UL4UModèle ObjetModèle Objet

Composants fonctionnelsComposants fonctionnels

Page 24: Mise en place d’un portail de veille avec ActiveWatch

24

L’Université Arisem 

L’utilisation de la sémantique est au cœur des produits Arisem.

Introduction à l’analyse sémantique

Une base de connaissance multilingue (Français, Anglais, Allemand, Espagnol) permet d’identifier le contenu d’un document

Le moteur d’analyse sémantique fournit une représentation conceptuelle d’un document et le qualifie

- L4U (« Language for you »), le moteur d’analyse sémantique- 2MakeSense, l’éditeur de base de connaissance

Présentation générale

Page 25: Mise en place d’un portail de veille avec ActiveWatch

25

L’Université Arisem 

TexteTexte MétatexteMétatexte

Le Métatexte :Le Métatexte : une représentation désambiguïsée du contenu d’un texte

[&échec*échec #échec $Echouer µNom $Problème $ChoseAbstraite $Chose &du *du µArticle &tir *tir #tir &inaugural

L'échec traumatisant du vol inaugural du 4 juin 1996 ? Assimilé, digéré. Les problèmes techniques du deuxième lancement ? Réglés. Les modifications apportées au moteur Vulcain de l'étage principal cryotechnique ajoutées?

Génération d’un méta-texte à partir d’un texte (document, requête)

Page 26: Mise en place d’un portail de veille avec ActiveWatch

26

L’Université Arisem 

1- Lectures Q / D

1- Lectures Q / D

2- Écriture métatextes2- Écriture métatextes

3- ComparaisonMétatextes

3- ComparaisonMétatextes

75/1075/105 Calcul de pertinence5 Calcul de pertinence

Extrait pertinentExtrait

pertinent6 Édition

d’un abstract6 Édition

d’un abstract

L4UL4U

4- Évaluationrecouvrement4- Évaluationrecouvrement Note de

pertinence

L4U élabore le Métatexte du document (D) et de la question (Q) et les compare

Le rôle de L4U : l’analyseur sémantique

QuestionQuestion DocumentDocument

Page 27: Mise en place d’un portail de veille avec ActiveWatch

27

L’Université Arisem 

QualitéQualité

DensitéDensité

Une note en 2 indices 75/1075/10

le degré de précision avec lequel le thème est exprimé dans le document

le degré de présence du thème dans le document, par rapport à l’ensemble des autres thèmes ou sujets contenus dans le document

Qualité DensitéLa note de pertinence

Comment ?

Combien ?

Page 28: Mise en place d’un portail de veille avec ActiveWatch

28

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 29: Mise en place d’un portail de veille avec ActiveWatch

e-commerce

Sites Web documentaires

Marketplaces e-catalogs

OpenPortal4U

Web Édition

OpenPortal4U Entreprise EditionOpenPortal4U Entreprise Edition

ActiveWatch Dynamic

Knowledge

CorporateMedia

Espaces personnels des UtilisateursSécurité

Administration des agents

Espaces personnels des UtilisateursSécurité

Administration des agents

L4UL4UModèle ObjetModèle Objet

Composants fonctionnelsComposants fonctionnels

Page 30: Mise en place d’un portail de veille avec ActiveWatch

30

L’Université Arisem 

Utilisateur et son espace personnel

• Tout utilisateur est représenté par un agent dans le système

• Chaque utilisateur a son environnement de travail

• Il contrôle ses propres objets de travail :• Arbres de classement, • Sources d’information, listes d’Urls

Page 31: Mise en place d’un portail de veille avec ActiveWatch

31

L’Université Arisem 

Les utilisateurs du système

Espace personnel de l’utilisateur

Espace commun de tous les utilisateurs

Page 32: Mise en place d’un portail de veille avec ActiveWatch

32

L’Université Arisem 

Objets des utilisateurs

• L’utilisateur a un espace privilégié pour déposer ses documents.

• Il peut en plus créer ses objets de travail à base de ces documents (recherches sur le web, arbre de classement)…

Page 33: Mise en place d’un portail de veille avec ActiveWatch

33

L’Université Arisem 

BookmarkBookmarkList

Un Bookmark

Page 34: Mise en place d’un portail de veille avec ActiveWatch

34

L’Université Arisem 

PoubelleUne seule poubelle - 2 vues différentes :

• une poubelle personnelle, contenant les seuls objets que

l’utilisateur connecté aura détruit ;• une vue présentant la poubelle générale, contenant

l’ensemble des objets détruits par tous.

Un objet mis à la poubelle n’est pas détruit de manière

permanente, il peut être restauré depuis la poubelle.

2 options sont proposées : • le restore • la destruction définitive

La poubelle est un Agent en soit (on peut gérer sa

puissance, la mettre en tâche de fond, l’arrêter/redémarrer ).

Note : Si l’objet contenu dans la poubelle n’est pas détruit, le nouvel objet crée (au même emplacement) de même nom, s’incrémentera d’un (1), (2), (3), etc… selon le nombre d’objet existant de même nom.

Page 35: Mise en place d’un portail de veille avec ActiveWatch

35

L’Université Arisem 

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Plan de la formation

Page 36: Mise en place d’un portail de veille avec ActiveWatch

36

L’Université Arisem 

Les Agents

• Un agent gère l’activité d’un process

• Un objet du système peut avoir un agent

• Un agent permet d’attribuer un comportement dynamique à un objet du système.

• Puissance répartie travail en tâche de fond

Zoom sur les outils / Les agents

Page 37: Mise en place d’un portail de veille avec ActiveWatch

37

L’Université Arisem 

2 types d’agents :

• Agent simple : qui travaille (col bleu).

Exemple : un Feeder

• Agent-manager : gère l’activité des autres agents (col blanc)

Exemple : l’Agent d’un User

Les agents

Zoom sur les outils / Les agents

Page 38: Mise en place d’un portail de veille avec ActiveWatch

38

L’Université Arisem 

Agent ? (2)

Un exemple avec les arbres de classement :

Zoom sur les outils / Les agents

Page 39: Mise en place d’un portail de veille avec ActiveWatch

39

L’Université Arisem 

Architecture des agents

• Le système (openportal.exe) coordonne des différents Agents.

OpenPortal

Recyclage des documents

Alimentation des sources

Classementdes documents

Zoom sur les outils / Les agents

Page 40: Mise en place d’un portail de veille avec ActiveWatch

40

L’Université Arisem 

Hiérarchie des Agents

• Les agents sont hiérarchisés• Un agent

– est contrôlé par un Agent père– contrôle un Agent fils

Zoom sur les outils / Les agents

Page 41: Mise en place d’un portail de veille avec ActiveWatch

41

L’Université Arisem 

Puissance des Agents

• Pour chaque Agent est définie une puissance (power)

• Cette puissance dépend de son agent père et de ses frères

Zoom sur les outils / Les agents

Page 42: Mise en place d’un portail de veille avec ActiveWatch

42

L’Université Arisem 

Calcul de la puissance

Universe

KMUser [100] ( 0,9%)

KMCommunity [10000] (90%)

UrlAccess [1000] (9%) 11100

Fred [5000] (45% de 0.9%)Cat [6000] (55% de 0.9%)

Zoom sur les outils / Les agents

Page 43: Mise en place d’un portail de veille avec ActiveWatch

43

L’Université Arisem 

En détails

Zoom sur les outils / Les agents

Page 44: Mise en place d’un portail de veille avec ActiveWatch

44

L’Université Arisem 

Interface d’administration

Zoom sur les outils / Les agents

Page 45: Mise en place d’un portail de veille avec ActiveWatch

45

L’Université Arisem 

Questions

• Si le fils a une puissance supérieure au père que se passe-t-il ?– Question-piège. La puissance est relative (par

rapport à celle du père considérée comme 100%)

• Quelle est la puissance maximale possible ?– 10.000

Zoom sur les outils / Les agents

Page 46: Mise en place d’un portail de veille avec ActiveWatch

46

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 47: Mise en place d’un portail de veille avec ActiveWatch

47

L’Université Arisem 

2Crawl2Crawl est le module d’exploration du web, qui découvre et surveille les documents provenant de l’Internet.Il est piloté par l’Agent CrawlSequencer.

- Un ensemble de page valides et pertinentes, stockées en local, disponibles pour être ventilées dans un arbre de classement.

RésultatsRésultats

Principe de fonctionnementPrincipe de fonctionnement

• De points de départ vers des sites/moteurs : les gateways

• Une question sémantique (query) pour filtrer les résultats pertinents

• des agents d’exploration du Web (Feeders), basés sur les URL

- L’utilisateur établit des profils de recherche : les WebSources

- Ces WebSources sont composés :

Zoom sur les outils / 2Crawl

Page 48: Mise en place d’un portail de veille avec ActiveWatch

48

L’Université Arisem 

doc.www.int.

www.int.

doc.nwww.int.

www.int.

doc.2www.int.

www.int.

doc.3www.int.

www.int.

doc.www.int.

www.int.

SimultanémentN documents

Le crawling est interrompu

doc. nonpertinent

doc.4www.int.

www.int.

ParticularitésParticularités

Le crawling consiste à suivre les liens hypertextes contenus dans les pages de résultat identifiées comme pertinentes

- La découverte de documents est optimisée par la capacité de crawling de l’outil

Le web non indexé par les moteurs de recherche est

ainsi couvert et exploré de manière efficace (exploration

pilotée par la pertinence)

Zoom sur les outils / 2Crawl

Page 49: Mise en place d’un portail de veille avec ActiveWatch

49

L’Université Arisem 

Paramétrage d’une WebSource

WebSource

FeederGateway

s’appuie sur s’appuie sur

Objet personnel actif

Est composé de :

- query (requête)

- keywords (mots-clés)

- feeder

Types de gateway :- ParamURL (moteur)- One URL (URL simple)- serveur de mails (à venir)- serveur de news (à venir)

Objet personnel actif

Est composé de :

- gateway

On peut suivre son activité

Objet standard passifEst composé de :

- URL (+ paramètres)

Zoom sur les outils / 2Crawl

Page 50: Mise en place d’un portail de veille avec ActiveWatch

50

L’Université Arisem 

Des Mots-clés pour obtenir des pages réponses

Une gateway à attaquer (moteur Altavista)

Les pages réponses pour la WebSource triées par pertinence

La question sémantique pour filtrer les réponses renvoyées par les moteurs

Zoom sur les outils / 2Crawl

Page 51: Mise en place d’un portail de veille avec ActiveWatch

51

L’Université Arisem Zoom sur les outils / 2Crawl

2 questions sémantiques (query) différentes :

Query du feeder

Query de la WebSource

• pour crawler (suivre les liens)

• pour garder les documents

La query du feeder peut être moins exigeante.

Page 52: Mise en place d’un portail de veille avec ActiveWatch

52

L’Université Arisem Zoom sur les outils / 2Crawl

Paramétrage d’une WebSource (2)

 - Si rien n’est mis au niveau du feeder : pas de keywords et pas de query de crawling : reprise des keyword de la websource reprise de la query de la websource avec seuils divisés par deux.  - Si query au niveau du feeder mais pas de keyword : query affectée comme keyword.

Attention : les keyword définis au niveau de la Websource ne sont pas repris au niveau du feeder, c’est la query du feeder qui fait office de keyword.

- Si des keywords spécifiques sont déclarés au niveau des Feeders et qu’il existe des keyword au niveau WebSource, les keywords déclarés au niveau du feeder sont bien pris en compte ( pas de cumul avec les keyword de la WebSource).

Query & Keywords de la websource VS Query & Keyword des feeders :

Page 53: Mise en place d’un portail de veille avec ActiveWatch

53

L’Université Arisem 

Administration du crawling

• paramétrer la WebSource

• allumer l’agent de la WebSource

• allumer l’agent du feeder

• allumer l’agent de votre User

• allumer l’agent de Crawl Sequencer

• vérifier qu’OP est allumé.

Pour lancer le crawling :

Zoom sur les outils / 2Crawl

Page 54: Mise en place d’un portail de veille avec ActiveWatch

54

L’Université Arisem 

Administration du crawling (2)

Si vous êtes seul à travailler sur le serveur :

• Pour accélérer le traitement des Urls déjà téléchargées (downloaded) et freiner ou arrêter le recensement de candidates en attente (waiting) il faut arrêter le Crawl Sequencer.

• Une fois que la pile des URL téléchargées (downloaded) aura été entièrement dépilée, il faut relancer le Sequencer pour réactiver le passage des downloading et dowloaded.

Pour privilégier l’analyse à la recherche :

Note : le nombre de candidats en chargement (downloading) est limité à 100.

Zoom sur les outils / 2Crawl

Page 55: Mise en place d’un portail de veille avec ActiveWatch

55

L’Université Arisem 

Administration du crawling (3)

Si vous êtes plusieurs à travailler sur le même serveur :

1. Accélérer le traitement des URLs déjà téléchargées (downloaded) augmenter la puissance de la Websource (puissance maximale d’un worker 10 000) augmenter la puissance des Agents pères : User (ex : 5000) / KMUserFolder (ex : 10 000) (dépendances des agents : un agent père contrôle ses agents fils)

 2. Ralentir l’entrée de candidats (waiting/downloading)

baisser la puissante de chaque feeder collecteur de candidats

Pour privilégier l’analyse à la recherche :

Zoom sur les outils / 2Crawl

Page 56: Mise en place d’un portail de veille avec ActiveWatch

56

L’Université Arisem 

Créer sa gateway

Pour créer une gateway de type ParamURL :- La créer dans sa WebSource être positionné sur un Folder

Pour créer une gateway de type OneURL :

- La créer dans un bookmark (http)

Page 57: Mise en place d’un portail de veille avec ActiveWatch

57

L’Université Arisem 

Créer sa gateway (2)

Pour créer une gateway de type ParamURL :• Faire plusieurs recherches sur le moteur en question• Noter les URL résultantes• Répérer la partie commune des URL• Remplacer le mot-clé par $keyword$.

Page 58: Mise en place d’un portail de veille avec ActiveWatch

58

L’Université Arisem 

Global URLFilter to crawl

Zoom sur les outils / 2Crawl

Objectif : ne pas retenir les pages des sites « polluants ».

Page 59: Mise en place d’un portail de veille avec ActiveWatch

59

L’Université Arisem 

Global URLFilter to keep

Zoom sur les outils / 2Crawl

Objectif : ne pas retenir les pages de résultats des moteurs (mais les pages finales des sites dédiés à la thématique).

Page 60: Mise en place d’un portail de veille avec ActiveWatch

60

L’Université Arisem 

URLFilter

Zoom sur les outils / 2Crawl

• WebSource URLFilter

Cela s’applique t-il seulement à ma websource ?

ex : voila/chaines/chat/…..

Cela peut-il s’appliquer à plusieurs Websources (Global) ?

ex : moteur.voila.fr/S/….

• Global URLFilter

Cela peut-il s’appliquer au feeder en général ?

ex : voila/chaine/

• Feeder URLFilter

Faire le choix : 3 niveaux :

Page 61: Mise en place d’un portail de veille avec ActiveWatch

61

L’Université Arisem 

Réaccès No 404

Zoom sur les outils / 2Crawl

SITEWEB

Changementssémantiques

Mise à jour du miroir du WEB

Ré-accèspériodique

ParticularitésParticularités

- La fraîcheur des URLs est contrôlée périodiquement grâce au ré-accès

WebSource

Page 62: Mise en place d’un portail de veille avec ActiveWatch

62

L’Université Arisem 

Réaccès No 404 (2)

• L’activité de reaccess est piloté par l’Agent « No 404 »• Par défaut, toutes les Websources actives voient leurs URLS

soumises au reaccess, si l’agent « No404 » est démarré. • Le reaccess s’applique à toutes les Websources. • L’ancienne version du document dans le Mirror est écrasée par

la plus récente.• Le Span time (écart entre 2 reaccess sur un document = mise

à jour dans X temps) est à fixer en secondes pour chaque

WebSource (onglet Reaccess de la WebSource).

Astuce : pour metre une WebSource en réaccès sans crawling :• démarrer l’agent de la WebSource,• démarrer l’agent « No404 »,• arrêter le feeder de la WebSource.

Zoom sur les outils / 2Crawl

Page 63: Mise en place d’un portail de veille avec ActiveWatch

63

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 64: Mise en place d’un portail de veille avec ActiveWatch

64

L’Université Arisem 

2Class

• Représentation Arborescente : Arbre de Classement– Organisation par raffinement– Les nœuds ou catégories définissent le

mode de sélection des documents

Zoom sur les outils / 2Class

Page 65: Mise en place d’un portail de veille avec ActiveWatch

65

L’Université Arisem 

Classification des documents

• Le processus automatique de classification (percolation) :– Placer les documents dans une ou plusieurs

catégories (au besoin)– Qualifier les documents classés

Zoom sur les outils / 2Class

Page 66: Mise en place d’un portail de veille avec ActiveWatch

66

L’Université Arisem 

2Class permet de construire un espace d’information qualifié, en proposant des arborescences d’accès « à la Yahoo » sur un fond d’information.

-L’utilisateur construit son arbre d’information

-Des sources d’information sont « branchées » sur l’arbre et alimentent en continu l’arbre de classement

- Les documents sont répartis automatiquement et de manière non exclusive dans chaque partie et sous-partie de l’arbre en fonction des contraintes d’entrées/sorties définies au niveau de chaque nœud de l’arbre.

- Ce classement est fait grâce à une analyse sémantique multilingue des textes.

- Les utilisateurs partagent et accèdent, depuis leur navigateur, à l’information utile sur le thème donné, selon une vision structurée

Principe de fonctionnementPrincipe de fonctionnement

RésultatsRésultats

Zoom sur les outils / 2Class

Page 67: Mise en place d’un portail de veille avec ActiveWatch

67

L’Université Arisem 

Terminologie

Nœud Fils :Nœud de niveau inférieur Nœud Père :Nœud de niveau supérieur contenant un fils Nœud Racine : Nœud d’entrée de l’arbre de classement Nœud Terminal : Nœud collecteur de document qui ne contient pas de nœud fils

[Schéma] de percolation :Ensemble des contraintes posées au niveau de chacun des nœuds de l’arbre de classement qui vont déterminer le routage et le classement final des documents

Zoom sur les outils / 2Class

Page 68: Mise en place d’un portail de veille avec ActiveWatch

68

L’Université Arisem 

Un arbre de classement est une succession arborescente logique de thèmes et sous-thèmes

Mammifères

Chiens

Chats

Animaux

Un thème est un nœud en soit.

Un thème générique par rapport à des sous-thèmes est dit nœud père, par rapport à des nœuds fils.

Ex : nœud père - Mammifèrenœuds fils - Chien; Chat

Cette appellation est relative : le nœud Mammifère est en même temps un nœud fils par rapport au nœud Animaux.

Zoom sur les outils / 2Class

Page 69: Mise en place d’un portail de veille avec ActiveWatch

69

L’Université Arisem 

Mammifères

Chiens

Chats

Animaux

Le classement automatique des documents se fait en fonction des contraintes posées au niveau de chaque nœud de l’arbre

(configuration des nœuds)

Les contraintes sont de type :

sémantique (contenu) * requête conceptuelle

« booléene » : * langue du document* date (à venir)* autres … (champs)

Zoom sur les outils / 2Class

Page 70: Mise en place d’un portail de veille avec ActiveWatch

70

L’Université Arisem 

Paramétrage de l’arbre

2 options : simple et avancée

Zoom sur les outils / 2Class

La description sert de mot-clé

Plusieurs étapes, la question sémantique est précisée explicitement, ainsi que la stratégie de percolation.

Wizard de création de nœuds

Note : Il est conseillé au début de suivre le mode simple, le paramétrage pouvant être ajusté ensuite.

Page 71: Mise en place d’un portail de veille avec ActiveWatch

71

L’Université Arisem 

L’administrateur dispose de 3 possibilités :

- Essayer de passer d’abord- Essayer de garder d’abord- Essayer de passer et de garder

Un nœud effectue toujours 2 traitements : Pour Garder / Pour Passer. L’un D’abord, l’autre Ensuite !

D’abord ? Ensuite …

La commande Fonctionnement pilote les 2 activités d’un nœud, composée d’un

- Pour Garder

- Pour Passer

Zoom sur les outils / 2Class

Page 72: Mise en place d’un portail de veille avec ActiveWatch

72

L’Université Arisem 

Les documents sont soumis au nœud

1

Ces pages sont ensuite analysées et filtrées à la lumière de la question sémantique du nœud

2

1

2

3 Conservation des URL pertinentes pour le nœud

3

Zoom sur les outils / 2Class

Page 73: Mise en place d’un portail de veille avec ActiveWatch

73

L’Université Arisem 

Pour chaque nœud de l’arbre, l’administrateur du système définit également les contraintes de circulation des documents entre les

noeudsIl décide du rapport de dépendance devant exister entre les différents nœuds de l’arbre

(ex : préfiltrage d’un fils par le père ; isoler les documents non classés)

Dans tous les cas il organise le système de percolation de manière à retenir des documents au niveau des nœuds spécifiques (dits nœuds fils)

Exemple : Les nœuds de niveau Père peuvent servir à pré-filtrerpré-filtrer les documents en fonction de leur contenu pour leurs Fils

Des items identiques

au sein d’un même

arbre

Des points de vue différents = des

préfiltrages différents

Zoom sur les outils / 2Class

Page 74: Mise en place d’un portail de veille avec ActiveWatch

74

L’Université Arisem 

Essayer de garder d’abord

Configuration courante d’un nœud terminal

Illustration de la percolation

Page 75: Mise en place d’un portail de veille avec ActiveWatch

75

L’Université Arisem 

Les documents qui n’ont pu être classés au niveau du fils remontent pour être soumis au père

Nœud Père

Nœud Fils

Essayer de passer d’abord

Illustration de la percolation

Page 76: Mise en place d’un portail de veille avec ActiveWatch

76

L’Université Arisem 

Nœud Fils

Nœud Père

Les documents admis dans les nœuds fils sont également classés dans les nœuds pères

11

ABC

AA

Distribution du document

A

A

Essayer de passer et de garder

Illustration de la percolation

Page 77: Mise en place d’un portail de veille avec ActiveWatch

77

L’Université Arisem 

Les documents refusés ou conservés au niveau d’un nœud sont également soumis aux autres nœuds de l’arbre…

… en percolant dans l’arbre selon les critères de circulation et de filtrage définis

… ce qui permet qu’un document soit classé dans plusieurs nœuds de l’arbre

A

A

f Parcours d’un document dans l’arbre

Illustration de la percolation

Page 78: Mise en place d’un portail de veille avec ActiveWatch

78

L’Université Arisem 

Test de la question sémantique

Test directement à partir de l’interface de paramétrage de noeud

Note : il est conseillé de toujours tester sa question sémantique dans la base de connaissance

Zoom sur les outils / 2Class

Page 79: Mise en place d’un portail de veille avec ActiveWatch

79

L’Université Arisem 

Administration de percolation

Pour lancer la percolation :

• paramétrer l’arbre

• allumer l’agent de l’arbre

• allumer l’agent de votre User

• allumer l’agent OPclass.exe

• vérifier qu’OP est allumé.

Zoom sur les outils / 2Class

Page 80: Mise en place d’un portail de veille avec ActiveWatch

80

L’Université Arisem 

TreeCross2 arbres, les documents appartenant aux 2 catégories, 2 extraits pertinents, 2 notes de pertinence :

Page 81: Mise en place d’un portail de veille avec ActiveWatch

81

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 82: Mise en place d’un portail de veille avec ActiveWatch

82

L’Université Arisem 

2MakeSense : l’éditeur de base de connaissance

Zoom sur les outils / 2MS

Une base évolutive propre à la culture de l’entreprise, ses projets, son environnements (concurrents, technologies,…)

2MakeSense permet d’éditer et d’enrichir des bases de connaissance qui permettent au système d ’appréhender le sens d’un texte

base de connaissances

Surcouche domainespécifique

Surcouche domainespécifique

KB [Knowledge Base] : la base de connaissance

Une représentation des objets de la langue encodée sous forme de concepts et de relations de sens entre ces concepts

Page 83: Mise en place d’un portail de veille avec ActiveWatch

83

L’Université Arisem 

Lexicalisés (les différentes formes d’expressions de l’idée dans un texte)concept : voilierlexicalisation : bateau à voile, voilier

Fléchis (singulier, pluriel, masculin, féminin, conjugaisons)

Hyperonymes (est une sorte de…) :un chat est une sorte d’animal

Idée associée :le miaulement est une idée associée au chat

2MakeSense propose un modèle de représentation sémantique de la connaissance, autour de :

ConceptsConcepts

Relations entre les conceptsRelations entre les concepts

Zoom sur les outils / 2MS

Page 84: Mise en place d’un portail de veille avec ActiveWatch

84

L’Université Arisem 

Les lexicalisations

Le concept

La liste des concepts

Zone de test d’analyse d’un texte

Relations sémantiques

Zoom sur les outils / 2MS

Page 85: Mise en place d’un portail de veille avec ActiveWatch

85

L’Université Arisem 

Place de la KB dans ActiveWatch

Constituer un corpus

Expliciterune thématique

Définir un univers textuel

Publierdans un portail

2Crawl2Crawl 2MakeSense2MakeSense

L4UL4U

2Class2Class

Page 86: Mise en place d’un portail de veille avec ActiveWatch

86

L’Université Arisem 

Prise en compte des mises à jour de la KB par 2Crawl

Il existe actuellement 2 modes :

• 2Crawl fait appel à la base SQL directement (AdressType = 1)

1. exporter la base de connaissance à chaque fois qu’elle a été modifiée

2. Arrêter / redémarrer OP

• 2Crawl fait appel à un fichier KB.k4u (AdressType = 0)

2. Arrêter / redémarrer OP

1. Bouton Refresh KB :

Page 87: Mise en place d’un portail de veille avec ActiveWatch

87

L’Université Arisem 

Prise en compte des mises à jour de la KB par 2Class

Pour que les modifications effectuées dans la KB soient prises en compte par 2Class, il est nécessaire :

• d’exporter la base de connaissance à chaque fois qu’elle a été modifiée (à la fin de la journée, par exemple)

• arrêter / redémarrer 2Class :

• réinjecter les documents précédemment classés.

Page 88: Mise en place d’un portail de veille avec ActiveWatch

88

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 89: Mise en place d’un portail de veille avec ActiveWatch

89

L’Université Arisem 

Plan de la partie

• Identification auprès du système

• Sécurité– Présentation générale– La visibilité sur les objets– Les rôles

• Création d’utilisateurs, de groupes

Page 90: Mise en place d’un portail de veille avec ActiveWatch

90

L’Université Arisem 

Sécurité

• Ne se « log » pas qui veut

• Droits d’accès différents en fonction des types d’utilisateurs

• Gestion par rôlesSi un acteur du système ne rentre pas

dans un rôle précis, il ne peut effectuer certaines tâches dans OpenPortal4U™

Page 91: Mise en place d’un portail de veille avec ActiveWatch

91

L’Université Arisem 

La sécurité

Objet

Rôle Visibilité

Utilisateur

Groupes Visibilité

Page 92: Mise en place d’un portail de veille avec ActiveWatch

92

L’Université Arisem 

La visibilitéSystem

Dev

Admin

EndUser

Anonymous

Page 93: Mise en place d’un portail de veille avec ActiveWatch

93

L’Université Arisem 

La visibilité (2)Visibilité de l’utilisateur

Visibilité d’un objet

Page 94: Mise en place d’un portail de veille avec ActiveWatch

94

L’Université Arisem 

Les rôles

• Les utilisateurs peuvent réaliser certaines actions sur les objets du système.

• Ces actions sont matérialisées par des rôles.• Pour chaque Objet il y a 3 rôles

– Viewer (consulter)– Destructor (détruire)– Editor (modifier)

• Un utilisateur ne pourra réaliser une action sur un objet que s’il est enregistré dans un rôle de cet objet.

Exemple : pour donner droit à M.X de voir votre arbre, il faut aller sur cet arbre.

Page 95: Mise en place d’un portail de veille avec ActiveWatch

95

L’Université Arisem 

Les rôles (2)

Page 96: Mise en place d’un portail de veille avec ActiveWatch

96

L’Université Arisem 

Les rôles (3)

Page 97: Mise en place d’un portail de veille avec ActiveWatch

97

L’Université Arisem 

Création d’utilisateurs

• Création d’un compte utilisateur

Page 98: Mise en place d’un portail de veille avec ActiveWatch

98

L’Université Arisem 

Création d’utilisateurs (2)

• Paramétrage du compte utilisateur

Page 99: Mise en place d’un portail de veille avec ActiveWatch

99

L’Université Arisem 

Les groupes

• Les utilisateurs appartiennent à des groupes– Des rôles particuliers sont associés à un

groupe donné

• Les groupes sont hiérarchisés

Page 100: Mise en place d’un portail de veille avec ActiveWatch

100

L’Université Arisem 

Page 101: Mise en place d’un portail de veille avec ActiveWatch

101

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 102: Mise en place d’un portail de veille avec ActiveWatch

102

L’Université Arisem 

Réalisation d’un portail de veille sur le Commerce Electronique

Chronologie des différentes étapes de réalisation

Travail préliminaire

Utilisation des outils

• Définition du Thème (aspects à aborder, documents attendus)

• Définition des différents sous-thèmes (structuration et vocabulaire)

• Construction d’un arbre de classement à partir du travail de définition

1

2

3

Évaluation de l’existant et 1er niveau de renseignement de la base

de connaissance

Repérage et collecte d’information (paramétrage d’une

WebSource)

Paramétrage du classement automatique des documents

Évaluation des résultats

Affinage, optimisation

4

5

6

7

8

Traitement d’un cas concret

Page 103: Mise en place d’un portail de veille avec ActiveWatch

103

L’Université Arisem 

Un travail de définition/délimitation du thème de recherche, de l’objectif du portail, des documents attendus

Objectif de ce travail : cerner clairement la problématique, isoler les idées clés, définir des sous-thèmes

11

Définition & problématiqueDéfinition & problématique

Commerce électronique :

Quels sont les secteurs du marché en ligne ? Les modalités ? Quels sont les

acteurs en France et à l’étranger ? Les services annexes ? Où en est la réglementation ?

Traitement d’un cas concret

1- définir la structure globale de l’arbre de classement (cohérence et adéquation aux besoins)

2- orienter les WebSources (finesse et exhaustivité : mots-clés, sources)

3- évaluer et affiner les résultats selon l’axe attendu

Un travail utile POUR :

Page 104: Mise en place d’un portail de veille avec ActiveWatch

104

L’Université Arisem 

Résultante de ce travail de définitionRésultante de ce travail de définition

Quatre grandes idées clés

• Secteurs concernés (grande consommation, finances, immobilier, services à domicile…)

• Modalités : Enchères en ligne / Achats groupés / payement sécurisé…

• Législation (confidentialité, protection du consommateur…)

• Acteurs (net-compagnies)Quatre grandes idées clés = Quatre grands thèmes dans l’arbre de classement

1 - Produits

2 - Modalités

3 - Réglementation

4 – Net-compagnies

Traitement d’un cas concret

22

Page 105: Mise en place d’un portail de veille avec ActiveWatch

105

L’Université Arisem 

Un travail de redéfinition de idées clés du plan (grands thèmes)

Objectif de ce travail : lister le lexique professionnel relatif au projet

Définition des différents sous-thèmes / Définition des différents sous-thèmes / Mots-clés retenus

Secteurs / Modalités / Législation :- Grande consommation

- Modalités

- Réglementation

- Net-compagnies

Alimentation, Hi-Fi, voyages…

Payement électronique, achats groupés…

Ministère d’économie, CEE…

net-compagnie…

Traitement d’un cas concret

Un travail utile POUR :

- tester l’existant dans la base de connaissance et identifier les nouveaux concepts clés à introduire

- définir les mots-clés pour la WebSource

22

Page 106: Mise en place d’un portail de veille avec ActiveWatch

106

L’Université Arisem 

Construction d’une arborescence structurée à partir du travail de définition de la recherche (thème, sous-thèmes)

Le travail de définition permet de définir l’ossature de l’arbre de classement

L’important étant de valider cette structure auprès des utilisateurs finaux afin de couvrir correctement leurs besoins

Définition de l’arbre puis mise en œuvre avec 2Class

Traitement d’un cas concret

33

Celui-ci peut être entièrement pré-défini dans sa structure fine (ensemble des sous-thèmes précis) ET/OU déroulé en fonction du corpus

Page 107: Mise en place d’un portail de veille avec ActiveWatch

107

L’Université Arisem 

Le thème de la recherche est-il déjà défini dans la base de connaissance ?

Traitement d’un cas concret

44

Page 108: Mise en place d’un portail de veille avec ActiveWatch

108

L’Université Arisem 

Concepts associés au Commerce électronique

Traitement d’un cas concret

44

Page 109: Mise en place d’un portail de veille avec ActiveWatch

109

L’Université Arisem 

Dans cet exemple le 1er niveau de connaissance est assuré. Il n’est pour l’instant pas nécessaire d’affiner plus avant.

La base sera complétée en fonction des résultats produits par le système.

Mieux vaut compléter la base de connaissance progressivement, de manière pragmatique, plutôt que de vouloir d’emblée décrire l’ensemble du domaine (du projet)

Les résultats permettront de préciser de manière pragmatique sur quels points la base de connaissance nécessite d’être enrichie.

Note : Si cela n’avait pas été le cas, il aurait été nécessaire d’expliciter et désambiguïser à un premier niveau la notion de commerce électronique (convoquer ou créer les idées de net-compagnie, de marketing Online, etc …)

Traitement d’un cas concret

44

Page 110: Mise en place d’un portail de veille avec ActiveWatch

110

L’Université Arisem 

1

2

3

1 Collecte dans une WebSourceAnalyse du document suivant les critères sémantiques

2

3 Conservation des URL pertinentes pour la WebSource

Créer sa WebSourceCréer sa WebSource

Traitement d’un cas concret

55

Page 111: Mise en place d’un portail de veille avec ActiveWatch

111

L’Université Arisem 

Un travail de paramétrage de l’arbre de classement pour exploiter le corpus de documents

Objectif de ce travail : obtenir une première grille de consultation des documents (documents de la WebSource ventilés dans un arbre)

Configuration du fonctionnement de chaque nœud pour orienter la circulation des documents dans l’arbre

- « essayer de garder d’abord »

- « essayer de passer d’abord »

- « essayer de passer et de garder»

Traitement d’un cas concret

- consulter efficacement les résultats et affiner (kb, structure de l’arbre, spécialisation des WebSources)

Un travail utile POUR :

66

Page 112: Mise en place d’un portail de veille avec ActiveWatch

112

L’Université Arisem 

Organiser le système de percolation pour retenir en priorité les documents au niveau des noeuds «spécialisés », dits nœuds fils.

La plupart du temps il s’agit des nœuds du fond de l’arbre de classement.

Paramétrage de chaque nœud de l’arbre

Traitement d’un cas concret

66

Page 113: Mise en place d’un portail de veille avec ActiveWatch

113

L’Université Arisem 

Méthodologie de paramétrage de percolation

1. Nœud terminal (garder les documents au dernier niveau)

2. Nœud intermédiaire (donner l’accès aux documents à partir du niveau 2-3)

3. Nœud racine (temporairement, nœud-piège pour identifier de nouvelles catégories)

« pour garder »

« pour passer »

« Tout passer » – noeud structurant, pas de filtre :Pays

Europe - pas de filtre, tout passerFrance

Allemagne…

« Passer en filtrant » - affiner le tri, pré-filtrage par le nœud-père.

Page 114: Mise en place d’un portail de veille avec ActiveWatch

114

L’Université Arisem 

L’évaluation des résultats permet :

Les résultats peuvent être affinés en

intervenant sur :- identifier des sources spécialisées

- évaluer les besoins d’enrichissement de la base de connaissance (ajouts)

- envisager des sous-thèmes intéressants à développer /affiner

- réajuster les seuils & les niveaux de filtrage (pré-filtrage inutile par le père direct)

- le focus de la WebSource (sources spécialisées, nouveaux mots-clés)

2Crawl2Crawl

2MS2MS

2Class2Class

- ajouts de lexicalisations, de concepts, de liens, …

- ajouts de nœuds, réorganisation partielle, création de nœuds pièges

Analyse

Collecte

Classification

- enrichir et ajuster la requête sémantique (OR, AND, NEAR)

- rejets manuels

- ajuster la requête sémantique / nettoyer manuellement

Analyse

- régler le volume de résultats Classification

Page 115: Mise en place d’un portail de veille avec ActiveWatch

115

L’Université Arisem 

Peaufinage du classement

Trop de documents dans un nœud :

• Query trop large => affiner

• Seuils trop bas => augmenter

• Définition dans la KB trop large (réseau) => corriger

• Pas de filtre au niveau du père => mettre un filtre

Page 116: Mise en place d’un portail de veille avec ActiveWatch

116

L’Université Arisem 

0 ou pas assez de documents dans un nœud :

• vérifier que le nœud-père n’est pas paramétré en « Ne rien passer »

• La thématique du nœud n’est pas couverte pas les sources => créer une Source spécialisée

• Query trop restrictive => élargir

• seuils trop hauts => baisser la densité

• rien dans la KB ne correspond à la Query => renseigner la KB

Page 117: Mise en place d’un portail de veille avec ActiveWatch

117

L’Université Arisem 

Plan de la formation

1. Présentation générale (OP4U, ActiveWatch™, sémantique, modules)

2. La démarche de veille avec AW en 4 étapes

3. Le mécanisme d’analyse de contenu

4. Présentation des outils mis en oeuvre (fonctions, terminologie)

1. Espace personnel utilisateurs : Arbres, WebSources, Bookmark

2. Administration des Agents

3. 2Crawl : gestion des WebSources

4. 2Class : Arbres de classement

5. Présentation de la Base de la Connaissances, son rôle dans ActiveWatch™

6. Gestion de sécurité : visibilité, rôles

5. Traitement d’un cas concret : le commerce électronique

6. Best practices

Page 118: Mise en place d’un portail de veille avec ActiveWatch

118

L’Université Arisem 

1- Définir clairement la problématique

Définition du thème de recherche (idées clés, thèmes, sous-thème, vocabulaire)

Se munir de documents types illustrant la thématique

Définition, décomposition du thème (Progress4U)

Rassembler les sources spécialisées déjà identifiées

Best Practices

Page 119: Mise en place d’un portail de veille avec ActiveWatch

119

L’Université Arisem 

3- Évaluation de l’existant et enrichissement

Test du thème de la recherche dans 2MS + notions principales

Évaluation du réseau sémantique et des lexicalisations (multilingue)

Enrichissement de 1er niveau seulement (pour désambiguïsation) si nécessaire

2- Définir la structure de l’arbre de classement

Préparation de l’arbre « sur écran Excel »

Valider la structure de l’arbre avec les utilisateurs finaux

Best Practices

Page 120: Mise en place d’un portail de veille avec ActiveWatch

120

L’Université Arisem 

Définir une WebSource

4- Collecte de documents

Les Mots-clés- concernent le thème associé

- pas trop restrictifs

- tester sur quelques moteurs

La question sémantique (query)- générique, représentative du thème

- vérifier la validité de la question dans la KB (copier/coller)

Sources- Choisir des sources appropriées en rapport avec les thèmes du projet ou le type d’informations attendues (sources spécialisées, sources sur les entreprises, news éco, news techniques,…)

Note : une recherche sur des moteurs généralistes peut s’avérer suffisante ou complémentaire (découverte de sources spécialisées)

Best Practices

Page 121: Mise en place d’un portail de veille avec ActiveWatch

121

L’Université Arisem 

5- Paramétrage du classement

Configurer le nœud racine en Garder en Filtrant (sans requête sémantique) pour isoler tous les documents non classés

Configurer les nœuds père en Essayer de Passer d’abord + Garder en Filtrant pour identifier les documents «génériques » d’un sous-thème non classés dans les Fils (plus spécialisés)Note : Ces nœuds pourront ensuite passés en Ne Rien Garder, une fois les informations nécessaires identifiées

Toujours vérifier la validité de la question sémantique dans la base de connaissance

Best Practices

Page 122: Mise en place d’un portail de veille avec ActiveWatch

122

L’Université Arisem 

Fin de la partie théorique

Administration d’ActiveWatch

Pour les travaux pratiques :

réfléchir à la thématique de votre portail !

Vous avez des questions ?