18
Projet Moteur de recherche d’information Indexation et Recherche de l’Information Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Embed Size (px)

Citation preview

Page 1: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

ProjetMoteur de recherche

d’information

Indexation et Recherche de l’Information

ParZEHHAF Ibrahim

HONG LiangPHAM Kim-Toan

Page 2: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Plan de présentation:

Objectif Approche technique Approche fonctionnelle Démo Perspectives

Page 3: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Objectif

• Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER).

1- indexation des termes du corpus dans une base de donné relationnelle.

2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans l’ordre décroissant sur le score de pertinence.

Page 4: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

1- indexation des termes

Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant qu’on ne garde pas tous ce qui est ponctuation (on s’est servie de la colonne CAT)

On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête

Approche technique

Page 5: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Approche technique

Pondération des termes

La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus.

Le poids est calculé par la formule vue en TD:

Wi = tfi * log (dfi/N)

Page 6: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables:

-dictionnaire-mot_fichier_inverse-poids-position-url-urls_sortants

Approche technique

Page 7: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

La table dictionnaire:

Approche technique

Page 8: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de donnéesLa table mot_fichier_inverse

Approche technique

Page 9: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

La table poids:

Approche technique

Page 10: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

La table position:

Approche technique

Page 11: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

La table url

J’attend la nouvelle avec les chemins de fichiers

Approche technique

Page 12: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Architecture de la base de données

La table urls_sortants

Approche technique

Page 13: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Remarque

Le temps d’indexation = pas encore tester sur les 7400 fichiers

Approche technique

Page 14: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

La Recherche

-Script: PHP5

-modèle utilisé : Booléen

-On a créé 2 scripts chacun traitant un type de requête

1-Recherche exacte pour les chaines délimitées par des guillemets, exemple: ’’victoire de la France’’

2-Recherche simple pour les autres requêtes

Approche fonctionnelle

Page 15: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Schéma de fonctionnement

Moteur de recherche d’information

Page 16: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Démo

Page 17: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Moteur de recherche d’information

Démo

Page 18: Projet Moteur de recherche dinformation Indexation et Recherche de lInformation Par ZEHHAF Ibrahim HONG Liang PHAM Kim-Toan

Perspectives 

Plusieurs améliorations sont envisageables afin d’augmenter la pertinence de nos résultats de recherche :

• prendre en compte les textes des balises <a href=’… ’> texte </a>

• implémenter le Page Rank pour pouvoir prendre en compte la célébrité des pages• améliorer les scripts pour avoir un temps de réponse plus petit

Moteur de recherche d’information