5
Projet de fin d'étude pour l'obtention du Diplôme National d'Ingénieur en Informatique Annexe 1 : Étude comparative sur les moteurs de recherche Open Source Société d'accueil : L'Agence Nationale de la Sécurité Informatique (ANSI) Encadré par : Mme Hela KAFFEL BEN AYED (FST) M. Sami MABROUK (ANSI) Année universitaire 2008/2009 Élaboré par : Mohamed BEN BOUZID

Annexe1 éTude Comparative Sur Les Moteurs De Recherche

Embed Size (px)

DESCRIPTION

étude Comparative Sur Les Moteurs De Recherche

Citation preview

Page 1: Annexe1   éTude Comparative Sur Les Moteurs De Recherche

Projet de fin d'étude pour l'obtention du

Diplôme National d'Ingénieur en Informatique

Annexe 1 : Étude comparative sur les moteurs de recherche Open Source

Société d'accueil : L'Agence Nationale de la Sécurité Informatique (ANSI)

Encadré par : Mme Hela KAFFEL BEN AYED (FST)M. Sami MABROUK (ANSI)

Année universitaire 2008/2009

Élaboré par :

Mohamed BEN BOUZID

Page 2: Annexe1   éTude Comparative Sur Les Moteurs De Recherche

Page 2

Étude comparative sur les Moteurs de recherche Open Source

DATAPARKSEARCH SOLR NUTCH

Date première version 27 Novembre 2003 17 Janvier 2006 Juin 2003

Date dernière version 25 Avril.2009 15 Septembre 2008 23 Mars 2009

Version actuelle 4.52 1.3.0 1.0

Système d'exploitation FreeBSD, Linux, Solaris Windows, Linux, Mac, BSD, Unix Windows, Linux, Mac, BSD, Unix

Langage de programmation

C Java Java

Communauté Réduite: Forums, Mailing List, Blogs, Pages Wiki

Active : Forums, Mailing List, patch Très active:Forums, Mailing List, patch, Tutoriels, Astuces, consultants indépendants

offrant une assistance spécialisée.

Licence GNU GPL - Version 2 Apache License 2.0 Apache License 2.0

Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/

Exploration Oui Non Oui

Indexation Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene

Recherche Oui Oui, utilisant les bibliothèques de Lucene Oui, utilisant les bibliothèques de Lucene

Interface Graphique Non Seulement d'administration Oui

Fichiers supportés Texte, HTML, XML, Audio, Vidéo, Images/GIF, PDF, Flash, Word, Excel, RTF, PowerPoint

Pas de crawler Texte, HTML, XML, JavaScript, OpenOfice.org ODF & Star Office, Microsoft Power Point &

Word, Adobe PDF, RSS, RTF, MP3, ZIP, Flash

Personnalisable Avec divers templates Avec divers templates Code compréhensible

Extensible Non Non Nutch-Wax, Hadoopi, solr, etc

Distribué Non Oui Hadoopi

Page 3: Annexe1   éTude Comparative Sur Les Moteurs De Recherche

Page 3

Étude comparative sur les Moteurs de recherche Open Source (suite)

DATAPARKSEARCH SOLR NUTCH

plugin Non Non LanguageIdentifierPlugin XMLParser Plugin,DocumentationTemplate GeoPosition , German JapaneseAnalyzer, index-extra, protocol-smb

Autres caractéristiques ● Indexation multilangues des sites

● Recherche de tous les mots proches

● Support des synonymes, acronymes, abréviation

● Liste d'interdictions de mots.

● Indexation et recherche en même temps sur la même base de données (Multithread)

● Résultat par importance, pertinence, popularité ou par date.

● Correction d'orthographe.

● Recherche par abréviation .

● Support des caractères spéciaux.

● Support du Chinois, japonais, etc.

● Nécéssite un SGBD. (MySQL, PostGreeSQL ou Oracle)

● Hit Highlighting (coloration du mot recherché)

● Communication via HTTP, JSON, XML, PHP, Ruby et Python.

● Simple à mettre en place: pas de Tomcat.

● Interface d'administration (en HTML).

● Possibilité de réplication de serveurs.

● Extensible avec de nouveaux plugins.

● Caching (mémorisation en cache de toutes recherches).

● Recherche filtrée et par catégorie (faceted search)

● Optimisé pour une recherche web très volumineuse.

● Configuration personnalisable et flexible.

● Statistiques complètes sur l'utilisation du cache, mises à jour, requêtes, etc.

● Communauté très active.

● Code source compréhensible.

● Robuste et complet

● Extensible avec plusieurs plugins

● Possibilité d'intégrer Solr avec Nutch.

● Support de Base de données très volumineuse.

● Nécessite le générateur de servlette Tomcat.

● Possibilité de réplication de serveurs.

Site offciel http://www.dataparksearch.org/ http://lucene.apache.org/solr/ http://lucene.apache.org/nutch/

Page 4: Annexe1   éTude Comparative Sur Les Moteurs De Recherche

Page 4

Nutch

Page 5: Annexe1   éTude Comparative Sur Les Moteurs De Recherche

Page 5

Merci pour votre attention