34
LES CRITÈRES CONSTITUTIFS DU WEBSPAM Guillaume et Sylvain Peyronnet

Peyronnet webspam-seocampus

Embed Size (px)

Citation preview

Page 1: Peyronnet webspam-seocampus

LES CRITÈRES CONSTITUTIFS DU WEBSPAM

Guillaume et Sylvain Peyronnet

Page 2: Peyronnet webspam-seocampus

QU’EST-CE QUE LE WEBSPAM ?

Une tentative de définition

Le webspam, c’est ce qui est conçu dans le but d’attirer des internautes venus des moteurs de recherche vers une ou plusieurs pages web données.

La frontière est floue

Il est parfois difficile de faire la différence entre une page de « faible qualité » légitime et du webspam de « bonne qualité ».

Page 3: Peyronnet webspam-seocampus

QU’EST-CE QUE LE WEBSPAM ?

Une question d’intention

C’est avant tout la volonté de « nuisance » qui caractérise le webspam.

Finalement, une question de jugement

La méthode standard pour déterminer ce qu’est le webspam, c’est l’analyse du comportement des êtres humains face aux pages web.

• Monitoring du comportement des internautes dans le moteur (retour post-visite, temps passé, etc.)

• Quality Rating

Page 4: Peyronnet webspam-seocampus

2 TYPES DE WEBSPAM

Zoltán Gyöngyi, Hector Garcia-Molina. Web Spam Taxonomy. First International Workshop on Adversarial Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005.

Page 5: Peyronnet webspam-seocampus

2 TYPES DE WEBSPAM

Zoltán Gyöngyi, Hector Garcia-Molina. Web Spam Taxonomy. First International Workshop on Adversarial Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005.

2 ? Non, 3 types de webspam

Page 6: Peyronnet webspam-seocampus

3 TYPES DE WEBSPAM

Les liens népotiques

Il s’agit des liens que les référenceurs obtiennent entre eux, sur leurs réseaux.

Les structures d’amplification du PageRank

Il s’agit des schémas de linking qui améliorent de manière optimale le PageRank.

Le contenu « spammy »

Il s’agit du contenu conçu pour maximiser la pertinence d’une page web ou pour remplir au kilomètre des pages web de faible importance.

Page 7: Peyronnet webspam-seocampus

POURQUOI 3 TYPES ?

Un moteur construit son classement en choisissant les pages les plus importantes parmi celles qui sont pertinentes

Pertinence pour R

Classement global

+-

des liens !un schéma

optimal sur ces liens

du contenu optimisé !

un bon positionnement+ + =

Page 8: Peyronnet webspam-seocampus

POSITIONNEMENT VERSUS SPAM

Il ne faut pas confondre !

Un critère de positionnement et un critère de spam sont deux choses indépendantes

• un critère peut être les deux à la fois (EMD par exemple) • Il y a un traitement séparé des deux

Il y a interférence

Quand on regarde les SERPs, il est difficile de déterminer les critères de positionnement car les filtres anti-spam agissent après eux.

Dans tous les cas, on ne sait que corréler

Au mieux, on ne sait que mettre en correspondance des comportements co-incidentaux. On ne peut jamais déterminer la cause exacte d’un phénomène observé dans les SERPs.

Page 9: Peyronnet webspam-seocampus

POSITIONNEMENT VERSUS SPAM

Ce n’est pas parce qu’un critère est corrélé positivement pour le positionnement que son optimisation n’est pas considérée

comme du spam.

Source : http://moz.com/search-ranking-factors

Page 10: Peyronnet webspam-seocampus

COMBATTRE LE WEBSPAMDétection et suppression : filtrage

• Déterminer les caractéristiques du spam

• Détecter les pages et liens qui ont ces caractéristiques

• Les supprimer de l’index ou moduler la transmission de PR

Déclassement : update

• Sans forcément le détecter

• Annuler son effet sur les résultats du classement

Page 11: Peyronnet webspam-seocampus

COMBATTRE LE WEBSPAMDétection et suppression : filtrage

• Déterminer les caractéristiques du spam

• Détecter les pages et liens qui ont ces caractéristiques

• Les supprimer de l’index ou moduler la transmission de PR

Déclassement : update

• Sans forcément le détecter

• Annuler son effet sur les résultats du classement

Page 12: Peyronnet webspam-seocampus

LES LIENS NÉPOTIQUESReconnaître les liens « sans valeur »

Recognizing Nepotistic Links on the Web Davison, AAAI-2000 Workshop on Artificial Intelligence for Web Search

Page 13: Peyronnet webspam-seocampus

LES LIENS NÉPOTIQUESConstruction d’un filtre utilisant 75 critères, dont :

• même <title>

• domaines identiques

• les premiers octets de l’IP sont identiques

• il y a plus de X liens sortants de la page source

• whois « similaires »

Taux d’erreur : 9%

Page 14: Peyronnet webspam-seocampus

LE SPAM STRUCTURELSon objectif est de maximiser le PageRank d’une page cible

• /!\ Ne pas confondre PageRank réel et Toolbar PageRank (le PR)

• Il existe des structures pour atteindre l’optimal : Zoltán Gyöngyi, Hector Garcia-Molina. Link Spam Alliances. 31st International Conference on Very Large Data Bases (VLDB), 2005. Elles sont détectables ! Thomas Largillier, Sylvain Peyronnet: Using Patterns in the Behavior of the Random Surfer to Detect Webspam Beneficiaries. WISE Workshops 2010: 241-253

• Les spammeurs utilisent des structures non-optimales plus discrètes

Page 15: Peyronnet webspam-seocampus

LE SPAM STRUCTUREL (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PAR YAHOO!)

Quantité %Spam 116 401 16.85

Spam lié 16 497 5.54Non spam

609 307 11.46

Quantité %Spam 8 406 1.22

Spam lié 88 069 29.58Non spam

132 931 2.50

Page 16: Peyronnet webspam-seocampus

LE SPAM STRUCTUREL (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PAR YAHOO!)

Les motifs spammants usuels sont de deux types

Caractéristique du SPAM !

Page 17: Peyronnet webspam-seocampus

LE SPAM STRUCTUREL (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PAR YAHOO!)

Caractéristique de ceux qui profitent du SPAM !

Les motifs spammants usuels sont de deux types

Page 18: Peyronnet webspam-seocampus

LE SPAM STRUCTUREL (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PAR YAHOO!)

Caractéristique de ceux qui profitent du SPAM !

Les motifs spammants usuels sont de deux types

Ces deux types de motifs sont détectables

Page 19: Peyronnet webspam-seocampus

LE SPAM STRUCTUREL (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PAR YAHOO!)

Caractéristique de ceux qui profitent du SPAM !

Les motifs spammants usuels sont de deux types

Ces deux types de motifs sont détectables

Le réseau naturel n’est pas détectable !

Page 20: Peyronnet webspam-seocampus

SPAM DE CONTENUSon objectif est d’optimiser la pertinence d’une page ou de créer des pages dotées de « contenus » en série

Un article à connaître, publié en 2006

Detecting spam web pages through content analysis

• Par Ntoulas, Najork, Manasse et Fetterly

• UCLA + Microsoft, publié à WWW 2006

Article qui fournit une méthode de détection basée sur un dataset réel

• Provenant d’un crawl de MSN Bot d’Août 2004

•105.5 millions de pages dont 55 millions en anglais

•18 000 pages ont été classées à la main (spam / non spam)

• Sur les 18 000, 14% de spam

Cet article présente la méthodologie standard pour créer un filtre

Page 21: Peyronnet webspam-seocampus

SPAM DE CONTENU EN 2006

Page 22: Peyronnet webspam-seocampus

SPAM DE CONTENU EN 2006

Page 23: Peyronnet webspam-seocampus

SPAM DE CONTENU EN 2006

Et de nombreux autres critères, dont :

• nombre de points/slashs/chiffres dans le nom de domaine

• taille du nom de domaine

• nombre de mots dans la page

• fraction du texte d’ancre

• taille moyenne des mots

!

Page 24: Peyronnet webspam-seocampus

SPAM DE CONTENU EN 2006

Page 25: Peyronnet webspam-seocampus

SPAM DE CONTENU EN 2006

Résultats

Taux de reconnaissance du spam > 85%

Faux positifs ~ 1%

Page 26: Peyronnet webspam-seocampus

ETUDE WEBSPAM 2014

L’étude de Ntoulas, Najork, Manasse et Fetterly est ancienne

• Nous sommes en train de la refaire grâce à la communauté (MERCI)

• Nous étudions de nouveaux critères

• Nous avons choisi une granularité plus fine (SPAM / LQ / HQ)

!

Page 27: Peyronnet webspam-seocampus

ETUDE WEBSPAM 2014

Trois étapes :

1. le crawl

2. la notation humaine

3. l’analyse des critères

Livrables :

• dataset qualifié

• des critères effectifs pour détecter le spam

• un classifieur

On devrait en être au 3… Vous devriez être en train de voir les nouveaux critères…

Mais ce n’est pas le cas, vous allez découvrir pourquoi

maintenant…

Page 28: Peyronnet webspam-seocampus

LE CRAWL

L’objectif :

Obtenir 500 000 pages aléatoires représentatives du web

Pour cela, il faut crawler environ 1 milliard d’URL différentes et tirer au hasard parmi elles.

Nous en sommes là.

Page 29: Peyronnet webspam-seocampus

LE CRAWL

L’objectif :

Obtenir 500 000 pages aléatoires représentatives du web

Pour cela, il faut crawler environ 1 milliard d’URL différentes et tirer au hasard parmi elles.

Nous en sommes là.

Les problèmes :

• divers problèmes matériels

• dataset non représentatif

• « it’s a trap ! »

Page 30: Peyronnet webspam-seocampus

LA NOTATION

L’objectif :

Obtenir 5 notes pour chaque page du sous-dataset retenu

Pour cela, chaque page est présentée à un « quality rater » choisi aléatoirement

Le QR note chaque page : SPAM oux LQ oux HQ oux NSP

Une page a ensuite un score de qualité dépendant des 5 notes attribuées

On calculera le score Kappa lié au dataset

Page 31: Peyronnet webspam-seocampus

LA NOTATION

L’objectif :

Obtenir 5 notes pour chaque page du sous-dataset retenu

Pour cela, chaque page est présentée à un « quality rater » choisi aléatoirement

Le QR note chaque page : SPAM oux LQ oux HQ oux NSP

Une page a ensuite un score de qualité dépendant des 5 notes attribuées

On calculera le score Kappa lié au dataset

http://webspam.peyronnet.eu/demande.php

Page 32: Peyronnet webspam-seocampus

L’ANALYSE DES CRITÈRES

L’objectif :

Vérifier la validité des critères précédemment obtenus par Ntoulas et al.

Fournir de nouveaux critères.

!

Page 33: Peyronnet webspam-seocampus

L’ANALYSE DES CRITÈRES

Quelques nouveaux critères potentiels :

• Ratio DF/NF : Ratio entre le nombre de liens en DoFollow et NoFollow

• Proximité sémantique : Est-ce que l’émetteur d’un lien est sur la même thématique que celui qui reçoit le lien ?

• Positions des liens : emplacement des liens sur la page

• Signaux d’auteur et partages sociaux

• TTFB versus chargement complet

• Résidu post-lemmatisation

• Coefficient de clustering

!

!

Page 34: Peyronnet webspam-seocampus

MERCI !@gpeyronnet - @speyronnet