Un package R pour détecter le duplicate content

28 août 2018

2 min en lisant vite

U

Avec le développement des générateurs automatiques de textes, la vérification du contenu dupliqué apparaît comme un vrai enjeu SEO. J’ai développé un « Duplicate Content Checker » sous la forme d’un package R afin de mesurer la similarité entre 2 pages web. Je vous le partage ici.

duplicateContentR, le package R

L’outil duplicate Content R permet de contrôler le duplicate content interne et externe, URL par URL. Il est basé sur un scraper qui récupère le contenu textuel principal de chacune des 2 URLs et les compare. Chacun de ces contenus est ensuite transformé en vecteur de mots afin de pouvoir utiliser la distance de Jaccard. Cette distance calcule le pourcentage de termes en commun dans les 2 vecteurs.

Pour l’utilisateur de duplicateContentR, il suffit de préciser les 2 URLs à comparer ainsi que le user agent avec lequel récupérer les contenus des pages.

duplicate content tool r — Mesure de similarité entre 2 pages web pour détecter le contenu dupliqué / plagié

➔ Vous pouvez retrouver le Package R duplicateContentR sur mon compte Github

NB : Les plus avancés d’entre-vous trouveront dans ce package une base pour automatiser la détection du duplicate content sur d’avantages d’URLs.

Je ferais sûrement évoluer ce package au fil de l’eau (et selon vos idées), n’hésitez pas à me suivre sur Twitter pour être informés des prochaines évolutions :

Follow @Remibacha

Rémi Bacha

Passionné de SEO et Data Science. Fondateur de l'agence LABS ON MARS et co-fondateur des formations DATA SCIENCE SEO.

Annuler

Cedric dit :

28 août 2018 à 14 h 23 min

Super, Merci Rémi,
Mais la regex que vous utilisez n’est pas parfaite. Pour l’avoir testé sur des dizaines de sites, il lui arrive de bloquer ou de récupérer l’ensemble des scripts présents dans le footer. Je crois que le fait de ne pas inclure les descendants peut avoir ce type de conséquences.

Répondre
- Rémi Bacha dit :
  
  28 août 2018 à 15 h 21 min
  
  Je peux mettre à jour le package sans problème si tu as mieux pour le scrap. Peux-tu me donner la regex que tu utilises pour contourner les problèmes dont tu parles ?
  
  Répondre
Greg dit :

28 août 2018 à 16 h 26 min

Hello,

C’est top.

J’ai une petite question, Comment identifies tu le contenu textuel principal d’une page ?

Merci

Répondre
- Rémi Bacha dit :
  
  28 août 2018 à 16 h 57 min
  
  Merci Greg ! J’ai utilisé ce xPath : //text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)][not(ancestor::form)][string-length(.) > 10] »
  
  Répondre
Cedric dit :

29 janvier 2019 à 7 h 14 min

Bonjour remi. C’est une superbe idee ce package. Ce package a t il la possibilité d’analyser des urls du meme domaine ( ex des categories)? L’objectif etant de ne recuperer que le texte unique d’une page. ( sans les menus haut logiquement dupliqué). Cet exemple faisant reference a la regex utilisée par vincent pour scraper uniquement le texte d’une page.

Répondre

Un package R pour détecter le duplicate content

duplicateContentR, le package R

A propos de l'auteur

Rémi Bacha

5 Commentaires

Annuler

Articles récents

Rémi Bacha

duplicateContentR, le package R

A propos de l'auteur

Rémi Bacha

5 Commentaires

Annuler

A lire aussi

Articles récents

Rémi Bacha