Data Science SEO : une brève histoire de mon avenir (vidéo)

D

« Comment OVH évolue vers la Data Science SEO » ? C’est la question à laquelle Vincent Terrasi et moi avons répondu lors de notre conférence à l’OVH Summit le 17 octobre 2017, à Paris. Vous trouverez le replay ci-dessous ainsi qu’un article regroupant des éléments inédits sur la Data Science dans le SEO.

Big Bang n’est pas vraiment le mot qui convient, mais c’est le premier qui vient à l’esprit.

D’un côté il y a le Big (data) : beaucoup de données, toujours plus, produites par nos sites web, nos serveurs, nos outils de monitoring, les moteurs de recherches, les API…

De l’autre le « Bang! » : le bruit du couperet qui tombe pour couper la tête du moteur de recherche tel qu’on le connait aujourd’hui. Il tombe et nous promet à terme, un changement radical, la fameuse ère de l’intelligence artificielle.

Nous sommes nombreux à nous interroger sur les évolutions possibles de notre métier et je voudrais vous parler ici de Data Science SEO, l’avenir que je voudrais donner au mien.

La Data dans le SEO

Le premier outil SEO que j’ai utilisé en 2012 a été Xenu Link (que j’ai depuis remplacé par Screaming Frog), rapidement suivi par Excel, Yooda SeeUrank (ensuite AWR), Piwik (puis AT Internet chez OVH), Majestic, Webpagetest, Sitespeed.io, Oncrawl, Graylog, 1.fr, Visiblis, SEO Hero, SEO Quantum, Ranxplorer, Ubersuggest, Dataiku (un outil de Data Science que j’utilise pour faire de l’analyse croisée de logs) et j’en passe…
Sans compter toutes les API, et bien entendu, les outils Google : Search Console, Trends, Page Speed, Mobile-Friendly test, Structured Data Testing Tool, Analytics, etc.

seo big data
SEO est un métier du big data

C’est un fait, face à toutes ces données issues de sources disparates, notre mission est triple :

  1. Comprendre les données (que représente chaque métrique, comment les données sont collectées puis traitées et comment s’en servir ?)
  2. Manipuler les données, parfois de façon totalement inédite pour les analyser, les croiser et en tirer des conclusions et des actions à mener pour développer le trafic / la notoriété / les ventes
  3. Donner du sens aux données pour les communiquer aux autres équipes, souvent aidé par la data visualisation

Face à la liste des missions ci-dessus, Data Scientist n’est pas vraiment le mot qui convient, mais c’est le premier qui vient à l’esprit, comme le soulignait le site Search Engine Land dans son article « 10 Reasons Why You, The Search Marketer, Can Call Yourself A Data Scientist » (« 10 raisons pour lesquelles vous, Search Marketer, pouvez vous définir comme Data Scientist »).

Vous me suivez toujours ?

Par nature, le SEO suit un raisonnement scientifique expérimental qu’on pourrait qualifier d’empirique : observation > hypothèse > expérience > analyse > nouvelle hypothèse et ainsi de suite. Une vraie machine à produire des connaissances SEO face aux secrets des algorithmes de Google.

Comme Olivier Tassel l’a exposé au SEO Camp 2017, je pense pourtant que l’avenir du SEO n’est pas empirique mais data centric. C’est le traitement massif exploratoire de données qui contribue à la production de connaissances, et non plus seulement les expériences.

Pour aller plus loin dans le raisonnement, regardons un peu du côté de chez Google et en particulier son intelligence artificielle.

L’influence de Rankbrain

Reverse engineering n’est pas vraiment le mot qui convient, mais c’est le premier qui vient à l’esprit.

Au delà de connaitre le fonctionnement de Google (et par extension du SEO) chaque société devrait aujourd’hui connaître ses propres facteurs de ranking, et c’est pour moi l’un des enjeux de l’exploitation de la data dans le SEO ; particulièrement depuis l’implémentation de Rankbrain dans toutes les recherches sur Google.

Pour schématiser la situation, le Google ancien utilisait du code « statique » avec des milliers de conditions pour classer les pages (l’époque Amit Singhal). Quant au Google nouveau, avec Rankbrain, c’est une approche davantage mathématique et statistique qui est privilégiée. Elle est basée sur une intelligence artificielle qui utilise des réseaux de neurones. On parle ici d’un branche du machine learning appelée deep learning comme l’expliquait cet article de Wired.

Analysons la situation avec le prisme SEO

Les réseaux de neurones utilisent l’apprentissage non-supervisé : il prennent leur propres décisions. Si une IA est capable de contrôler le classement des résultats sur Google, il devient extrêmement compliqué de savoir précisément quels facteurs de classement elle utilise et cela peut amener plusieurs situations :

  • Des facteurs reconnus comme ayant très peu ou pas d’importance pour le ranking de site (HTTPS, partages facebook, validation W3C) pourraient dans un contexte donné, pour une requête donnée devenir les facteurs les plus significatifs. Gardons à l’esprit que l’intelligence artificielle gère elle-même le classement, selon ses propres concepts et data.
  • On peut aussi imaginer que l’IA utilise de nouveaux facteurs de classement auxquels les ingénieurs de Google n’auraient pas pensé, et tout ça, sans qu’ils ne s’en aperçoivent.
  • Déclassement de page sans raison apparente, modification du nombre de résultats… L’IA pourrait faire des erreurs et certaines passer inaperçues comme l’expliquait Social Media Today.
  • Ultra personnalisation des résultats de recherche : des résultats basés sur la personnalité de l’internaute, son humeur, son niveau de connaissances, ses dépenses, ses revenus, son agenda, ses habitudes, etc.

Mettre le SEO au niveau de Google

data scientist seo
Face à l’intelligence artificielle, la big data, le machine learning, le deep learning, il est temps de mettre à jour le SEO !

Notre métier est certes dirigé par des KPI et des données mais l’homme reste encore au cœur du processus d’analyse et d’exploitation, et je ne parle même pas du grand nombre d’actions « mécaniques » (rechercher les meilleurs mots-clés, remplir des alt= » », réduire le poids des images). Le moins que l’on puisse dire est que le SEO est encore assez loin de l’intelligence artificielle…

En revanche, nous sommes à une étape clé de l’évolution du métier de SEO : les technologies Big Data sont devenues plus accessibles (en termes de coût, stockage et puissance de calcul), permettant ainsi la centralisation de la data (datalake) et son traitement avec des techno comme Hadoop, mais aussi et surtout la valorisation de ces sources de données via l’application de modèles de machine learning. Cela est notamment démocratisé par des outils comme Dataiku Data Science Sudio.

Dans cet esprit, j’ai essayé de dresser la liste des missions d’un Data Scientist SEO :

  • Créer, entretenir et exploiter un datalake regroupant toutes les sources de data : web analytics, netlinking, sémantique, search console, réseaux sociaux, webperfs, logs, concurrents, tendances de recherches, évènements d’influences, données Business Intelligence, crawl, données des autres sources de trafic
  • Maitriser les facteurs de ranking de son/ses site(s)
  • Améliorer la recherche d’opportunités de trafic via des techniques de data science (à ce sujet, je vous invite à consulter l’article que j’ai écrit sur mon utilisation du langage R pour le SEO)
  • Créer un système d’alerting intelligent et utiliser le prédictif pour anticiper des problèmes techniques, pertes de position, baisse de trafic, désindexation, fréquentation du site par les visiteurs et les bots
  • Améliorer l’architecture du site et le maillage interne grâce aux algorithmes génétiques
  • Produire des analyses sémantiques basées sur le croisement de data relatives aux requêtes (avec text2vec, N-grams, cooccurences, clustering)
  • Process mining (utilisateurs et bots)
  • Automatiser un maximum d’actions « mécaniques » du SEO (« Il y a un algorithme pour ça » dixit Sylvain Peyronnet)
  • Explorer les horizons futurs du SEO : génération automatique de textes, anticipation des comportements des Bots Google, etc.
  • Faire le lien entre les équipes trafic / digital marketing et les équipes data / BI

Vincent Terrasi a conclu sa conférence au TeknSEO 2017 de la façon suivante : « maintenant les machines peuvent apprendre et s’adapter, il est temps de se servir de cette opportunité pour créer de nouveaux métiers ». Il ne tient qu’à nous d’utiliser les mêmes armes que Google pour mieux l’appréhender

Sun Tzu n’est pas vraiment la référence qui convient, mais c’est la première qui vient à l’esprit.

Pour aller plus loin sur le sujet d’utilisation de la Data Science dans le SEO, allez consulter de ma part le blog de Sylvain Peyronet, le blog d’Aysun Akarsu ou encore la présentation de Julien Deneuville sur le « Machine Learning & SEO ».

DATA SEOment votre.

Cet article vous a plu ? Je compte sur vous pour le partager et me suivre sur Twitter :

A propos de l'auteur

Rémi Bacha

Passionné de Search Marketing, Web Analyse et Data Science.

12 Commentaires

  • Bonjour Rémi,
    Analyse intéressante, cependant, si je suis assez d’accord avec toi sur les missions évoquées, je pense qu’il manque un aspect important : le marketing.
    Dans  » Search Marketer » il y a Marketer, donc marketing.
    Or dans les missions que tu évoques, il n’y a aucune trace de « popularité », création de liens, génération de notoriété.
    Lorsque l’on travaille sur le site d’une marque reconnue comme OVH (ou les sites de M6 Web sur lesquels s’est penché Vincent avant de te rejoindre) il est facile d’oublier cette partie, mais elle représente une partie essentielle de notre activité.
    Je plaide donc pour que l’on arrête de réduire notre activité à l’aspect technique. C’est nier ce qui fait la plus belle spécificité de notre métier : Etre au croisement de deux différentes approches et les sublimer.

    • Hello Valentin, merci pour ton retour.
      Je suis entièrement d’accord avec toi, pour le SEO la data science est un moyen et non une fin.
      L’objectif fondamental est bien orienté business comme je le précise dans la partie « La data dans le SEO » : « Manipuler les données, […] en tirer des conclusions et des actions à mener pour développer le trafic / la notoriété / les ventes ».

  • Bonjour Rémi

    Article super intéressant et une intervention magnifique, pour moi ça ne change pas, je suit tes articles depuis un moment et a chaque fois je me régale !

    Bravoo continue comme sa tu assure !

    • Bonjour Maher, merci beaucoup ! Je suis en train de préparer le prochain article qui sera orienté autour de l’IA, j’espère qu’il te plaira 😉

  • Superbe prestation, on ne s’ennuie pas. Pour ce qui est du fond vous avez vu juste, quand certains voient l’IA et le Big Data comme un risque de régression pour leurs emplois d’autres y voient une opportunité d’évoluer et de s’améliorer 😉

    • Merci pour ton retour, je pense en effet que nous avons encore quelques années avant que l’IA n’extermine l’humanité comme le prédisent Elon Musk et Nick Bostrom. Profitons de cette période d’accalmie pour faire du SEO !

  • Hello Rémi,
    C’est un réel plaisir de te lire, et de vous écouter toi et Vincent. Super binôme !

    J’a 2 commentaires à ajouter :

    – Rankbrain : c’est anecdotique à mon sens. Je m’explique : depuis presque 5 ans j’explique à mes clients de ne pas sous-estimer les algos de Google, et de prendre avec des pincettes les ranking factors qui remontent dans la communauté SEO/marketing. Certaines niches ont plus de latitudes que d’autres (le profil de liens et d’affiliation d’un site porn n’aura strictement rien à voir avec un e-commerce de quincaillerie). Quand on est en mode « SEO », éditeur ou consultant, il faut toujours essayer de se mettre à la place des ingénieurs de Google (à la place de l’algo en fait) et essayer de se dire « est-ce que mon site sort des clous sur les principaux piliers du SEO, sur mon secteur d’activité ». Ce n’est pas un exercice de reverse engineering, ni de la DATA science à la base, juste du bon sens. L’apparition de « Rankbrain » est juste un branding de l’algo, et la trajectoire logique de Google.

    – Formation : y’a clairement une opportunité à saisir ! Peu ou pas de formation DATA science au service du SEO sur le marché FR, la Masterclass des frères Peyronnet étant peut-être ce qui s’en rapproche le plus. Quoi qu’on en dise, même avec une idée claire de ce que l’on veut faire avec la DATA, les outils et les différentes briques que l’on a à disposition ne sont pas toujours simples d’utilisation, et la courbe d’apprentissage est parfois bien raide avant que l’on devienne suffisamment agile et rentable. On explore plein de pistes, on se fourvoie, on galère avec des dépendances sous Linux, et on finit par lâcher l’affaire. C’est pour ça qu’une formation avec des gars comme toi et Vincent, je prends de suite, car je sais que l’investissement sera payant !

    • Hello Aurélien,

      – Merci d’avoir partagé ton avis sur Rankbrain. Là où Ranbrain amène à mon sens une rupture avec le passé, c’est dans sa modification en profondeur de la façon dont Google classe les pages grâce aux réseaux de neurones et au deep learning. Ce changement a été incarné entre autre par l’arrivée de John Giannandrea (qui a remplacé Amit Singhal) pour apporter la touche « Intelligence artificielle » dans Google search. L’idée que nous avons eu de faire du « reverse engineering » vient du fait qu’il est trèèèès difficile de comprendre pourquoi un réseau de neurones classe une page à telle ou telle position. Nous avons donc choisi l’approche data plutôt que l’approche « bon sens ». Un certain Yuval Noah Harari parle de « data religion » 🙂

      – On y réfléchit de plus en plus. Après avoir sondé nos réseaux sociaux, on a déjà acté la sortie d’un livre pour 2018. J’en parle ici https://remibacha.com/livre-seo/

  • Merci Rémi pour le partage de cette vidéo et surtout, du fruit de vos recherches ! On ne s’ennuie pas une seule seconde et chacune de vos interventions (je pense aussi à celle du dernier SEO Camp) donne envie de mettre le pied dans la Data Science appliquée au SEO !

Articles récents

Rémi Bacha

Passionné de Search Marketing, Web Analyse et Data Science.

Restons en contact

RDV sur les réseaux sociaux pour discuter et être informé de mes prochains articles :