J’ai réuni 14 experts SEO pour parler d’IA (Le cycle des IA 1 : Big Data)

De Rémi Bacha

Dans SEO

25 octobre 2017

11 min en lisant vite

5 Commentaires

J

Mobile first to IA first.

C’est avec ces mots que le CEO de Google, Sundar Pichai, démarrait sa keynote au Google I/O 2017.

L’intelligence artificielle à l’honneur lors du Google I/O 2017

Tous les services de Google utilisent aujourd’hui des briques d’IA : elle est présente dans la recherche d’image, Streetview, les suggestions Youtube, Gmail, Android ou encore Car. Des agents conversationnels sont utilisés sur fond de deep learning dans Google Home et Google Assistant. Et que dire de Google Search, qui utilise le machine learning dans Rankbrain ?

L’intelligence artificielle ne serait-elle pas en train de changer progressivement la face du SEO ? J’ai pour ma part décidé de m’orienter vers la data science SEO (vidéo). Qu’en est-il des autres professionnels du SEO ? J’ai interrogé ici des experts « techniques » et « non-techniques », dans le monde du SEO depuis longtemps ou pas. Chacun a été choisi pour une bonne raison et au vu de la richesse des réponses, vous constaterez que je ne me suis pas trompé dans ma sélection.

Cet article est le premier d’une série de 3 articles dédiés à l’intelligence artificielle :

Le cycle des IA 1 : Exploiter la big data pour le SEO (VOUS ÊTES ICI)
Le cycle des IA 2 : Stratégies SEO pour faire face à l’intelligence artificielle
Le cycle des IA 3 : 2022, quel futur pour le SEO ?

Avant de passer aux avis d’experts, qu’appelle t-on réellement IA ?

Avant propos : les briques de l’IA

Les solutions d’intelligence artificielle reposent généralement sur plusieurs briques fondamentales, voici les principales dont il sera question dans ma série d’articles « le cycle des IA » :

Le machine learning : une approche probabiliste qui donne aux machine la capacité d’apprendre sans en être explicitement programmées. Elle permet par exemple de faire de la prédiction, de la classification, de la segmentation automatique et de la détection de correlation
Le deep learning : Sous-ensemble de techniques de machine learning, à base de réseaux de neurones disposants d’un grand nombre de couches. Elle permet de gérer un niveau d’abstraction d’information plus important que le machine learning pour reconnaitre des objets complexes (images, écriture manuscrite, paroles) et générer des contenus (texte, colorisation d’images)
Les réseaux de neurones : techniques utilisées en machine learning et deep learning qui permet de reproduire le fonctionnement des neurones biologiques.

Quand nous parlerons d’IA ici, cela pourra donc sous-entendre les techniques pré-citées.

Pour fonctionner, toute solution de machine learning ou de deep learning a besoin de données organisées. Si nous faisons énormément référence au big data lorsque nous évoquons l’IA c’est parce que la data est en quelque sorte le sang qui alimente l’intelligence artificielle (dixit Olivier Ezratty). Entrainer des modèles de machine learning ou de deep learning requiert en effet de très gros volumes de données. C’est justement à ces données et à leur exploitation que nous nous intéresserons ici.

Vous souhaitez plus de détail sur les briques de l’IA ? Je vous conseille l’ouvrage « Les usages de l’intelligence artificielle » écrit par Olivier Ezratty. 362 pages de techniques, d’applications concrètes et de vision que j’ai dévoré en quelques jours… Un indispensable qui m’a fait prendre conscience que le futur avait lieu maintenant !

Passons maintenant aux avis d’experts SEO.

Exploiter la big data pour le SEO

De part son omniprésence dans nos vies Google capte de gros volumes de données pour alimenter ses IA. Lorsque l’on fait du SEO, nous n’avons certes pas accès aux même volumes de données que Google, mais nous ne naviguons pas à l’aveugle pour autant. En croisant les données des outils dont il dispose, un expert SEO peut rapidement se retrouver avec des jeux de données de plusieurs centaines de milliers de lignes. Comme je le disais dans mon précédent article, le SEO est un métier du big data.

J’ai demandé à Gregory Florin, Julien Deneuville et Aurélien Berrut de nous parler de leur utilisation de la data pour le SEO.

Le nombre d’outils et d’API SEO explose, comment rends-tu cette masse de données actionnable et quels outils utilises-tu ?

J’utilise des scripts R pour analyser les data et générer des optimisations

gregory florin — Gregory Florin – Responsable SEO La Redoute
@gregoryflorin

La problématique d’un gros site comme La Redoute, c’est qu’il faut gagner des positions sur le plus grand nombre de mots clés possibles pour faire progresser le trafic SEO…

Passer en top 3 sur son meilleur mot clés ne produirait qu’une infime progression du trafic. Il faut donc se concentrer sur la progression d’un ensemble de pages et travailler la longue traine.
C’est dans ce cadre que la data et la programmation me sont très utiles.
Globalement, nous allons collecter les principales données SEO : Mots clés / Position via l’API de Semrush et celle de Yooda), Suivi de crawl (Botify), Données internes (catalogue produit catégorisation des pages, fichier de redirections), Backlinks (Majestic), etc.

Ensuite nous travaillons notre SEO avec R pour mettre en place les scripts qui nous permettront d’analyser ces datas et de générer des optimisations (que nous injecterons dans le CMS).

Nous avons actuellement une trentaine de scripts plus ou moins complexes qui nous aident à optimiser le SEO. Et j’en crée toutes les semaines.

On peut par exemple :

Effectuer un suivi de la visibilité sur un univers produit donné.
Identifier et créer les redirections à mettre en place
Actualiser le maillage interne
Détecter les landing pages à créer
Mesurer l’impact de la notation produit sur le SEO

Dans ce cadre, la démocratisation des APIs est très pratique car elle va nous permettre d’enrichir notre base de manière très simple ou encore de “sous-traiter” des services complexes à développer.

Je pense notamment à l’analyse sémantique. Je pourrai : identifier une liste de pages importantes, appeler en masse une API qui m’identifiera les optimisations sémantiques à faire apporter dans mes pages.

Aujourd’hui notre fonctionnement est très artisanal car nous voulions valider que nous serions en mesure de stocker et de manipuler la data pour faire progresser notre SEO. Désormais nous allons pouvoir industrialiser l’approche grâce au cloud et la dataviz.

Cela nous ouvre des portes vers l’IA qui nous permettrait entre autres de prédire les pages à fort enjeu SEO et déterminer les optimisations à mettre en œuvre pour favoriser le ranking.

Pour moi l’enjeu majeur aujourd’hui c’est de faire en sorte que les équipes SEO puissent être autonomes sur la collectes et la manipulation de la data

L’idéal est de connaître au moins un langage de programmation

julien deneuville — Julien Deneuville – SEO freelance chez Databulle @Diije

Tout d’abord merci Rémi pour l’invitation. Nous disposons en effet de plus en plus de données métier, et de plus en plus d’outils pour les collecter. La difficulté est selon moi double :
– sélectionner les données utiles (et les outils et services liés)
– se doter des bons outils pour traiter le volume croissant d’informations.

Il n’est à mon avis pas vraiment utile de se précipiter sur le dernier outil SEO à la mode. Ce qui compte à mes yeux est plutôt la fiabilité et la durabilité des données proposées. Je pense aussi que l’on a beaucoup plus intérêt à se pencher sur des sources de données issues d’autres leviers ou d’autres métiers.

Le reste est une affaire d’intuition, d’expérience et d’adaptation. Certains croisements de données sont très pertinents, d’autres n’apportent rien et c’est parfois difficile de s’en rendre compte. Mais il n’est pas forcément nécessaire d’aller très loin pour trouver des méthodes qui vous permettront de mettre rapidement le doigt sur le ou les problèmes. Par exemple, comparer simplement deux variables permet très vite de détecter une éventuelle corrélation.

Pour des analyses plus poussées, je suis assez friand de clustering : c’est souvent assez simple et rapide pour regrouper des ensembles de données entre eux. Je vous recommande par exemple _Modularity Class_, intégré nativement dans Gephi et qui fait déjà un très bon travail. En termes d’outils, Excel montre rapidement ses limites quand le volume de données augmente ou quand on cherche à aller plus loin dans les visualisations. Des outils comme Qlikview ou Tableau permettent d’aller plus loin avec de plus gros volumes de traitement et des visualisations plus avancées.

Pour finir, je pense qu’un bon SEO qui souhaite se spécialiser sur les aspects techniques de notre métier se doit d’être autonome avec au moins un langage de programmation. J’utilise principalement Python pour ma part, mais la plupart des langages courants proposent de plus en plus de librairies orientées Machine Learning. Nul besoin de devenir un pur développeur pour pouvoir se débrouiller au quotidien.

Au quotidien, cela devient un outil vraiment indispensable, qui fait gagner un temps fou ne serait-ce que pour manipuler des fichiers ou des flux de données avant de les traiter dans Excel.

IA & DATA en SEO sont maintenant un combo essentiel dans notre métier

aurelien berut — Aurélien Berrut – SEO consultant chez virtua_agency @htitipidotcom

IA & DATA en SEO sont maintenant un combo essentiel dans notre métier. Tu l’as bien mis en avant dans ta dernière conférence SEO, les rankings factors sont très certainement pondérés différemment par Google d’une thématique à l’autre. Les fondamentaux restent les mêmes, mais la nécessité de contextualiser ses analyses devient incontournable. On n’analyse plus un site, mais tout un écosystème.

Mais ne nous voilons pas la face : cela rajoute une bonne couche de complexité à notre métier, et une véritable valeur ajoutée pour les plus doués. Il n’y a pas de processus linéaire. Il faut savoir d’où l’on part, ou l’on veut aller, avec quelles DATA, tout en planifiant les étapes intermédiaires. Pas nécessairement besoin d’être un DATA scientist pour ça, mais cela implique d’avoir la « vista » (= être au courant). Les outils n’ont rien de linéaire et le moindre grain de sable dans le workflow peut produire des interprétations erronées.

Je ne maitrise pas encore Dataiku (au passage merci d’en parler et de contribuer à sa démocratisation !). Cet outil arrive à la croisée des chemins entre les outils de DATA mining comme Knime et RapidMiner et d’autres plus orientés DATA visualisation comme Tableau, Qlik ou Gephi. J’ai souvent « joué » avec ces outils, qui offrent des possibilités certes intéressantes, mais on se heurte rapidement à leurs limites (scalabilité, automatisation, passerelles avec les API etc).

Et nous n’en sommes qu’au début ! DATA et SEO sont souvent évoqué dans un contexte d’analyse de site. Sous un angle différent et complémentaire, on a vu fleurir ces derniers temps des outils d’analyse sémantique orientés SEO comme SEOquantum, 1.fr, Visiblis, Yourtext.guru pour ne citer que les principaux. À noter également les outils de traitement automatique du langage et d’analyse de tonalité, éternellement perfectibles.

Je suis persuadé qu’il y a d’autres terrains d’investigations très excitants que certaines agences ont surement déjà expérimentés en brassant de la DATA : la prospection. Si on arrive à analyser un écosystème autour d’un site, alors on peut tout à fait analyser un écosystème pour en sortir des sites qui n’ont pas une visibilité en adéquation avec leurs moyens (en se basant sur l’achat d’adwords par exemple). En plus la DATA science nous offre sur un plateau l’angle d’attaque pour ferrer le prospect en identifiant de suite ses anomalies statistiques par rapport à « la norme ». Attention hein, quand je dis « la norme », comprenez un ensemble de corrélations qui tendent à démontrer ce qui marche ou ne marche pas sur un secteur d’activité en particulier.

Et la curiosité peut nous amener dans de multiples directions, tout en restant dans le périmètre du SEO. On connait le scénario classique quand on analyse la SERP de Google sur un marché ou une expression. La même chose mais en comparant Google avec Bing, Qwant ou encore Yandex pourrait certainement nous aider à mieux comprendre les sensibilités des différents moteurs. Les possibilités sont infinies !

La suite du cycle des IA

Le 2ème épisode de la série est disponible ici : Le cycle des IA 2 : Stratégies SEO pour faire face à l’intelligence artificielle ! Vous y retrouverez des stratégies SEO concrètes qu’utilisent Raphael Doucet, Anthony Thécher, David Carles, Christian Méline, Yann Sauvageon et Kévin Richard pour faire face à la montée de l’IA dans les SERP.

N’hésitez pas à me rejoindre sur Twitter pour être informés des prochains articles :

Follow @Remibacha

Rémi Bacha

Passionné de SEO et Data Science. Fondateur de l'agence LABS ON MARS et co-fondateur des formations DATA SCIENCE SEO.

Annuler

Marc dit :

8 novembre 2017 à 16 h 54 min

Bonjour,
Encore un article qui va devenir une référence dans le monde des SEO !

Répondre
Olivier Duffez dit :

8 novembre 2017 à 20 h 41 min

Très bonne idée cette série d’articles ! Merci Rémi (et les intervenants), c’est effectivement vital pour un SEO aujourd’hui de « se nourrir de data » et d’en tirer des optimisations.

Répondre
- Rémi Bacha dit :
  
  10 novembre 2017 à 18 h 46 min
  
  Merci pour ton retour Olivier ! J’espère que les 2 articles qui suivent te plairont également 😉
  
  Répondre
Our New "Data Science SEO" Training - Rémi Bacha dit :

20 décembre 2017 à 23 h 59 min

[…] Le cycle des IA 1 : Exploiter la big data pour le SEO (FR) […]

Répondre
MACHINE LEARNING, DEEP LEARNING ET SEO - Databix dit :

9 mars 2020 à 9 h 46 min

[…] Concrètement, Rankbrain révolutionne le traitement de la requête saisie dans Google. En fonction du mot clé et du secteur d’activité traité, RankBrain augmentera ou diminuera l’importance des critères SEO connus : backlinks, fraîcheur du contenu, longueur du contenu, autorité du domaine, poids des balises Title et H1, maillage interne … Ensuite, Google analyse l’interaction des internautes avec les nouveaux résultats de recherche. Si les utilisateurs apprécient le résultat proposé, le nouvel algorithme remplace le précédent. Si ce n’est pas le cas, RankBrain annule l’algorithme et en propose un nouveau, jusqu’à ce que la meilleure formule soit trouvée ! Pour ce faire, Google entre de plein pied dans le big data, en diversifiant la source de données traitées pour proposer l’algorithme le plus pertinent possible. Grâce au big data, Rankbrain est en train de changer la face du référencement. Et les méthodologies permettant d’aborder le SEO sont également en train d’évoluer, ce qui aura une incidence directe sur les tâches quotidiennes du référenceur ! Pour plus de détails, n’hésitez pas à consulter l’excellent dossier de Remi Bacha sur l’IA et le référencement […]

Répondre

J’ai réuni 14 experts SEO pour parler d’IA (Le cycle des IA 1 : Big Data)

Avant propos : les briques de l’IA

Exploiter la big data pour le SEO

J’utilise des scripts R pour analyser les data et générer des optimisations

L’idéal est de connaître au moins un langage de programmation

IA & DATA en SEO sont maintenant un combo essentiel dans notre métier

La suite du cycle des IA

A propos de l'auteur

Rémi Bacha

5 Commentaires

Annuler

Articles récents

Rémi Bacha

Avant propos : les briques de l’IA

Exploiter la big data pour le SEO

J’utilise des scripts R pour analyser les data et générer des optimisations

L’idéal est de connaître au moins un langage de programmation

IA & DATA en SEO sont maintenant un combo essentiel dans notre métier

La suite du cycle des IA

A propos de l'auteur

Rémi Bacha

5 Commentaires

Annuler

A lire aussi

Articles récents

Rémi Bacha