Catégories
L'actu SEO

Analyser l’indexation sur Google

Haaa Google et l’indexation ! Une grande histoire d’amour entre le moteur de recherche, la search console, et votre site. Depuis quelque temps Google à du mal à indexer les pages, et pourtant parfois in indexe n’importe quoi. Dans notre agence SEO les consultants s’arrachent parfois les cheveux quand ils voient une page pourtant de bonne qualité ne pas s’indexer. Heureusement, il semble que ça s’arrange depuis quelques semaines et que Google reprend enfin un rythme normal d’indexation.

Intro faite, nous allons vous montrer comment en agence nous analysons l’indexation des pages par Google en utilisant différents outils et grâce à notre expérience sur différents comptes.

Avant de commencer, reprenons les basics :

Qu’est-ce que l’indexation : L’indexation c’est quand les robots d’un moteur de recherche découvrent une page qui est “légitime” à être présentée dans des résultats de recherche. Une fois découverte et “compatible” les robots indexent la page, c’est-à-dire qu’elle apparaitra dans une liste de résultat.

Comment savoir si une page est indexée sur Google ?

Il existe 2 manières de savoir si une page est indexée par Google :

La commande site :
Le rapport d’indexation de la search console

la commande «site:» et ses limites

Traditionnellement, la mesure de l’indexation de ses contenus sur Google est faite grâce à la commande «site:monsite.com» dans Google. Cette requête renvoie l’ensemble des pages indexées de votre domaine par le moteur de recherche, mais aussi, et surtout le nombre de pages que le moteur associe à votre nom de domaine. Ici pour l’exemple du site web de notre agence SEO 1ere-position.fr Google retourne 598 pages indexées.

Oui, mais voilà… La représentativité de cet indicateur est relative puisqu’un crawl du site avec un outil tiers vous donnera environ 502 pages html de contenu indexable.

Ce manque de pertinence du chiffre donnée par Google par rapport à la réalité pourrait être expliqué par plusieurs facteurs que l’on retrouve maintenant dans le rapport de la search console.

Le rapport d’indexation de la Google search Console

La Google search console est un outil très fiable des performance et indexation de votre site. La data récupérée provient directement de votre site sans aucun service tiers. Si vous voulez tout savoir sur votre site : plongez-vous dans la GSC et imprégnez-vous des rapports et des données.

Que nous indique le rapport d’indexation de la GSC ?

La rapport d’indexation de la GSC nous indique de nouvelles données depuis quelques mois. Ces données sont précieuses, car elles sont fournies par “segments” avec les différents problèmes que pourrait avoir une page non indexée.

Voici la liste de ces données :

Page avec redirection
Autre page avec balise canonique correcte
Exclue par la balise “noindex”
Introuvable (404)
Bloquée par le fichier robots.txt
Erreur liée à des redirections
Page en double sans URL canonique sélectionnée par l’utilisateur
Explorée, actuellement non indexée
Détectée, actuellement non indexée
Page en double : Google n’a pas choisi la même URL canonique que l’utilisateur
Bloquée en raison d’une interdiction d’accès (403)
Erreur serveur (5xx)

Grâce à ces nouveaux “segments” nous pouvons comprendre plus facilement pourquoi nos pages s’indexent ou ne s’indexent pas.

Pourquoi des pages ne s’indexent pas dans Google ?

Allons un peu plus loin sur le sujet en décortiquant ces segments de problème d’indexations que nous fourni Google dans son rapport de la search console.

Il y’a des pages avec redirection :

Si votre site comporte de nombreuses pages avec redirection qu’il détecte On site ou Off site, il cherchera à les “Hiter”. S’il découvre que ces pages sont redirigées, il ne les indexera pas. C’est pourquoi il faut bien checker son site avec un audit technique pour trouver les pages qui renvoient un code 301 ou 302 pour les corriger. Dans ce rapport vous pourrez aussi vous rendre compte de problème de redirection. Il se peut que certaines de vos pages soient redirigées sans que ça soit votre intention, ou que ce soit une erreur technique.

Il y a une autre page avec balise canonique correcte :

Si sur votre site il existe des pages qui ont une autre URL en balise canonique, Google ne voudra pas les indexer. En effet les balises canoniques sont là pour pointer la page originale. Si 2 pages sont identiques en tout point sauf l’URL, il vous faut mettre une balise canonique sinon Google risque de ne pas comprendre qu’il s’agit d’une même page et la considérer en contenu dupliqué. Souvent ce sont des URL avec paramètres “?” dans l’URL qui se retrouve concernée par ce rapport. Assurez-vous bien d’avoir des balises canonical mises en place sur votre site si vous avez un ecommerce ou un moteur de recherche par exemple.

Il y a des urls de pages exclues par une balise noindex :

La balise noindex est une balise qui permet de montrer à Google qu’on ne veut pas indexer une page. Si des balises noindex sont présentent sur vos pages et que Google les détecte, il vous renverra ces URL dans ce segment de rapport. Contrôlez régulièrement ce rapport pour voir si vous n’avez pas oublié de lever une balise no index d’une page qui devraient être indexée.

Il y a des pages introuvables en code 404 :

Le code 404 est un code renvoyé pour dire qu’il y a une erreur et que Google n’arrive pas à trouver cette page. C’est souvent le cas si une URL comporte une erreur, ou si une page a disparu du site (page supprimée dans le back-office du site). Si la page a disparu et qu’un lien pointe vers elle, Google vous indique qu’il y’a un problème dans ce rapport. Ne paniquez pas ! Google à une bonne mémoire et parfois il enregistre de vieilles URL qui n’ont pas d’importance pour votre SEO. Si vous voulez vérifier que votre site n’a pas de 404, vous pouvez opter pour un audit technique, ou un crawl avec un outil SEO tel que “screaming frog”.

Google détecte des URL bloquées par le fichier robots.txt :

Grâce au fichier Robots.txt vous pouvez indiquer aux robots de ne pas visiter certaines pages ou certains répertoires de votre site. Ce fichier est très utile pour éviter de faire perdre du temps et de l’énergie aux robots à aller Hiter des pages qui n’ont pas d’intérêt.

Il y a des erreurs liées à des redirections :

À ce jour, il s’agit du même type de rapport que celui des pages avec redirection.

Il y a des pages explorées actuellement non indexées :

Ce rapport est très intéressant, car il recense les URL qui peuvent poser un problème à Google. Si Google a exploré la page (c’est-à-dire qu’il l’a entièrement parcouru) et qu’elles ne sont pas indexées, c’est peut-être pour des causes de mauvaise qualité ou un mauvais maillage. Si vous voyez vos pages apparaitre trop longtemps dans ce rapport, n’hésitez à pas à les modifier en leur apportant de nouvelles optimisations et forcer l’indexation dans la Search console.

Il y a des pages en double et Google n’a pas sélectionné la même URL canonique :

Il peut arriver que Google ne respecte pas les URL canoniques et indexe la mauvaise. Vous pouvez consulter ce rapport pour vérifier si le système de Google n’a pas fait d’erreur à ce sujet.

Il y a des URL bloquées par une interdiction d’accès (code 403) :

Si votre site comporte des URL avec des interdictions d’accès comme par exemple une page de connexion avec formulaire et mot de passe, il se peut qu’elle se retrouve dans ce rapport. Rien d’alarmant, ces cas sont plutôt rares.

Il y a des pages en erreur serveur (code 5xx) :

Les pages en erreur serveur peuvent être inquiétantes, cela peut arriver lors de surcharge du serveur par exemple quand il y a trop de trafic d’un seul coup ou des “attaques brutes force” par une armée de robots. Il peut aussi y avoir des problèmes techniques sur votre serveur à surveiller de très près.

Il y a des pages détectées, mais actuellement non indexées :

Google va détecter vos pages via des fichiers comme le sitemap ou via des liens présente dans vos pages crawlables. Si les pages ne s’indexent pas au bout d’un moment, nous vous conseillons de revoir leur structure, le sujet, la rédaction et le maillage.

 

Comment bien analyser ses pages dans la Google search console ?

Pour analyser, quels que soient les outils, il vous fait des KPI (Key Performance Indicateur : Indicateurs de performance clé). Et avec la Google Search Console c’est possible ! Voici une petite liste d’indicateurs qui vont vous permettre d’analyser votre site dans le GSC :

L’indexation : Est-ce que votre site s’indexe bien ? Est-ce qu’il s’indexe rapidement ? Quel est le pourcentage de pages qui ne s’indexe pas ? En prenant ces différents KPI, vous pourrez savoir si votre site n’a pas de soucis d’indexation u de problème sous-jacent.
Les clics : Chaque clic en provenance de Google est enregistré dans la Search console. Vous pouvez trouver cette data dans l’onglet “résultat de recherche”. L’outil vous indiquera les clics par page, mais aussi les clics par Mots-clés.
Les Impressions : On peut analyser son site en surveillant les impressions que les pages génèrent. Les impressions correspondent à la visibilité de vos pages dans les résultats de recherche. Si votre site fait beaucoup d’impressions, il y’a fort à parier que vous aurez des clics. S’il y’a peu ou pas d’impression, c’est que votre site n’est pas visible ou qu’il ne répond à aucune intention de recherche.
La position moyenne : Très très utilisée pour avoir une moyenne de position sur certains mots-clés. Ainsi vous pouvez monitorer vos mots-clés grâce à la search console. Idéal pour faire vos rapports à la direction ou à vos clients.
Le nombre de liens entrants : Vous pouvez analyser et contrôler les nouveaux liens entrants vers votre domaine.

Nous avons donc là des indicateurs potentiels permettant d’analyser la pertinence des contenus de vos pages tout à fait intéressants que l’on pourrait nommer  «taux de pertinence», «taux de qualité», «taux d’indexation» qui pourrait constituer un KPI SEO dans bien des contextes.

 

Analyser l’indexation via le rapport de sitemap

La création d’un sitemap de toutes vos pages à indexer fait partie des bonnes pratiques en SEO. Il vous faut pour cela avoir un fichier XML à la racine de votre site avec la liste de vos URL indexables. Fort heureusement des plugins et autres extensions SEO le font comme Yoast, ou Rank math sur WordPress.

Une fois votre sitemap à la racine de votre site, vous devez renseigner l’URL du sitemap dans le fichier robots.txt, mais aussi dans la search console.

Voici 2 grands avantages à avoir un sitemap.xml :

Le premier avantage du sitemap XML est qu’il peut être généré dynamiquement par le CMS et qu’il sera mis à jour automatiquement. L’avantage est également que la plupart des CMS permettant de générer des sitemap dynamiques ne vont proposer que les URL pertinentes (indépendamment des problèmes de duplication de contenu qui peuvent survenir avec des URL dynamiques).
Le second avantage est qu’il est possible de thématiser ces sitemaps XML afin d’avoir une vue sur le taux de pertinence de chaque type de contenu de votre site (fiche produit, catégorie, par ex pour un site e-commerce).

Une fois que votre sitemap est bien pris en compte par la search console, vous pouvez trouver le rapport d’indexation comme ceci :

 

Sur cette capture d’écran vous pouvez voir le contenu de votre index de sitemap avec 3 autres sitemap :

Le sitemap des catégories
Le sitemap des pages
Le sitemap des articles

Si vous voulez voir le rapport d’indexation de vos URL présentes dans le sitemap, il vous faut cliquer sur “VOIR LA COUVERTURE D’INDEXATION”

Vous arriverez alors sur le rapport qui concerne uniquement votre sitemap.

Cela vous permet d’analyser et quantifier les pages qui ne sont pas indexées, mais aussi les pages qui se sont indexées, mais non présentent dans le fichier sitemap.

Utiliser les filtres pour votre analyse

Comme vous pouvez le voir sur l’image ci-dessus, il est possible de filtrer les URL avec des termes “contient” ou “ne contiens pas” ou avec des regex. Les filtres vous permettent facilement d’aller chercher des paternes d’URL comme par exemple “/blog/” et alors obtenir toutes les URL des articles de blog.

Comment aller plus loin dans l’analyse de l’indexation ?

Maintenant que vous avez pu voir et quantifié les pages non indexées, vous pouvez aller plus loin et chercher à comprendre pourquoi vos pages ne s’indexent pas !

Bien évidemment, nous partons du principe que vous avez vérifié tout ce qui est aspect technique, maintenant il faut se concentrer sur l’aspect sémantique, maillage et linking. Voici une liste de question qui peut vous aider à analyser vos pages non indexées :

Est-ce que ma page est bien structurée avec des titres Hn ?
Est-ce que ma page à assez de contenus (image + texte + vidéo)?
Est-ce que ma page n’est pas orpheline?
Est-ce que Google vient souvent sur mon site ?
Est-ce que ma page n’est pas dupliquée sur mon site ?
Est-ce que la page à un réel intérêt?

Voilà bien des questions qui devront avoir leurs réponses pour que votre site s’indexe bien.

Que faire si mes pages ne s’indexent pas naturellement ?

Si même avec votre sitemap vos pages ne s’indexent pas, vous pouvez toujours opter pour une demande d’indexation via la Search console. Attention, les demandes sont limitées par jours.

Autre possibilité : Vous pouvez utiliser d’outils tiers payant (avec crédit) comme Indexation.fr qui permettent de pousser les pages en index.

Un autre outil permet de faciliter l’indexation, il s’agit de Rank Math et sa fonction “indexation instantanée” qui utilise l’API de la Search console.

Encore un, derniers tips pour la route : Créez des liens (Backlinks) vers vos pages qui ne s’indexent pas, Google finira par leur donner de l’importance et l’ajouter à son index.

Cet article Analyser l’indexation sur Google est apparu en premier sur 1ère Position.

Voir l'article original