Ceci est un exemple de rapport d'audit de sitemap et de détection de pages orphelines, généré par l'outil Audit RM Sitemaps de la plateforme My Ranking Metrics. Il s'agit d'un rapport d'audit réel qui a été anonymisé (certains liens ne sont pas actifs pour cette version).

Audit RM Sitemaps

Analyse de example.com (7 297 URL)

1 Introduction

1.1 Objectif de ce rapport

Vous trouverez dans ce document les résultats de l'audit de sitemaps, avec de nombreuses explications ainsi que des annexes contenant toutes les données.

Toutes les analyses qui découlent de cet audit doivent donc être considérées en fonction de l'état du site ce jour-là. Voici les conditions de l'analyse :

  • Site analysé : example.com
  • Sitemaps déclarés : 1 URL de sitemap Sitemaps déclarés : 1 URL de sitemap :
    • https://www.example.com/sitemap.xml
  • Nombre maximal d'URL à explorer : 10 000
  • Nombre maximal d'URL à explorer pour les pages orphelines : 20 000
  • Motif d'inclusion : aucun
  • Motif d'exclusion : .jpg OR .jpeg OR .png OR .gif
  • User-Agent pour le site : Mozilla/5.0 (Windows NT 6.1; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0
  • User-Agent pour le robots.txt : Googlebot
  • Ignorer les images dans les sitemaps XML : oui
  • Vitesse de l'exploration : 1.0 requête par seconde
  • Ignorer le robots.txt : non
  • Couplage avec RM Tech : oui
  • Données Google Analytics : compte "example.com", propriété "www.example.com", vue "example.com", trafic "organic" uniquement, sur les 365 derniers jours
  • Données Google Search Console : propriété https://www.example.com/, sur tous types d'appareil, sur les 365 derniers jours

Au total, 9 077 URL ont été crawlées.

  • 7 297 URL trouvées dans les sitemaps
  • 1 780 trouvées dans Google Analytics / Search Console et absentes des sitemaps (pour la recherche de pages orphelines)

Vous trouverez à la fin de ce rapport des explications techniques sur le fonctionnement de notre outil ainsi que des définitions des termes utilisés dans le jargon du référencement naturel (SEO).

Les données sont disponibles sous forme exhaustive dans des fichiers annexes au format Excel ainsi qu'au format TSV (Tab-separated values) que vous pouvez facilement ouvrir dans Excel ou tout autre tableur.

Vous pouvez télécharger l'ensemble de ces fichiers annexes dans un seul fichier au format ZIP en cliquant sur le bouton ci-dessous :

Annexes

Les annexes sont disponibles dans le fichier ZIP annexes-example_com.zip.

1.2 Comment exploiter cet audit

Cet audit vous aide à vérifier que toutes les URL de vos sitemaps sont bien indexables.

Si vous couplez cet audit avec RM Tech, Google Analytics et Search Console, vous obtenez des informations à haute valeur ajoutée telles que :

  • une liste de pages orphelines : soit des bonnes pages qu'il faudrait relier au site, soit des mauvaises qu'il faudrait désindexer ou supprimer
  • une liste de pages absentes des sitemaps : soit des bonnes pages qu'il faudrait lister dans les sitemaps, soit des mauvaises qu'il faudrait désindexer ou supprimer
  • une liste de pages qui ne semblent pas indexées dans Google (aucune performance), avec des données qui aident à comprendre leurs problèmes

2 Synthèse des résultats

2.1 Bilan des URL de sitemaps

URL du sitemap Code HTTP Type MIME Nb URL Nb URL sans doublons Remarque
https://www.example.com/sitemap.xml 200 application/xml 7 297 7 297 -

2.2 Taux d'erreur

Sur les 7 297 URL fournies dans les sitemaps, aucune n'était en doublon.

Ce tableau regroupe toutes les analyses faites pour cet audit :

Élément analysé Optimisation Erreurs constatées sur les pages
en pourcentage en nombre de pages
URL bloquées au crawl 0 % (1) aucune
URL inaccessibles 1,90 % (2) 139
Pages non-indexables 0 % (3) aucune
Pages orphelines n/a 130
Pages absentes des sitemaps 10,69 % (4) 854
Pages sans aucune performance SEO 0,61 % (5) 44
  • (1) pourcentage calculé par rapport au nombre d'URL fournies dans les sitemaps, dédoublonnées, soit ici 7 297 URL. Le dédoublonnage consiste à supprimer les URL présentes plusieurs fois dans les sitemaps fournis.
  • (2) pourcentage calculé par rapport au nombre d'URL fournies dans les sitemaps autorisées au crawl (celles qui ne sont pas bloquées par un fichier robots.txt), soit ici 7 297 URL.
  • (3) pourcentage calculé par rapport au nombre d'URL fournies dans les sitemaps correspondant à des pages HTML accessibles (le serveur a renvoyé un code HTTP 200), soit ici 7 158 URL.
  • (4) pourcentage calculé par rapport au nombre d'URL de pages HTML indexables de l'audit RM Tech sélectionné, soit ici 7 992 URL.
  • (5) pourcentage calculé par rapport au nombre d'URL fournies dans les sitemaps de pages HTML indexables, d'après les données issues des couplages à Google Analytics et Google Search Console, soit ici 7 158 URL.

Explications sur le code couleur :

  • vert = succès : moins de 5% des pages sont en erreur
  • jaune = avertissement : entre 5% et 30% des pages sont en erreur
  • rouge = erreur : plus de 30% des pages sont en erreur

3 Crawl et indexabilité

Voici la méthode suivie par RM Sitemaps pour l'analyse du crawl et de l'indexabilité :

  1. nous supprimons les éventuels doublons (URL présentes dans plusieurs sitemaps)
  2. nous faisons le point sur les (éventuelles) URL qui n'ont pas été crawlées en raison d'une interdiction figurant dans un fichier robots.txt
  3. nous listons l'ensemble des URL crawlées (qu'elles soient accessibles ou pas) ; c'est sur ce nombre d'URL crawlées que se fait le calcul du nombre de crédits consommés pour cet audit
  4. parmi les pages HTML accessibles, nous étudions celles qui sont indexables (nous ne vérifions pas si Google les a indexées, mais aucun critère technique n'empêche qu'elles le soient)

3.1 Suppression des URL en doublons

Dans le cas où plusieurs sitemaps ont été fournis en entrée, ou bien sont listés dans un ou des index de sitemaps, il est possible que des URL soient présentes plusieurs fois. Il est même possible de trouver des doublons dans un même fichier ou liste fournie en entrée.

Cela ne pose aucun problème en termes de référencement, mais cela perturbe les analyses (au niveau des chiffres et des calculs de pourcentages).

C'est pourquoi la toute première étape de l'audit a consisté à identifier ces doublons pour les supprimer ("dédoublonnage").

Attention, il s'agit d'un traitement informatique sans crawl. Par exemple, si une URL A dans un sitemap redirige vers une URL B déjà présente dans un sitemap fourni en entrée, on pourrait considérer que A est une sorte de doublon de B. Les doublons retirés sont uniquement basés sur les chaînes de caractères des URL fournies en entrée. La casse (minuscules/majuscules) est prise en compte.

Sur les 7 297 URL fournies dans les sitemaps, aucune n'était en doublon.

Annexe

Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.

Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.

3.2 Bilan des URL bloquées par le(s) fichier(s) robots.txt

RM Sitemaps respecte les directives indiquées dans les fichiers robots.txt (il doit y en avoir un pour chaque sous-domaine), concernant Googlebot (le crawler de Google).

Nous vous conseillons de mettre en ligne un fichier robots.txt pour chaque sous-domaine, même s'il est vide. Ceci évite de générer des erreurs 404 à chaque fois qu'un robot cherche à y accéder. C'est la raison pour laquelle nous indiquons le code HTTP du fichier robots.txt de chaque sous-domaine crawlé (ce code doit donc être 200).

Voici la répartition des URL bloquées par un fichier robots.txt et qui sont pourtant listées dans un ou plusieurs sitemaps :

Fichier robots.txt Code HTTP Nombre d'URL bloquées
https://www.example.com/robots.txt 200 0
http://www.example.com/robots.txt 200 0
Total 0

Bien entendu, aucune URL stratégique pour votre business ne doit être bloquée par un fichier robots.txt ! Notre analyse et surtout l'annexe ci-dessous vous permettent de le vérifier.

Annexe

Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.

Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.

Annexe

Cliquez sur le bouton ci-dessous pour télécharger l'ensemble des fichiers robots.txt récupérés :

Le fichier annexe example_com-robotstxt.zip contient l'ensemble des fichiers robots.txt récupérés.

3.3 Nombre total d'URL crawlées

À partir d'ici et pour tout le reste de ce rapport, nous ne tenons compte que des URL autorisées au crawl (non bloquées dans un fichier robots.txt).

Dans votre cas, nous avons pu analyser 100 % des URL fournies dans les sitemaps. Le nombre d'URL crawlées a été de 7 297.

Voici la répartition selon les protocoles HTTP et HTTPS :

Protocole Nb d'URL % des URL crawlées
HTTP 0 0 %
HTTPS 7 297 100 %

3.4 État des URL crawlées

Voici le bilan des codes HTTP rencontrés (lisez leur signification en fin de rapport) :

Code HTTP Nb d'URL en HTTP Nb d'URL en HTTPS Nb d'URL (HTTP et HTTPS) % des URL crawlées
200 0 7 158 7 158 98,10 %
301 0 131 131 1,80 %
404 0 8 8 0,11 %
Total erreurs 3xx 0 131 131 1,80 %
Total erreurs 4xx 0 8 8 0,11 %
Total erreurs 0 139 139 1,90 %

Remarque : même si les redirections ne sont pas à proprement parler des erreurs techniques, c'est pénalisant pour le référencement. C'est pourquoi nous les avons incluses dans le calcul des erreurs. Nous vous conseillons de ne lister dans vos sitemaps que les URL finales, pas celles qui se font rediriger.

Voici ce que cela donne sous forme graphique :

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_3_4_etat-urls-crawlees.xlsx contient les données associées.

3.5 Types MIME

Voici la liste des types MIME (lisez leur signification en fin de rapport) rencontrés pour les pages répondant correctement (code HTTP 200) :

Type MIME Nb d'URL % des URL crawlées en code 200
text/html 7 158 100 %

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_03-5_types-mime.xlsx contient les données associées.

3.6 Pages HTML crawlées sans erreur

Le référencement naturel se travaille essentiellement avec les pages HTML. Nous avons donc regroupé dans un fichier TSV les principales informations disponibles pour l'ensemble de vos pages HTML crawlées sans erreur (code HTTP 200) :

  • URL
  • Title
  • Meta description
  • Balise d'URL canonique
  • URL canonique via en-tête HTTP
  • Meta robots
  • En-tête HTTP X-Robots-Tag

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_03-6_pages-sans-erreur.xlsx contient les données associées.

3.7 Pages HTML indexables par les moteurs

Le référencement naturel se travaillant essentiellement pour les pages HTML, notre analyse porte ici exclusivement sur les pages HTML.

Nous souhaitons étudier l'indexabilité de vos pages, c'est-à-dire la possibilité qu'elles soient indexées. On parle donc de pages « indexables ».

Les pages HTML indexables sont toutes celles :

  • qui renvoient un code 200
  • et qui ne sont pas interdites d'indexation (via une balise meta robots noindex ou none, ou bien un en-tête HTTP X-Robots-Tag)
  • et qui ne contiennent pas d'URL canonique différente de l'URL crawlée

Voici le décompte pour votre site :

Nb d'URL % des URL HTML code 200
Pages HTML avec code HTTP 200 (A) 7 158
Dont pages interdites d'indexation 0 0 %
Dont pages avec URL canonique différente de l'URL crawlée 0 0 %
Nb total de pages non-indexables (B) 0 0 %
Nombre de pages HTML indexables (A - B) 7 158 100 %

Sauf cas particuliers dont vous connaissez bien l'existence sur votre propre site, le pourcentage de pages indexables devrait être élevé (proche de 100 %).

En effet, il n'est pas efficace de laisser de nombreuses pages se faire crawler alors que vous exigez qu'elles ne soient pas indexées.

4 Analyse avancée

Si vous couplez cet audit avec RM Tech et Google Analytics et/ou Search Console, vous obtenez des informations à haute valeur ajoutée telles que :

  • une liste de pages orphelines : soit des bonnes pages qu'il faudrait relier au site, soit des mauvaises qu'il faudrait désindexer ou supprimer
  • une liste de pages absentes des sitemaps : soit des bonnes pages qu'il faudrait lister dans les sitemaps, soit des mauvaises qu'il faudrait désindexer ou supprimer
  • une liste de pages qui ne semblent pas indexées dans Google (aucune performance), avec des données qui aident à comprendre leurs problèmes

Pour une analyse complète et efficace, il faut donc coupler RM Sitemaps à tous ces outils et données. Soyez cependant bien conscients que les données ne sont vraiment exploitables que si vous avez respecté toutes les recommandations listées en fin de rapport.

Toutes les analyses qui en découlent doivent donc être considérées en fonction de l'état du site le jour de l'audit RM Tech, en plus de celui de l'audit RM Sitemaps.

Dans cette section, tout ce qui suit est basé sur les pages HTML indexables (fournies dans les sitemaps ou trouvées par un crawl du site).

Aucun échantillonnage n'a été effectué par Google Analytics pour fournir ces données (explications). Si en allant dans votre compte Google Analytics vous n'obtenez pas les mêmes valeurs pour les mêmes conditions que cet audit, cela peut provenir de l'échantillonnage. En effet, la récupération des données est réalisée via une méthode basée sur l'API officielle qui réduit les cas où l'échantillonnage se produit.

À savoir : les performances des pages AMP ne sont actuellement pas prises en compte (seules celles de la version HTML le sont).

4.1 Pages orphelines

Dans ce contexte, on appelle orpheline une page HTML présente sur le site mais non reliée aux autres pages. En d'autres termes, elle est connue mais il n'existe aucun moyen de la trouver sur le site (en tout cas en cliquant sur des liens internes follow autorisés au crawl).

Pour trouver les pages orphelines, il faut d'une part faire un crawl exhaustif du site (ce qui peut être fait avec le couplage RM Tech) et d'autre part exploiter d'autres sources de données (comme les sitemaps mais aussi Google Analytics ou Google Search Console).

Dans votre cas, la recherche des pages orphelines a été effectuée en comparant les URL trouvées dans le crawl (audit RM Tech) avec celles en entrée de cet audit de sitemaps ainsi que celles trouvées dans Google Analytics et Google Search Console.

Bilan : 130 pages orphelines ont été trouvées :

  • 20 ont été trouvées dans les sitemaps
  • 28 ont été trouvées dans Google Analytics
  • 124 ont été trouvées dans Google Search Console

Parmi ces 130 URL orphelines, 110 sont absentes des sitemaps, ce qui ne devrait pas se produire.

Précision : toutes les pages orphelines trouvées ici sont indexables (ceci a été vérifié à l'heure de cet audit).

Passez en revue chaque URL pour faire cette analyse :

  • Si la page est effectivement stratégique : aucun lien interne follow n'a été trouvé sur le site, ce qui est néfaste pour elles en termes de référencement naturel. Trouvez un bon moyen pour ajouter des liens internes follow vers elle.

  • Sinon, décidez si la page doit rester en ligne et indexable. Si besoin, désindexez-la ou supprimez-la proprement.

Remarque : si jamais votre audit RM Tech n'a pas porté sur 100 % des URL du site (par exemple car vous avez fixé un nombre maximal d'URL inférieur au nombre d'URL trouvées sur le site, ou des motifs d'exclusion d'URL, etc.), alors cette analyse des pages orphelines ne peut pas être exacte.

L'annexe ci-dessous fournit la liste des URL concernées.

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_4_1_pages-orphelines.xlsx contient les données associées.

4.2 Pages absentes des sitemaps

Il s'agit ici de la situation inverse : des pages sont trouvées sur le site mais absentes des sitemaps. Il y a 2 cas de figure :

  • si c'est une page utile au référencement, il serait préférable qu'elle soit listée dans un sitemap. Mais si ce n'est pas indispensable, avoir dans vos sitemaps 100 % des URL à faire indexer facilite vos analyses du référencement naturel.
  • sinon, c'est une page qui ne devrait pas être indexable ou peut-être même ne pas exister sur le site. Elle fait sans doute partie de ce qu'on appelle la “masse noire” ou même les “pages zombies”.

Parmi les 7 992 URL de pages indexables trouvées sur le site, 854 URL sont absentes des sitemaps déclarés dans cet audit, soit 10,69 %.

Si ces pages sont effectivement stratégiques, ajoutez-les dans vos sitemaps.

L'annexe ci-dessous fournit la liste des URL concernées.

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_4_2_pages-absentes-sitemaps.xlsx contient les données associées.

4.3 Pages sans aucune performance SEO

Grâce au couplage de RM Sitemaps avec RM Tech, Google Analytics et Google Search Console, il est possible d'identifier parmi les URL listées dans les sitemaps celles qui sont "sans aucune performance SEO". En effet, ces pages :

  • n'ont jamais été affichées dans les pages de résultats (selon les données fournies par Search Console)
  • n'ont jamais généré de visites en référencement naturel Google (selon les données fournies par Google Analytics)

Concrètement, ces pages peuvent :

  • être orphelines
  • ne pas être indexées
  • être trop mal positionnées, s'affichant très loin dans les résultats
  • ne pas avoir intéressé d'internautes sur cette période

Dans votre cas, 44 pages sans aucune performance ont été trouvées.

Vous trouverez dans l'annexe en conclusion la liste de ces pages, avec des indications précieuses issues de l'audit RM Tech (déterminées le jour de cet audit). Elles devraient vous aider à comprendre leurs contre-performance :

  • QualityRisk : cet indice indique le risque que l'internaute soit déçu par la page. Il devrait être à zéro, ou sinon inférieur à 20, le maximum étant 100
  • Indice zombie : il indique si la page a non seulement des problèmes de qualité mais également des mauvaises performances SEO. Il devrait être à zéro, ou sinon inférieur à 20, le maximum étant 100
  • Profondeur : statistiquement, plus une page est profonde, plus ses performances SEO chutent
  • Nb de liens entrants internes follow : il est recommandé d'avoir plusieurs liens internes pointant vers chaque page, si possible en diversifiant les ancres (texte cliquable du lien)
  • Temps de téléchargement en ms : même si ce n'est pas forcément bloquant, il est recommandé d'avoir des pages qui se téléchargent en 600ms maximum (Google conseille même 200ms) ; il s'agit ici uniquement du code HTML sans aucune ressource externe (images, CSS, Javascript)
  • Balise title non-vide mais dupliquée sur le site : chaque page doit avoir son propre titre, sinon cela augmente les risques que Google la considèrent en contenu dupliqué et ne l'indexe pas
  • Gravité du problème de taille du contenu : cet indice indique le manque éventuel de contenu texte dans la zone principale de la page. Il devrait être égal à zéro (le pire étant 100).
  • Contenu strictement identique à au moins une autre page : vous ne devriez pas avoir plusieurs URL distinctes affichant strictement le même contenu, sinon cela augmente les risques que Google la considèrent en contenu dupliqué et ne l'indexe pas
  • ID de session dans l'URL : les identifiants de session dans l'URL perturbent beaucoup le crawl de Google, qui risque de ne pas indexer les URL qui en contiennent

5 Conclusion

Vous trouverez dans l'annexe ci-dessous l'ensemble des données analysées pour toutes les URL fournies dans les sitemaps (dédoublonnées).

Annexe

Cliquez sur le bouton ci-dessous pour télécharger les données associées :

Le fichier annexe example_com_5_conclusion.xlsx contient les données associées.

6 Explications complémentaires

6.1 Fonctionnement de notre outil RM Sitemaps

Grâce aux outils spécifiques développés dans notre centre de recherche, nous avons pu faire une analyse des URL fournies dans les sitemaps, comme Google peut le faire.

Au fil des années, nous avons pu mettre au point un outil qui reproduit de manière assez fidèle le fonctionnement de Googlebot (le robot de Google). Par exemple :

  • Nous respectons le fichier robots.txt de la même façon que Google (avec donc quelques particularités par rapport au standard)
  • Nous tenons compte également :
    • des balises meta robots
    • des directives passées dans l'entête HTTP (pour l'URL canonique ou pour les directives d'indexation et de suivi des liens)
  • Nous ne gérons pas :
    • les cookies
    • le javascript (et ajax ou équivalent)
  • Nous ne gérons que les sitemaps de pages HTML (donc pas les sitemaps actualités, vidéos, images, etc.) aux formats XML ou texte brut.

6.2 Pour un couplage efficace avec les autres outils

Pour que le couplage de RM Sitemaps avec RM Tech soit exploitable, vous devez respecter toutes ces conditions :

  • le périmètre doit être identique entre RM Tech et RM Sitemaps (protocoles HTTP/HTTPS, sous-domaines, restrictions avec les motifs d'inclusion et d'exclusion)
  • aucun audit ne doit s'être arrêté avant la fin pour cause de nombre maximal d'URL à crawler
  • les autres paramétrages doivent être identiques (User-Agent, prise en compte des fichiers robots.txt...)
  • le site ne doit pas avoir changé (il vaut mieux enchainer l'audit RM Tech et l'audit RM Sitemaps)

6.3 Signification des codes HTTP

Voici les principaux codes HTTP (retrouvez la liste complète sur Wikipédia).

Les principales familles de codes :

  • Codes 2XX (commençant par "2") : succès
  • Codes 3XX (commençant par "3") : redirection
  • Codes 4XX (commençant par "4") : erreur du client
  • Codes 5XX (commençant par "5") : erreur du serveur

Les codes les plus courants :

  • 200 = OK : l'URL a été trouvée
  • 301 = Moved Permanently : l'URL a été déplacée de façon permanente (redirection 301)
  • 302 = Moved Temporarily : l'URL a été déplacée de façon temporaire (redirection 302)
  • 400 = Bad Request : la syntaxe de la requête est erronée
  • 401 = Unauthorized : une authentification est nécessaire pour accéder à la ressource
  • 403 = Forbidden : accès interdit (droits d'accès insuffisants)
  • 404 = Not Found : l'URL est introuvable
  • 410 = Gone : la ressource est indisponible et aucune adresse de redirection n'est connue (en général, c'est le cas des document supprimés définitivement)
  • 500 = Internal Server Error : erreur interne du serveur
  • 503 = Service Unavailable : serveur temporairement indisponible ou en maintenance
  • 504 = Gateway Time-out : temps d'attente d'une réponse d'un serveur à un serveur intermédiaire écoulé

6.4 Signification des types MIME

Voici les principaux types MIME, c'est-à-dire les formats de données des documents situés sur un site Internet (retrouvez la liste complète sur Wikipédia) :

  • text/css : CSS (feuilles de styles)
  • text/csv : CSV (données séparées par une virgule)
  • text/html : HTML
  • text/plain : texte brut
  • text/xml : XML
  • image/bitmap : image au format bitmap
  • image/gif : image au format GIF
  • image/jpeg : image au format JPEG
  • image/png : image au format PNG
  • image/svg+xml : image au format SVG
  • image/tiff : image au format TIFF
  • application/javascript : JavaScript
  • application/json : JSON (JavaScript Object Notation)
  • application/msword : Microsoft Word
  • application/pdf : PDF
  • application/xhtml+xml : XHTML
  • application/xml : XML
  • application/x-shockwave-flash : Flash
  • application/zip : ZIP

6.5 Signification des termes SEO

Voici les principaux termes utilisés dans le jargon du référencement naturel (SEO) et notamment dans ce rapport d'audit. Vous trouverez des liens vers des articles qui détaillent les notions correspondantes :

  • HTTP et HTTPS : HTTP est le protocole standard d'accès à des documents sur le web, tandis que HTTPS est la version sécurisée (transmission cryptée). Une URL en HTTP et la même en HTTPS sont considérées comme 2 URL distinctes.
  • Google Search Console : interface proposée par Google pour fournir au webmaster plusieurs informations concernant son site dans Google (problèmes de crawl ou d'indexation, pénalités, etc.). En savoir plus : site officiel, dossiers WebRankInfo. Bing propose la même chose (voir ici).
  • URL indexable : il s'agit d'une URL qui ne présente aucun obstacle technique pour que Google l'indexe. Il faut qu'elle ne soit pas bloquée au crawl (dans le fichier robots.txt) et qu'elle soit accessible (donc que le code HTTP renvoyé par le serveur soit 200) et qu'elle ne soit pas interdite d'indexation (via la balise meta robots noindex ou un entête HTTP X-Robots-Tag) et qu'elle ne contienne pas d'URL canonique différente. En général, une URL indexable est indexée par Google (mais ce rapport ne le vérifie pas). En savoir plus : dossiers WebRankInfo.
  • URL canonique : il s'agit de l'URL officielle d'une page. On l'utilise surtout dans le cas où un même contenu est disponible à plusieurs URL (dans ce cas pour ces différentes URL on indique quelle est l'URL officielle). En savoir plus : aide Google, dossiers WebRankInfo.
  • Fichier robots.txt : situé à la racine de chaque sous-domaine, il liste les éventuels endroits du site pour lesquels tous ou certains robots n'ont pas le droit de venir crawler. En savoir plus : aide Google, spécifications Google, dossiers WebRankInfo.
  • Balise meta robots : cette balise permet de restreindre les robots tels que Googlebot pour leur interdire par exemple d'indexer la page (noindex) ou de tenir compte des liens présents sur la page (nofollow). En savoir plus : aide Google, dossiers WebRankInfo.
  • En-tête HTTP X-Robots-Tag : pour les documents non HTML, il n'est pas possible d'utiliser une balise meta robots. On peut dans ce cas passer des instructions par l'entête HTTP. En savoir plus : aide Google, dossiers WebRankInfo.
  • Redirection (301 ou 302) : on parle de redirection d'une URL A vers une URL B quand, en cherchant à accéder à A, le serveur nous renvoie vers B. En référencement, il faut privilégier la redirection permanente (code HTTP 301) dans la majorité des cas. Il existe de nombreux moyens de gérer les redirections. En savoir plus : aide Google, dossiers WebRankInfo.
  • Sitemap : un fichier sitemap liste des URL que l'on souhaite faire crawler par les moteurs de recherche (en général pour qu'ils indexent les URL concernées). Ce n'est pas obligatoire mais ça peut aider à accélérer le crawl ou dans le suivi du référencement. En savoir plus : aide Google, dossiers WebRankInfo.