Ceci est un exemple de rapport d'audit de sitemap et de détection de pages orphelines, généré par l'outil Audit RM Sitemaps de la plateforme My Ranking Metrics. Il s'agit d'un rapport d'audit réel qui a été anonymisé (certains liens ne sont pas actifs pour cette version).
Vous trouverez dans ce document les résultats de l'audit de sitemaps, avec
de nombreuses explications ainsi que des annexes contenant toutes les
données.
Toutes les analyses qui découlent de cet audit doivent donc être considérées en
fonction de l'état du site ce jour-là. Voici les conditions de l'analyse :
Site analysé : example.com
Sitemaps déclarés :
1 URL de sitemap
Sitemaps déclarés :
1 URL de sitemap :
https://www.example.com/sitemap.xml
Nombre maximal d'URL à explorer : 10 000
Nombre maximal d'URL à explorer pour les pages orphelines : 20 000
Motif d'inclusion : aucun
Motif d'exclusion : .jpg OR .jpeg OR .png OR .gif
User-Agent pour le site : Mozilla/5.0 (Windows NT 6.1; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0
User-Agent pour le robots.txt : Googlebot
Ignorer les images dans les sitemaps XML : oui
Vitesse de l'exploration : 1.0 requête par seconde
Ignorer le robots.txt : non
Couplage avec RM Tech : oui
Données Google Analytics : compte "example.com", propriété "www.example.com", vue "example.com", trafic "organic" uniquement, sur les 365 derniers jours
Données Google Search Console : propriété https://www.example.com/,
sur tous types d'appareil,
sur les 365 derniers jours
Au total, 9 077 URL ont été crawlées.
7 297 URL trouvées dans les sitemaps
1 780 trouvées dans Google Analytics / Search Console et absentes des sitemaps (pour la recherche de pages orphelines)
Vous trouverez à la fin de ce rapport
des explications techniques sur le fonctionnement de notre outil ainsi que
des définitions des termes utilisés dans le jargon du référencement naturel
(SEO).
Les données sont disponibles sous forme exhaustive dans des fichiers
annexes au format Excel ainsi qu'au format TSV (Tab-separated values) que
vous pouvez facilement ouvrir dans Excel ou tout autre tableur.
Vous pouvez télécharger l'ensemble de ces fichiers annexes dans un seul
fichier au format ZIP en cliquant sur le bouton ci-dessous :
Annexes
Les annexes sont disponibles dans le fichier ZIP annexes-example_com.zip.
1.2 Comment exploiter cet audit
Cet audit vous aide à vérifier que toutes les URL de vos sitemaps sont bien
indexables.
Si vous couplez cet audit avec RM Tech, Google Analytics et Search Console, vous obtenez des
informations à haute valeur ajoutée telles que :
une liste de pages orphelines : soit des bonnes pages qu'il faudrait relier au site, soit des mauvaises qu'il faudrait désindexer ou supprimer
une liste de pages absentes des sitemaps : soit des bonnes pages qu'il faudrait lister dans les sitemaps, soit des mauvaises qu'il faudrait désindexer ou supprimer
une liste de pages qui ne semblent pas indexées dans Google (aucune performance), avec des données qui aident à comprendre leurs problèmes
2 Synthèse des résultats
2.1 Bilan des URL de sitemaps
URL du sitemap
Code HTTP
Type MIME
Nb URL
Nb URL sans doublons
Remarque
https://www.example.com/sitemap.xml
200
application/xml
7 297
7 297
-
2.2 Taux d'erreur
Sur les 7 297 URL fournies dans les sitemaps,
aucune n'était en doublon.
Ce tableau regroupe toutes les analyses faites pour cet audit :
(1) pourcentage calculé par rapport au nombre d'URL fournies dans les
sitemaps, dédoublonnées, soit ici 7 297 URL. Le
dédoublonnage consiste à supprimer les URL présentes plusieurs fois dans les
sitemaps fournis.
(2) pourcentage calculé par rapport au nombre d'URL fournies dans les
sitemaps autorisées au crawl (celles qui ne sont pas bloquées par un fichier
robots.txt), soit ici 7 297 URL.
(3) pourcentage calculé par rapport au nombre d'URL fournies dans les
sitemaps correspondant à des pages HTML accessibles (le serveur a renvoyé un
code HTTP 200), soit ici 7 158 URL.
(4) pourcentage calculé par rapport au nombre d'URL de pages
HTML indexables de l'audit RM Tech sélectionné, soit ici
7 992 URL.
(5) pourcentage calculé par rapport au nombre d'URL fournies
dans les sitemaps de pages HTML indexables, d'après les données issues des
couplages à Google Analytics et Google Search Console, soit ici 7 158
URL.
Explications sur le code couleur :
vert = succès : moins de 5% des pages sont en erreur
jaune = avertissement : entre 5% et 30% des pages sont en erreur
rouge = erreur : plus de 30% des pages sont en erreur
3 Crawl et indexabilité
Voici la méthode suivie par RM Sitemaps pour l'analyse du crawl et de l'indexabilité :
nous supprimons les éventuels doublons (URL présentes dans plusieurs
sitemaps)
nous faisons le point sur les (éventuelles) URL qui n'ont pas été
crawlées en raison d'une interdiction figurant dans un fichier
robots.txt
nous listons l'ensemble des URL crawlées (qu'elles soient accessibles ou
pas) ; c'est sur ce nombre d'URL crawlées que se fait le calcul du
nombre de crédits consommés pour cet audit
parmi les pages HTML accessibles, nous étudions celles qui sont
indexables (nous ne vérifions pas si Google les a indexées, mais aucun
critère technique n'empêche qu'elles le soient)
3.1 Suppression des URL en doublons
Dans le cas où plusieurs sitemaps ont été fournis en entrée, ou bien sont
listés dans un ou des index de sitemaps, il est possible que des URL soient
présentes plusieurs fois. Il est même possible de trouver des doublons dans
un même fichier ou liste fournie en entrée.
Cela ne pose aucun problème en termes de référencement, mais cela perturbe
les analyses (au niveau des chiffres et des calculs de pourcentages).
C'est pourquoi la toute première étape de l'audit a consisté à identifier
ces doublons pour les supprimer ("dédoublonnage").
Attention, il s'agit d'un traitement informatique sans crawl. Par exemple,
si une URL A dans un sitemap redirige vers une URL B déjà présente dans un
sitemap fourni en entrée, on pourrait considérer que A est une sorte de
doublon de B. Les doublons retirés sont uniquement basés sur les chaînes de
caractères des URL fournies en entrée. La casse (minuscules/majuscules) est
prise en compte.
Sur les 7 297 URL fournies dans les sitemaps,
aucune n'était en doublon.
Annexe
Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.
Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.
3.2 Bilan des URL bloquées par le(s) fichier(s) robots.txt
RM Sitemaps respecte les directives indiquées dans les fichiers robots.txt
(il doit y en avoir un pour chaque sous-domaine), concernant Googlebot (le
crawler de Google).
Nous vous conseillons de mettre en ligne un fichier robots.txt pour chaque
sous-domaine, même s'il est vide. Ceci évite de générer des erreurs 404 à
chaque fois qu'un robot cherche à y accéder. C'est la raison pour laquelle
nous indiquons le code HTTP du fichier robots.txt de chaque sous-domaine
crawlé (ce code doit donc être 200).
Voici la répartition des URL bloquées par un fichier robots.txt et qui
sont pourtant listées dans un ou plusieurs sitemaps :
Fichier robots.txt
Code HTTP
Nombre d'URL bloquées
https://www.example.com/robots.txt
200
0
http://www.example.com/robots.txt
200
0
Total
0
Bien entendu, aucune URL stratégique pour votre business ne doit être
bloquée par un fichier robots.txt ! Notre analyse et surtout l'annexe
ci-dessous vous permettent de le vérifier.
Annexe
Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.
Dans votre cas, comme aucune erreur n'a été détectée, le fichier annexe qui liste les erreurs n'a pas été généré.
Annexe
Cliquez sur le bouton ci-dessous pour télécharger l'ensemble des fichiers robots.txt récupérés :
Le fichier annexe example_com-robotstxt.zip contient l'ensemble des fichiers robots.txt récupérés.
3.3 Nombre total d'URL crawlées
À partir d'ici et pour tout le reste de ce rapport, nous ne tenons compte
que des URL autorisées au crawl (non bloquées dans un fichier
robots.txt).
Dans votre cas, nous avons pu analyser
100 % des URL fournies dans les sitemaps.
Le nombre d'URL crawlées a été de 7 297.
Voici la répartition selon les protocoles HTTP et HTTPS :
Protocole
Nb d'URL
% des URL crawlées
HTTP
0
0 %
HTTPS
7 297
100 %
3.4 État des URL crawlées
Voici le bilan des codes HTTP rencontrés (lisez leur signification
en fin de rapport) :
Code HTTP
Nb d'URL en HTTP
Nb d'URL en HTTPS
Nb d'URL (HTTP et HTTPS)
% des URL crawlées
200
0
7 158
7 158
98,10 %
301
0
131
131
1,80 %
404
0
8
8
0,11 %
Total erreurs 3xx
0
131
131
1,80 %
Total erreurs 4xx
0
8
8
0,11 %
Total erreurs
0
139
139
1,90 %
Remarque : même si les redirections ne sont pas à proprement parler
des erreurs techniques, c'est pénalisant pour le référencement. C'est
pourquoi nous les avons incluses dans le calcul des erreurs. Nous vous
conseillons de ne lister dans vos sitemaps que les URL finales, pas celles
qui se font rediriger.
Voici ce que cela donne sous forme graphique :
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_3_4_etat-urls-crawlees.xlsx contient les données associées.
3.5 Types MIME
Voici la liste des types MIME (lisez leur signification
en fin de rapport) rencontrés pour les pages
répondant correctement (code HTTP 200) :
Type MIME
Nb d'URL
% des URL crawlées en code 200
text/html
7 158
100 %
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_03-5_types-mime.xlsx contient les données associées.
3.6 Pages HTML crawlées sans erreur
Le référencement naturel se travaille essentiellement avec les pages HTML.
Nous avons donc regroupé dans un fichier TSV les principales informations
disponibles pour l'ensemble de vos pages HTML crawlées sans erreur (code HTTP
200) :
URL
Title
Meta description
Balise d'URL canonique
URL canonique via en-tête HTTP
Meta robots
En-tête HTTP X-Robots-Tag
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_03-6_pages-sans-erreur.xlsx contient les données associées.
3.7 Pages HTML indexables par les moteurs
Le référencement naturel se travaillant essentiellement pour les pages
HTML, notre analyse porte ici exclusivement sur les pages HTML.
Nous souhaitons étudier l'indexabilité de vos pages, c'est-à-dire la
possibilité qu'elles soient indexées. On parle donc de pages
« indexables ».
Les pages HTML indexables sont toutes celles :
qui renvoient un code 200
et qui ne sont pas interdites d'indexation (via une balise meta robots
noindex ou none, ou bien un en-tête HTTP X-Robots-Tag)
et qui ne contiennent pas d'URL canonique différente de l'URL crawlée
Voici le décompte pour votre site :
Nb d'URL
% des URL HTML code 200
Pages HTML avec code HTTP 200 (A)
7 158
Dont pages interdites d'indexation
0
0 %
Dont pages avec URL canonique différente de l'URL crawlée
0
0 %
Nb total de pages non-indexables (B)
0
0 %
Nombre de pages HTML indexables (A - B)
7 158
100 %
Sauf cas particuliers dont vous connaissez bien l'existence sur
votre propre site, le pourcentage de pages
indexables devrait être élevé (proche de 100 %).
En effet, il n'est pas efficace de laisser de nombreuses pages se faire crawler alors
que vous exigez qu'elles ne soient pas indexées.
4 Analyse avancée
Si vous couplez cet audit avec RM Tech et Google Analytics et/ou Search Console, vous obtenez
des informations à haute valeur ajoutée telles que :
une liste de pages orphelines : soit des bonnes pages qu'il faudrait relier au site, soit des mauvaises qu'il faudrait désindexer ou supprimer
une liste de pages absentes des sitemaps : soit des bonnes pages qu'il faudrait lister dans les sitemaps, soit des mauvaises qu'il faudrait désindexer ou supprimer
une liste de pages qui ne semblent pas indexées dans Google (aucune performance), avec des données qui aident à comprendre leurs problèmes
Pour une analyse complète et efficace, il faut donc coupler
RM Sitemaps à tous
ces outils et données. Soyez cependant bien conscients que les données ne sont
vraiment exploitables que si vous avez respecté toutes
les recommandations listées en fin de
rapport.
Toutes les analyses qui en découlent doivent donc être considérées en
fonction de l'état du site le jour de l'audit RM Tech, en plus de celui de
l'audit RM Sitemaps.
Dans cette section, tout ce qui suit est basé sur les pages HTML
indexables (fournies dans les sitemaps ou trouvées par un crawl du site).
Aucun échantillonnage n'a été effectué par Google Analytics pour fournir
ces données (explications). Si en allant dans votre compte Google
Analytics vous n'obtenez pas les mêmes valeurs pour les mêmes conditions que
cet audit, cela peut provenir de l'échantillonnage. En effet, la récupération
des données est réalisée via une méthode basée sur l'API officielle qui
réduit les cas où l'échantillonnage se produit.
À savoir : les performances des pages AMP ne sont actuellement pas
prises en compte (seules celles de la version HTML le sont).
4.1 Pages orphelines
Dans ce contexte, on appelle orpheline une page HTML présente sur le site
mais non reliée aux autres pages. En d'autres termes, elle est connue mais il
n'existe aucun moyen de la trouver sur le site (en tout cas en cliquant sur
des liens internes follow autorisés au crawl).
Pour trouver les pages orphelines, il faut d'une part faire un crawl
exhaustif du site (ce qui peut être fait avec le couplage
RM Tech) et d'autre part
exploiter d'autres sources de données (comme les sitemaps mais aussi Google
Analytics ou Google Search Console).
Dans votre cas, la recherche des pages orphelines a été effectuée en
comparant les URL trouvées dans le crawl (audit
RM Tech) avec celles en entrée
de cet audit de sitemaps ainsi que celles trouvées dans Google Analytics et
Google Search Console.
Bilan : 130 pages orphelines ont été trouvées :
20 ont été trouvées dans les sitemaps
28 ont été trouvées dans Google Analytics
124 ont été trouvées dans Google Search Console
Parmi ces 130 URL orphelines,
110 sont absentes
des
sitemaps, ce qui ne devrait pas se produire.
Précision : toutes les pages orphelines trouvées ici sont
indexables (ceci a été vérifié à l'heure de cet audit).
Passez en revue chaque URL pour faire cette analyse :
Si la page est effectivement stratégique : aucun lien interne follow
n'a été trouvé sur le site, ce qui est néfaste pour elles en termes de
référencement naturel. Trouvez un bon moyen pour ajouter des liens
internes follow vers elle.
Sinon, décidez si la page doit rester en ligne et indexable. Si
besoin, désindexez-la ou supprimez-la proprement.
Remarque : si jamais votre audit RM Tech n'a pas porté sur 100 % des
URL du site (par exemple car vous avez fixé un nombre maximal d'URL
inférieur au nombre d'URL trouvées sur le site, ou des motifs d'exclusion
d'URL, etc.), alors cette analyse des pages orphelines ne peut pas être
exacte.
L'annexe ci-dessous fournit la liste des URL concernées.
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_4_1_pages-orphelines.xlsx contient les données associées.
4.2 Pages absentes des sitemaps
Il s'agit ici de la situation inverse : des pages sont trouvées sur le
site mais absentes des sitemaps. Il y a 2 cas de figure :
si c'est une page utile au référencement, il serait préférable qu'elle
soit listée dans un sitemap. Mais si ce n'est pas indispensable, avoir dans
vos sitemaps 100 % des URL à faire indexer facilite vos analyses du
référencement naturel.
sinon, c'est une page qui ne devrait pas être indexable ou peut-être
même ne pas exister sur le site. Elle fait sans doute partie de ce qu'on
appelle la “masse noire” ou même les “pages zombies”.
Parmi les 7 992 URL de pages indexables trouvées sur le site,
854 URL sont absentes
des sitemaps déclarés dans cet audit, soit 10,69 %.
Si ces pages sont effectivement stratégiques, ajoutez-les dans vos sitemaps.
L'annexe ci-dessous fournit la liste des URL concernées.
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_4_2_pages-absentes-sitemaps.xlsx contient les données associées.
4.3 Pages sans aucune performance SEO
Grâce au couplage de RM Sitemaps avec RM Tech, Google Analytics et Google
Search Console, il est possible d'identifier parmi les URL listées dans les
sitemaps celles qui sont "sans aucune performance SEO". En effet, ces
pages :
n'ont jamais été affichées dans les pages de résultats (selon les
données fournies par Search Console)
n'ont jamais généré de visites en référencement naturel Google (selon
les données fournies par Google Analytics)
Concrètement, ces pages peuvent :
être orphelines
ne pas être indexées
être trop mal positionnées, s'affichant très loin dans les résultats
ne pas avoir intéressé d'internautes sur cette période
Dans votre cas, 44 pages sans aucune performance ont été trouvées.
Vous trouverez dans l'annexe en conclusion la liste de ces pages, avec des
indications précieuses issues de l'audit RM Tech (déterminées le jour de cet audit). Elles devraient
vous aider à comprendre leurs contre-performance :
QualityRisk : cet indice indique le risque que l'internaute soit déçu par la page. Il devrait être à zéro, ou sinon inférieur à 20, le maximum étant 100
Indice zombie : il indique si la page a non seulement des problèmes de qualité mais également des mauvaises performances SEO. Il devrait être à zéro, ou sinon inférieur à 20, le maximum étant 100
Profondeur : statistiquement, plus une page est profonde, plus ses performances SEO chutent
Nb de liens entrants internes follow : il est recommandé d'avoir plusieurs liens internes pointant vers chaque page, si possible en diversifiant les ancres (texte cliquable du lien)
Temps de téléchargement en ms : même si ce n'est pas forcément bloquant, il est recommandé d'avoir des pages qui se téléchargent en 600ms maximum (Google conseille même 200ms) ; il s'agit ici uniquement du code HTML sans aucune ressource externe (images, CSS, Javascript)
Balise title non-vide mais dupliquée sur le site : chaque page doit avoir son propre titre, sinon cela augmente les risques que Google la considèrent en contenu dupliqué et ne l'indexe pas
Gravité du problème de taille du contenu : cet indice indique le manque éventuel de contenu texte dans la zone principale de la page. Il devrait être égal à zéro (le pire étant 100).
Contenu strictement identique à au moins une autre page : vous ne devriez pas avoir plusieurs URL distinctes affichant strictement le même contenu, sinon cela augmente les risques que Google la considèrent en contenu dupliqué et ne l'indexe pas
ID de session dans l'URL : les identifiants de session dans l'URL perturbent beaucoup le crawl de Google, qui risque de ne pas indexer les URL qui en contiennent
5 Conclusion
Vous trouverez dans l'annexe ci-dessous l'ensemble des données analysées
pour toutes les URL fournies dans les sitemaps (dédoublonnées).
Annexe
Cliquez sur le bouton ci-dessous pour télécharger les données associées :
Le fichier annexe example_com_5_conclusion.xlsx contient les données associées.
6 Explications complémentaires
6.1 Fonctionnement de notre outil RM Sitemaps
Grâce aux outils spécifiques développés dans notre centre de recherche,
nous avons pu faire une analyse des URL fournies dans les sitemaps, comme
Google peut le faire.
Au fil des années, nous avons pu mettre au point un outil qui reproduit de
manière assez fidèle le fonctionnement de Googlebot (le robot de Google). Par
exemple :
Nous respectons le fichier robots.txt de la même façon que Google (avec donc quelques particularités par rapport au standard)
Nous tenons compte également :
des balises meta robots
des directives passées dans l'entête HTTP (pour l'URL canonique ou pour les directives d'indexation et de suivi des liens)
Nous ne gérons pas :
les cookies
le javascript (et ajax ou équivalent)
Nous ne gérons que les sitemaps de pages HTML (donc pas les sitemaps actualités, vidéos, images, etc.) aux formats XML ou texte brut.
6.2 Pour un couplage efficace avec les autres outils
Pour que le couplage de RM Sitemaps avec RM Tech soit exploitable, vous
devez respecter toutes ces conditions :
le périmètre doit être identique entre RM Tech et RM Sitemaps (protocoles HTTP/HTTPS, sous-domaines, restrictions avec les motifs d'inclusion et d'exclusion)
aucun audit ne doit s'être arrêté avant la fin pour cause de nombre maximal d'URL à crawler
les autres paramétrages doivent être identiques (User-Agent, prise en compte des fichiers robots.txt...)
le site ne doit pas avoir changé (il vaut mieux enchainer l'audit RM Tech et l'audit RM Sitemaps)
6.3 Signification des codes HTTP
Voici les principaux codes HTTP (retrouvez la liste complète
sur Wikipédia).
Les principales familles de codes :
Codes 2XX (commençant par "2") : succès
Codes 3XX (commençant par "3") : redirection
Codes 4XX (commençant par "4") : erreur du client
Codes 5XX (commençant par "5") : erreur du serveur
Les codes les plus courants :
200 = OK : l'URL a été trouvée
301 = Moved Permanently : l'URL a été déplacée de façon
permanente (redirection 301)
302 = Moved Temporarily : l'URL a été déplacée de façon
temporaire (redirection 302)
400 = Bad Request : la syntaxe de la requête est
erronée
401 = Unauthorized : une authentification est nécessaire
pour accéder à la ressource
410 = Gone : la ressource est indisponible et aucune
adresse de redirection n'est connue (en général, c'est le cas des document
supprimés définitivement)
500 = Internal Server Error : erreur interne du serveur
503 = Service Unavailable : serveur temporairement indisponible
ou en maintenance
504 = Gateway Time-out : temps d'attente d'une réponse d'un
serveur à un serveur intermédiaire écoulé
6.4 Signification des types MIME
Voici les principaux types MIME, c'est-à-dire les formats de données des
documents situés sur un site Internet (retrouvez la liste complète
sur
Wikipédia) :
Voici les principaux termes utilisés dans le jargon du référencement
naturel (SEO) et notamment dans ce rapport d'audit. Vous trouverez des liens
vers des articles qui détaillent les notions correspondantes :
HTTP et HTTPS : HTTP est le protocole standard
d'accès à des documents sur le web, tandis que HTTPS est la version
sécurisée (transmission cryptée). Une URL en HTTP et la même en HTTPS sont
considérées comme 2 URL distinctes.
Google Search Console : interface proposée par
Google pour fournir au webmaster plusieurs informations concernant son site
dans Google (problèmes de crawl ou d'indexation, pénalités, etc.). En savoir
plus : site officiel, dossiers
WebRankInfo. Bing propose la même chose (voir ici).
URL indexable : il s'agit d'une URL qui ne
présente aucun obstacle technique pour que Google l'indexe. Il faut qu'elle
ne soit pas bloquée au crawl (dans le fichier robots.txt) et qu'elle soit
accessible (donc que le code HTTP renvoyé par le serveur soit 200) et
qu'elle ne soit pas interdite d'indexation (via la balise meta robots
noindex ou un entête HTTP X-Robots-Tag) et qu'elle ne contienne pas d'URL
canonique différente. En général, une URL indexable est indexée par Google
(mais ce rapport ne le vérifie pas). En savoir plus :
dossiers WebRankInfo.
URL canonique : il s'agit de l'URL officielle
d'une page. On l'utilise surtout dans le cas où un même contenu est
disponible à plusieurs URL (dans ce cas pour ces différentes URL on indique
quelle est l'URL officielle). En savoir plus : aide Google, dossiers WebRankInfo.
Fichier robots.txt : situé à la racine de chaque
sous-domaine, il liste les éventuels endroits du site pour lesquels tous ou
certains robots n'ont pas le droit de venir crawler. En savoir plus :
aide Google, spécifications Google, dossiers WebRankInfo.
Balise meta robots : cette balise permet de
restreindre les robots tels que Googlebot pour leur interdire par exemple
d'indexer la page (noindex) ou de tenir compte des liens présents sur la
page (nofollow). En savoir plus : aide Google, dossiers WebRankInfo.
En-tête HTTP X-Robots-Tag : pour les documents non
HTML, il n'est pas possible d'utiliser une balise meta robots. On peut dans
ce cas passer des instructions par l'entête HTTP. En savoir plus : aide Google, dossiers WebRankInfo.
Redirection (301 ou 302) : on parle de redirection
d'une URL A vers une URL B quand, en cherchant à accéder à A, le serveur
nous renvoie vers B. En référencement, il faut privilégier la redirection
permanente (code HTTP 301) dans la majorité des cas. Il existe de nombreux
moyens de gérer les redirections. En savoir plus : aide Google, dossiers WebRankInfo.
Sitemap : un fichier sitemap liste des URL que
l'on souhaite faire crawler par les moteurs de recherche (en général pour
qu'ils indexent les URL concernées). Ce n'est pas obligatoire mais ça peut
aider à accélérer le crawl ou dans le suivi du référencement. En savoir
plus : aide Google, dossiers WebRankInfo.