Suite à la migration de ce blog, nous nous sommes retrouvé avec moult et moult erreurs 404. Rien de bien gênant pour nous, mais un rien pénible pour les lecteurs qui arrivent via Google ou autre. D’autre part un abus de 404 peu certainement nuire à l’atteinte du saint graal : le PageRank 11.
Ici rien de bien grave : la page Whois à été renommée About. Rien que cela à généré des centaines d’erreurs. Plutôt que de se faire suer avec un htaccess (et la palanquée d’url à ré écrire), voici une méthode simple et surtout plus rapide que laisser les moteurs désindexer ces pages toutes seules.
Première étape : le robots.txt
Ce fichier va vous permettre d’interdire aux moteurs de recherche (et pas que google) de chercher ces fameuses pages inexistantes.
1/ Sur Google, connectez vous aux outils pour webmasters (dans mon compte).

2/ Sélectionnez votre site, puis dans l’overview vous trouvez une table nommée Web crawl errors. Dans cette table sélectionnez Not Found.

3/ En bas de la table des erreurs, cliquez sur Download all errors…

4/ Vous allez vous retrouver avec un magnifique fichier CSV, qu’il va falloir tripatouiller afin d’en faire un beau robots.txt.
Le fichier est à importer dans votre tableur préféré (oOo par exemple). Le séparateur est la virgule, le tableur va donc normalement afficher les données dans les bonnes colonnes :
- URL,
- Detail (404 ou autre),
- Linked From,
- Problem Detected On.
Dans un premier temps, il faut supprimer les pages n’ayant pas pour Detail 404 (Not found). Ensuite il faut supprimer les colonnes Detail, Linked From et Problem Dected On. Il vous reste une colonne : URL. Au passage la premiere ligne ne servant a rien, il faut la supprimer également.

Maintenant il faut supprimer le http://www.monsite.truc avec un remplacer (Ctrl F avec oOo) par… rien. Laissez le / en début d’URL. Ajoutez une colonne contenant Disallow: avant l’url. Et voilà c’est presque la fin.
Avant

Pendant

Après

Astuce : si vous avez un dossier complet qui a disparu, genre /services, il suffit de l’indiquer tel quel, tous les fichiers contenus dedans seront également interdits. Cela permet de simplifier le fichier en évitant d’indiquer la totalité des fichiers.
Sauvegardez votre fichier au format txt, nommez le robots.txt, et ajoutez User-agent: * au début. Voili voilou, c’est fini.
Exemple :
User-agent: *Disallow: /services/
Disallow: /outgoing/
Disallow: /mailer_contact/
Disallow: /2006/07/20/whois
Disallow: /2006/07/23/whois
Disallow: /2006/08/01/whois
Disallow: /2006/08/10/whois
Disallow: /2006/08/11/whois
Disallow: /2006/08/14/whois
Disallow: /2006/09/10/whois
Disallow: /2006/09/15/whois
Pour résumer : on télécharge la liste des 404 et on en fait un robots.txt.
Attention : Si vous avez déjà un robots.txt, évitez de l’écraser avec celui là. Ajoutez les données à l’existant, tout simplement.
En savoir plus : robotstxt.org/
Deuxième étape : la suppression de l’index

Ce coup ci cela ne concerne que Google. Le robots.txt interdit aux spiders de crawler les pages, ici on va supprimer les pages de l’index de Google.
Cela se passe encore dans les outils pour webmasters, dans Tools>remove URL.
Cliquez sur New Removal Request puis choisissez si vous voulez supprimer un fichier, un dossier, ou carrément le site.
L’index Google sera purgé après quelques jours de données que vous lui avez indiqué. Simple, sauf avec des centaines d’URL…
En savoir plus : L’aide google
Il existe bien sur d’autres techniques : laisser les moteurs faire leur boulot tout seul, utiliser des astuces avec l’htaccess (mise en place d’erreur 410), ou encore jouer du NOINDEX, mais cette solution est certainement la plus simple et rapide à ma connaissance. Si vous avez mieux, je suis preneur !







Merci pour ce tuto clair et concis
Il m’a enfin donné l’occasion et le courage pour purger mes pages 404
Pour avoir testé l’outil de suppression par le biais de GWT c’est très rapide
Merci pour cette excellent billet, et comme dit Julien il faut se remonter les manches
A partir du moment où les pages retournent bien un code 404, il n’y a pas besoin d’utiliser le robots.txt. Il suffit d’utiliser l’outil de suppression fournit par google pour faire disparaitre définitivement vos pages de l’index.
Je dis ça pour les fainéants comme moi. Utiliser le robots.txt c’est plus propre, c’est sûr…
le robots.txt c’est plus rapide, parce que les spiders reviennent plusieurs fois sur une 404, et ça peut durer des plombes
Bravo, pour cette astuce, j’ai du changer de gestionnaire d’url rewriting et malheureusement j’ai eu un paquet de 404 par la suite dans webmasters tools.
Merci pour cette technique fort sympathique !
Super tuto.
Mais dans ton exemple, comment fais tu pour indiquer à google de supprimer les 1013 url ?
On peut lui soumettre un fichier ?
Ne me dis pas qu’il faut entrer les url à la main ? (moi j’en ai presque 200 à enlever !)