Comment supprimer vos 404 des moteurs de recherche ?

Par Cobolian | novembre - 6 - 2008 | 7 commentaires  
Auteur de ce billet : Jacques Terrier Ecrit sur ce blog et ailleurs : Tutos performance web et formation e-commerce sur OSEOX Twitter : Twitter consultant e-commerce à ses heures perdues. Client en cours : E-staminet
» Voir tous les articles de Cobolian

Suite à la migration de ce blog, nous nous sommes retrouvé avec moult et moult erreurs 404. Rien de bien gênant pour nous, mais un rien pénible pour les lecteurs qui arrivent via Google ou autre. D’autre part un abus de 404 peu certainement nuire à l’atteinte du saint graal : le PageRank 11.

Ici rien de bien grave : la page Whois à été renommée About. Rien que cela à généré des centaines d’erreurs. Plutôt que de se faire suer avec un htaccess (et la palanquée d’url à ré écrire), voici une méthode simple et surtout plus rapide que laisser les moteurs désindexer ces pages toutes seules.

Première étape : le robots.txt

Ce fichier va vous permettre d’interdire aux moteurs de recherche (et pas que google) de chercher ces fameuses pages inexistantes.

1/ Sur Google, connectez vous aux outils pour webmasters (dans mon compte).

2/ Sélectionnez votre site, puis dans l’overview vous trouvez une table nommée Web crawl errors. Dans cette table sélectionnez Not Found.

3/ En bas de la table des erreurs, cliquez sur Download all errors

4/ Vous allez vous retrouver avec un magnifique fichier CSV, qu’il va falloir tripatouiller afin d’en faire un beau robots.txt.

Le fichier est à importer dans votre tableur préféré (oOo par exemple). Le séparateur est la virgule, le tableur va donc normalement afficher les données dans les bonnes colonnes :

  • URL,
  • Detail  (404 ou autre),
  • Linked From,
  • Problem Detected On.

Dans un premier temps, il faut supprimer les pages n’ayant pas pour Detail 404 (Not found). Ensuite il faut supprimer les colonnes Detail, Linked From et Problem Dected On. Il vous reste une colonne : URL. Au passage la premiere ligne ne servant a rien, il faut la supprimer également.

Maintenant il faut supprimer le http://www.monsite.truc avec un remplacer (Ctrl F avec oOo) par… rien. Laissez le / en début d’URL. Ajoutez une colonne contenant Disallow: avant l’url. Et voilà c’est presque la fin.

Avant

Pendant

Après

Astuce : si vous avez un dossier complet qui a disparu, genre /services, il suffit de l’indiquer tel quel, tous les fichiers contenus dedans seront également interdits. Cela permet de simplifier le fichier en évitant d’indiquer la totalité des fichiers.

Sauvegardez votre fichier au format txt, nommez le robots.txt, et ajoutez User-agent: * au début. Voili voilou, c’est fini.

Exemple :

User-agent: *

Disallow: /services/
Disallow: /outgoing/
Disallow: /mailer_contact/
Disallow: /2006/07/20/whois
Disallow: /2006/07/23/whois
Disallow: /2006/08/01/whois
Disallow: /2006/08/10/whois
Disallow: /2006/08/11/whois
Disallow: /2006/08/14/whois
Disallow: /2006/09/10/whois
Disallow: /2006/09/15/whois

Pour résumer : on télécharge la liste des 404 et on en fait un robots.txt.

Attention : Si vous avez déjà un robots.txt, évitez de l’écraser avec celui là. Ajoutez les données à l’existant, tout simplement.

En savoir plus : robotstxt.org/

Deuxième étape : la suppression de l’index

Ce coup ci cela ne concerne que Google. Le robots.txt interdit aux spiders de crawler les pages, ici on va supprimer les pages de l’index de Google.

Cela se passe encore dans les outils pour webmasters, dans Tools>remove URL.

Cliquez sur New Removal Request puis choisissez si vous voulez supprimer un fichier, un dossier, ou carrément le site.

L’index Google sera purgé après quelques jours de données que vous lui avez indiqué. Simple, sauf avec des centaines d’URL…

En savoir plus : L’aide google

Il existe bien sur d’autres techniques : laisser les moteurs faire leur boulot tout seul, utiliser des astuces avec l’htaccess (mise en place d’erreur 410), ou encore jouer du NOINDEX, mais cette solution est certainement la plus simple et rapide à ma connaissance. Si vous avez mieux, je suis preneur !

Share this:
Share this page via Email Share this page via Stumble Upon Share this page via Digg this Share this page via Facebook Share this page via Twitter
Signaler une erreur

7 commentaires pour l'instant.

  1. Julien dit :

    Merci pour ce tuto clair et concis ;) Il m’a enfin donné l’occasion et le courage pour purger mes pages 404 :)

  2. Pour avoir testé l’outil de suppression par le biais de GWT c’est très rapide :-)

  3. Cyril dit :

    Merci pour cette excellent billet, et comme dit Julien il faut se remonter les manches :)

  4. cyrille dit :

    A partir du moment où les pages retournent bien un code 404, il n’y a pas besoin d’utiliser le robots.txt. Il suffit d’utiliser l’outil de suppression fournit par google pour faire disparaitre définitivement vos pages de l’index.

    Je dis ça pour les fainéants comme moi. Utiliser le robots.txt c’est plus propre, c’est sûr…

  5. Cobolian dit :

    le robots.txt c’est plus rapide, parce que les spiders reviennent plusieurs fois sur une 404, et ça peut durer des plombes

  6. Kyozen dit :

    Bravo, pour cette astuce, j’ai du changer de gestionnaire d’url rewriting et malheureusement j’ai eu un paquet de 404 par la suite dans webmasters tools.

    Merci pour cette technique fort sympathique !

  7. Francois dit :

    Super tuto.

    Mais dans ton exemple, comment fais tu pour indiquer à google de supprimer les 1013 url ?
    On peut lui soumettre un fichier ?
    Ne me dis pas qu’il faut entrer les url à la main ? (moi j’en ai presque 200 à enlever !)

Rédiger un commentaire




Copyright © 2007 - 2012 Capitaine commerce - Le Blog du Commerce Digital

Ce site utilise WordPress avec helios , un thème réalisé par FabThemes.com. (adapté par Alexis Sauvage // RoBin).

Diginex    Ecommerce united

RSS  Facebook  Twitter