Conversion fichier XML fichier TXT

Récupérer un sitemap XML au format texte (.txt)

Petit article un peu spécial. Dernièrement, j’ai beaucoup apprécié les petits scripts partagés par l’ami Julien Jimenez et notamment celui permettant de scrapper Pinterest en 2 clics.

Lors de mes audits SEO je suis parfois confronté à un petit problème au niveau du fichier sitemap. Son format XML ne me permet pas de le traiter efficacement.

Fichier Sitemap.xml

Mes besoins sont pourtant simples :

  • Savoir si le fichier existe (OK pas de problème la plupart du temps)
  • Savoir si ce fichier a été envoyé dans la Search Console (simple aussi)
  • Savoir si le fichier est propre et si les URLs proposées dans le fichier sont utiles en SEO (je coince…)

C’est sur ce dernier point que je sèche régulièrement. J’avais l’habitude de demander au développeur de m’envoyer le fichier au format texte mais c’est toujours une perte de temps. Cette fois et avec l’ami Vincent Lahaye, j’ai pris les devants !

Je lui ai proposé de créer un outil pour convertir un fichier sitemap au format XML en fichier texte. Ce fichier doit reprendre uniquement les URLs et les ajouter au fichier .txt les unes en dessous des autres.

Une fois cette liste récupérée j’upload le fichier .txt dans mon outil et meilleur ami « Screaming Frog ». A partir de là j’ai une vue sympa sur la santé de mon fichier sitemap.xml :

  • URLs en erreurs 404 > à supprimer du fichier
  • URLs en 301 > à corriger dans le fichier
  • Doublon sur les <title> ou <h1> > duplicate content sur certaines pages ? C’est fort possible !

Ce petit outil me facilite souvent la tâche pour auditer une partie du site (mais on sait tous qu’il ne faut pas se contenter de ces URLs pour étudier l’ensemble du site).

Tester l’outil pour obtenir un fichier sitemap au format texte :

N’hésitez pas à apporter vos remarques, nous pourrons également faire évoluer ce petit tool.

Edit 02/08/2015 : grâce au commentaire d’Antoine Brisset, j’ai découvert que Screaming Frog proposait déjà la fonction de crawl de sitemap (via le mode liste). L’outil aura peut-être d’autres utilités. A vous d’être créatif !


Commentaires

2 réponses à “Récupérer un sitemap XML au format texte (.txt)”

  1. Avatar de Antoine
    Antoine

    Hello,

    Question bête mais je n’ai peut-être pas bien saisi ton besoin : Screaming Frog te permet de lire un fichier xml, non ?

  2. Ahah ! Géniale 🙂

    Je viens de découvrir la fonctionnalité, blasé !

    Tant pi, cet outil aura peut-être d’autres intérêts. Merci pour ton commentaire.