Analyse de logs – petit déj’ conférence

4 mar

Conférence petit dej’ autour du thème des logs organisée par Oncrawl, animée par Erlé Alberton, Roland Debraband et Nicolas Gellens (Open-Linking).

Cette présentation était très intéressante car à la différence de nombreuses présentations commerciales d’outils auxquelles j’ai pu assister dans des salons par exemple, j’ai pu en tirer quelques bonnes pratiques en matière d’analyse de logs.

analyse-logs-conference

/*commercial-alert
J’y ai découvert un outil très intéressant et suffisamment visuel pour être utilisé par des novices, avec des fonctionnalités dédiées à des utilisateurs plus avancés (Oncrawl).
commercial-alert*/

J’en retiens quelques astuces notamment sur l’utilisation des logs en SEO que j’aimerais partager avec vous. L’analyse de logs est surtout nécessaire à partir de 1 000 pages, on oublie donc les sites vitrine et les boutiques avec peu de références produits, pour ce type de site une méthodologie plus artisanale est encore envisageable.

A l’instar d’un parcours client bien orienté dans un magasin de meubles à monter scandinave, les logs permettent d’optimiser le passage des robots et des utilisateurs dans votre site.

Le constat est le suivant : un utilisateur ou un robot parcourt votre site et laisse une trace dans un fichier portant le nom de log. On peut bien souvent le trouver à l’adresse suivante (racine de votre site) : /var/log/httpd si vous êtes sous apache. Les informations tracées dans ces logs sont nombreuses et peuvent souvent vous éclairer sur des optimisations SEO à mettre en place.

Sachant que les robots crawlent certaines catégories du site et d’autres moins (l’outil vous donne cette info à partir de vos logs), on peut prioriser ces pages en les mettant plus en avant sur des requêtes concurrentielles (qui nous intéressent donc plus). Par exemple si le robot crawle prioritairement vos mentions légales ou vos CGV, à vous de positionner les autres pages de manière à ce que le robot les voie et les considère comme plus importantes.

Il existe une notion de budget de crawl, c’est à dire que Google va par exemple vous donner 100 de budget de crawl si c’est la première fois qu’il parcourt votre site. 2 situations s’offrent à lui:

  • soit la navigation se passe bien, vous respectez les standards Google (vous avez du contenu de qualité, frais, etc.) il vous récompensera en revenant la prochaine fois avec un budget de 110 pour crawler votre site
  • soit la navigation est tumultueuse, le bot rencontre des erreurs, le site est lent etc. il reviendra avec un budget de crawl moins important (comprenez-le, il préférera consacrer son énergie à crawler des sites plus qualitatifs que le vôtre)

Les meilleurs sites en termes de référencement naturel totalisent 50% à 60% de pages dites « actives » (pages générant des visites SEO). Les moins bons en comptent de 0 à 10%. Les logs permettent de savoir quelles sont vos pages actives, et là aussi de mettre l’accent sur celles qui vous intéressent d’un point de vue business.

Open Linking avait commencé l’analyse de logs il y a quelques années, de manière artisanale n’ayant pas d’outil spécifique à l’époque (Elle avait plus précisément commencé avec Linux + Excel, avant de passer à Watussi box combiné à Google Analytics), puis l’agence a développé son propre outil en interne. Enfin après avoir testé plusieurs outils, elle utilise aujourd’hui Oncrawl qui semble satisfaire à ses attentes.

Certaines balises rel=canonical (dans le but d’éviter le duplicate content, donc avec une bonne intention de départ) mal configurées font perdre du temps au robot Google car il se perd entre deux url avec deux rel=canonical différentes (« cluster canonical not matching ») ne menant pas vers la même url, ainsi il perd du temps qu’il pourrait passer pour parcourir d’autres pages plus importantes de votre site. Du coup c’est un point à vérifier en priorité et qu’il est possible de cerner grâce à l’analyse des logs.

/*spoiler-alert
Pour terminer, deux optimisations à venir sur l’outil oncrawl ont été dévoilées :
– un mix avec le trust et le citation flow de Majestic permettant de pondérer la popularité externe de la page sélectionnée (en plus de toutes les infos fournies par oncrawl)
– des filtres personnalisables avec des expressions régulières (par exemple pour catégoriser des pages ne disposant pas de catégorie au départ mais contenant un morceau de code permettant de déterminer ladite catégorie)

spoiler alert*/

No comments yet

Leave a Reply