C’est la question du jour, soulevé par la nouvelle video de Matt Cutts.
Selon lui, il serait contreproductif de vouloir bloquer, via le fichier robots.txt, l’accès au fichiers Css et JavaScript.
Mais que peut bien rechercher Google dans ces fichiers ?
Une simple frustration ?
On peut penser qu’il s’agit là d’une simple consigne comme en laisse déjà depuis un moment l’équipe de Google sur leurs site d’aide aux webmasters.
Ou alors toujours assoiffé de contenu, GoogleBot serais vexé de ne pouvoir explorer de plus en plus de fichiers sur lesquels il n’a pas le droit de regard ?
Mais entre les webmasters le coeur balance.
D’un coté, ces fichiers consomment une quantité de bande passante.
On préfère que le serveur web arrête de répondre à ces requêtes pour rien, et laisser ces ressources pour des internautes bien reels …
D’un autre coté, vouloir cacher des choses à Google …
Est-ce que c’est risquer quelquechose … ( ? )
Et puis as-t-on vraiment des choses à cacher ? cacher des trucs signifierais que l’on fait des choses pas très nettes …
Donc il vaut mieux montrer patte blanche et laisser google se débrouiller avec tout cela.
Ces fichiers sont-ils réellement utiles ?
De plus en plus de sites utilisent la technologie Ajax.
Ces sites chargent le contenu à la demande sans avoir à recharger la page, cela permet de faire de belles choses mais rendent caduque un des axiomes du net :
une page == une adresse web (URL) == un contenu !
Mal utilisé, cette technique fait perdre aux internautes certains “outils” et certaines habitudes.
Un exemple parmi tant d’autres : pas de retour en arrière (fonction page précédente du navigateur) et impossible de partager un contenu avec la bonne URL.
Comme pour les sites construit en Flash, les robots de Google ont du apprendre à extraire les infos du mieux qu’ils le peuvent. On sait aujourd’hui qu’une partie du contenu en flash et que certains scripts JavaSripts peuvent être décodé par google. Et La compréhension du JavaScript par google semble en net progression.
Pour autant, cela nécessite une quantité de travail supplémentaire pour les moteurs de recherche et représente donc un frein à l’indexation des contenu, à l’exploration de nouvelles adresses, et donc indirectement au SEO de ces pages.
Les moteurs s’adaptent au web qu’ils rencontrent
De plus en plus de personnes utilisent le web.
Pourtant tout le monde n’est pas un spécialiste du web, et pour eux :
peu importe comment on fait, visuellement, tout le monde “voit” la même chose !
Hélas dans la réalité ce n’est pas le cas.
Entre les différents problèmes rencontrés, on peut citer les problèmes de rendu d’un navigateur à l’autre.
Mais ce n’est pas tout, puisque chacun navigue sur le web à sa manière :
Lecteur d’écran, synthèse vocal, Daltonisme, malvoyant, Smartphones, tablettes etc …
L’internaute lambda lui sans contrefiche, lui il pose du son, des video, des images, il tape du texte comme il veut.
Ce n’est pas technique, et c’est un comportement naturel et les autres doivent s’adapter ou mourir.
( éventuellement survivre un peu … )
Paradoxal. Mais pendant ce temps là les moteurs n’ayant rien à se mettre sous la dent, cherchent à décoder comme ils le peuvent tous les indices possibles afin de privilégier une page plutôt qu’une autre.
C’est pourquoi, nous — professionnels du web — cherchons tant à adapter tout nos contenu pour être le plus facilement indexé et pour nous positionner du mieux que possible. Nous savons que ce travail est utile, autant à l’humain qu’aux robots.
Car le but d’être référencé, c’est aussi pour avoir du traffic avec de vrai visiteurs non ?
Le Css peut être aussi un indice !
Globalement, on voit de plus en plus de site qui se préoccupe des standards et c’est tant mieux.
Les fichiers css sont regroupés dans des fichiers externes et les scripts aussi. Cela allège le poids des pages web et permet globalement d’avoir de meilleurs performances à l’affichage.
De plus cela permet d’utiliser les balises pour ce à quoi elle sont destiné : on utilise le balisage sémantique et c’est un réel plus dans la compréhension d’une page web.
Si une portion de texte possède une valeur importante, il faut utiliser les balises adéquates.
il est possible de mettre en valeur une portion de contenu sans que cela en affecte la valeur sémantique. un problème va se poser pour nos valeureux moteurs de recherches.
L’enjeu est de savoir si le contenu mis en valeur possède réellement une importance et met en valeur le contenu ou non
Deuxième point, l’emplacement du contenu réel.
On sait déjà que la manière d’agencer le contenu et d’accéder à l’information est important aux yeux de google. On a eu d’abord l’aperçu du site dans les résultats de google ( gare à celui qui n’a pas un super design … ), plus récemment une annonce visant à écarter les sites possédant trop de publicité au dessus de la ligne de flottaison et donc ne facilite pas l’accès rapide à l’information …
Mais mon petit doigt me dit qu’il y’a d’autres pistes à explorer, comme par exemple des éléments ayant “disparu” grace aux techniques css, (comme à la belle époque ou spammer consistait à écrire en blanc sur fond blanc … ) ou bien pour savoir si un contenu est adapté à un type d’affichage précis.
(édit : comme les smartphones par exemple … )
Alors crawl ou pas crawl ?
Je me garderais bien de donner une réponse franche.
Nous ne savons pas de quoi est fait l’avenir. C’est une question de point de vue et de besoins. Avez vous vraiment besoins de bloquer aux robots l’accès à vos contenu et vos ressources ?
Dans certains cas il peut-être utile de ne pas laisser des entités sans valeurs consommer vos ressources serveurs alors qu’ils ne vous rapporte rien en terme de visiteurs ou de finances.
J’ai lu récemment sur le web que sur certains sites, le trafic généré par les robots pouvait atteindre 50% du trafic total.
Chaque cas étant particulier, à vous de juger si finalement le jeu en vaut la chandelle.
Si votre site est bien construit, et qu’il n’y a pas de raisons particulières d’explorer ces fichiers.
Vos JS et Css ne contiennent aucun contenu pertinent.
Pour ma part, sur un site que j’entretiens, j’ai décidé sur un coup de tête il n’y a pas longtemps, de restreindre l’accès au seul contenu et illustration réelles. Exit les css, js, design, … , etc.
J’en avais un peu marre de voire indexer dans les résultats des choses qui ne devrait pas y être.
Ce qui est sur, c’est que dans les “Google Webmasters Tools”, j’ai moins d’octets transféré, une meilleure réponse ( en même temps y’a trois fois moins de requêtes à traiter … ) et mes indexations semblent plus rapides ( mesures au pif vu que je n’avais rien mesuré de ce coté là )
L’avenir me diras si j’ai eu raisons de ce choix.
Bienvenue de l’autre côté du miroir … Rien que le billet de présentation donne envie de cheminer avec toi au fil des pages …