Archives pour la catégorie algorithme

Google va réussir sa guerre contre les seo honnêtes

Au vu des récentes décisions de certains sites de haute volée de modérer plus sévèrement les liens posés en commentaire, je me dis que Google est en train de réussir sa guerre psychologique contre les pratiques SEO ( du moins contre les méthodes d’obtentions de liens faciles).

Ce n’est pas parce que certains ont plié qu’il faut que tout le monde fasse de même. Je ‘explique.

C’est triste mais, quand on est un site en vue, il faut montrer l’exemple, mains Google ne pourra pas monitorer tous les sites web. (c’est pourquoi le BH marche).

Quand vous êtes un petit site, vous avez plus de chance de passer sous le radar.

Bref spammez modérément et intelligemment. Par exemple si vous me faites un com de 1 ligne avec un lien lien optimisé, vous êtes un idiot. Point barre.

PS : on est dans une période charnière de changement quasi radicale de promouvoir un site web, de même que le paysage de la prestation SEO va se transformer, je pense que l’environnement des affaires sera plus difficile (un peu à cause de la crise). Il ne sera plus possible de continuer à se gaver via un site web. Faut passer à autre chose. Bref il faut s’adapter.

Désavouer un lien peut vous apprendre beaucoup sur le SEO

Il y aura peut être bientôt du côté de chez Google un tool pour désavouer un lien que vous ne voulez pas pour votre site web. Pourquoi en est on arrivé là? (Bing le propose déjà dans son webmaster’s tool.)

Petit historique sur l’algorithme général de Google

Ce qui fait la différence de Google par rapport à ses concurrents lorsqu’il était sorti, c’était qu’il s’appuyait sur les liens hypertexte pour classifier un document sur le web, et non seulement les facteurs on page.

Ainsi plus un site a de liens plus il sera fort dans les serps. Les seo on donc commencé à abuser de ce critère, poussant l’art jusqu’au niveau black hat.

Plus tard Google a dit que trop de liens avec des ancres de texte optimisé (c’est à dire une trop grande proportion d’ancres similaires par rapport au nombre total d’ancres trouvés) est un signal de spam. De même si un trop grand nombre de liens se montrent sur un court lapse de temps, alors c’est aussi un signal de spam.

Ces deux critères conjugués sont utilisés pour filtrer une site ou un groupe de pages web.

Le côté pervers de l’algorithme

Seulement voilà, si on pousse le raisonnement plus loin, tout un chacun peut générer à votre insu des liens en masse et pénaliser votre site ! on appelle cela du negative seo ou NSEO.

On a eu des exemples de site trustés victime de NSEO ( SeoFastStart de Dan Thies ), donc personne n’est à l’abri du NSEO.

La solution ? désavouer un lien !

Cette idée n’est pas neuve, j’en ai déjà parlé avec Philippe Yonnet au  Seocampus. Donc dans Google Webmaster Tools, vous pourriez désavouer un lien, magique non? Il semblerait qu’il y ait des effets non voulus et gênants, mais cet article ne traite pas de cela.Donc en principe désavouer un lien c’est plutôt pas mal.

Et vous pourriez en profiter pour faire des test SEO

Et là Google vous ouvre un boulevard. Imaginez que vous désavouiez une série de liens et que cela ait un impact sur votre ranking, n’est-ce pas déjà une information cruciale que vous donne Google? Vous pourriez même faire une batterie de tests, et ainsi observer au millimètre les liens et donc les sites, qui ont de l’influence sur le ranking, et par recoupement et sur une grande durée il faut quand même le signaler, vous pourriez obtenir de précieux renseignements.

Nul doute que Google vous dira quelque chose comme :  « vous désavouez un lien , libre à nous de le prendre en compte ou non », bref du Google tout craché.

 

Nouvelle MAJ de Google en vue en Avril?

Matt Cutts a récemment parlé d’une mise à jour de l’algorithme de Google suite à une longue liste déjà en vigueur (les pandas de 1.0 à 3.4). Ce qui est intriguant est que la présente mise à jour vise à pénaliser les sites suroptimisés. Je vous laisse apprécier cette déclaration, c’est quoi un site suroptimisé? suroptimisation on page ou off page?

Ce qui est sûr c’est que quelque chose se passe actuellement et est relayé par SERountable. Nous apprenons que le forum de Google Webmaster s’affole avec des plaintes de webmasters (ce n’est que le début), ledit forum qui devient du coup un bon indicateur de mise à jour Google ;) .

Sommes nous au courant en France? En tout cas je vois déjà des webmasters en train de nettoyer leur site ( de CP en l’occurence) afin de nettoyer les soumissions de basse qualité ( blast).

blast

Dans le thread de SERoundtable, en commentaires on conjecture ce qui est visé (trop de pub, linkwheel détecté etc). Attendons de voir la suite !

 

Obtenir un sitelink Google pour son site web


Cet article est paru il y a deux mois dans la section membre du forum, j’ai voulu partager cette information pour vous. Si vous désirez d’autres billets de ce niveau allez sur cette page.

Depuis belle lurette déjà Google vous propose une série de liens sur la page de résultat juste en dessous de votre site dans les SERP pour souligner :
1/la pertinence de votre requête pour le mots clé tapés
2/mais nous voyons sur tout une récompense par rapport à la valeur de notre site
3/un meilleur CTR dû au fait que votre site ressort plus que les autres.

Ces sitelinks apparaissent pour votre site au bout d’un certain temps. Mais la plupart d’entre nous reste frustré car on ne les a pas toujours ! En général, c’est sur une requête égal à votre nom de domaine que vous voyez apparaitre ces sitelinks.

C’est en voulant chercher pourquoi un de nos site ne possède pas de sitelink alors qu’un concurrent avec un site « inférieur » au nôtre l’a que je me suis penché sur les raisons de l’attribution des sitelinks, cette récompense que tout webmaster recherche.

Le site en question a peu de liens entrant, et possède pourtant un sitelink ! Le nombre de liens n’est pas forcément un facteur (j’ai pris ça comme hypothèse).

Le profil de backlinks, peut être que la diversité des backlinks joue un rôle, notamment les fameux liens avec l’url en guise d’ancre. (http://www.domaine.com).
Je ne vous détaille pas l’analyse, mais je suis arrivé à la conclusion que c’est sans doute le nom de domaine mis en début du titre de la homepage qui influe le plus.

Par exemple, le titre de notre site en home :
« Formation Referencement Naturel Google | Referencementschool.com« , j’ai toujours formaté les title en home de cette façon (vu sur Seomoz.org), résultat, aucun de mes sites ne possèdent de sitelinks. Tout au moins un mini sitelink sur une ligne comme ceci :

sitelink Google

 

Vous pouvez avoir plusieurs sitelinks pour différentes sections de votre site comme ci-dessous:

Dans les Webmaster tools de Google, vous pouvez choisir de bloquer un lien du groupe si vous le désirez (si vraiment vous vous la pétez)

sitelink Google

Au bout de dix jours exactement, les sitelinks sont apparus pour notre site !
Donc pour confirmer l’astuce, j’ai appliqué à referencementschool.com le même traitement, en changeant le titre en:
« Referencementschool.com, Formation Referencement Naturel Google | Referencementschool.com »

J’ai attendu dix jours exactement et j’obtiens les sitelinks également.

sitelink Google

A ceci près que c’est mon blog qui est en première position cette fois -ci et non la home page du site.

Donc deux sites qui ont gagné leur sitelink avec cette manipulation simple. Je tente un troisième et vous tiens au courant, ce site est plutôt jeune et je suis pas sûr de les obtenir.

Ca ne marche pas toujours !

J’ai essayé sur 3 autre sites, et ça n’a pas marché, deux site sont agés mais peu de backlinks, un autre site jeune et pas assez de backlinks donc. Je pense que les texte d’ancre et la navigation jouent un rôle ainsi que l’ancienneté du site et des backlinks.

Référencement Des Images Dans Prestashop

Je me suis récemment penché sur le référencement des images d’un site de e-commerce dont je m’occupe, je le fais régulièrement car le trafic par Google Image n’est pas à négliger pour les site de e-commerce pour les raisons suivantes :

  • vous vendez dans une niche où l’on ne sait pas vraiment comment s’appelle un article
  • la recherche visuelle s’applique bien au e-commerce
  • il y a plus de 10 résultats et la nouvelle version de Google dépasse les 25 images de l’ancienne version
  • l’on est plus tolérant avec des images qu’avec du texte en terme de recherche d’images, si vous regardez vos referers, les clics d’images peuvent avoir lieu à la dixième page ! tout dépend de la rareté de ce que l’on recherche
  • les référenceurs portent moins d’importance aux images (une bonne raison de vous lancer)
  • l’index de Google Image est plus facilement spammable
  • un bon référencement des images peut vous faire apparaitre dans les résultats de recherche universelle

et il y a sûrement d’autres raisons que je n’ai pas citées. Mais avant d’en venir sur le référencement des images de votre boutique Prestashop, nous allons passer en revue les facteurs positifs pour le référencement des images.

Les fondamentaux du référencement des images

Les facteurs positifs sont les suivant (je ne connais personnellement pas de facteurs négatifs:

  • remplir votre balise alt avec au maximum 3 mots
  • renseigner les dimensions réelles width et height
  • donner un nom à mots clé, le mot clé sur lequel vous voulez vous positionner
  • choisir entre ces formats d’images seulement : jpg, gif, png
  • optimisez le poids de vos images
  • proposer plusieurs tailles grande, moyenne (500 x 500 en moyenne quoique j’ai vu du 1000 x 600),les petites images ont disparu
  • entourer l’image de texte avant et après avec les mots clé qu’il faut
  • faites une image qui sort du lot
  • linker vers cette page

Le référencement d’images dans Prestashop

Avant la version 1.4 de Prestashop, le référencement des images dans Prestashop était…merdique. Vous avez beau donner des noms de fichiers explicites, il vous les renommait à sa sauce avec des noms génériques comme thumb, small etc. Du coup vous perdez le bénéfice du nom de fichier qui a on le verra par la suite un poids non négligeable.

Deuxième cause du mauvais référencement de vos image : dans le template de base de Prestashop ( et donc dans tous les dérivés), c’est l’attribut title (qui ne sert à rien dans le référencement des images) qui est renseigné et l’attribut alt est inexistant, heureusement j’explique comment éliminer ce défaut en retouchant une ligne du template.

 

Récemment donc, j’ai eu la désagréable surprise de constater que mes images étaient moins bien référencée qu’un concurrent qui tourne aussi sur Prestashop. Quasiment toute la première page était monopolisée par ses images. Après une étude rapide, je me suis aperçu que toutes ses images, avaient un nom de fichier explicite et long (en fait c’était le titre de la page et donc du produit). Au début je pensais qu’une bidouille dans le template pouvait résoudre le problème, mais heureusement c’était plus simple que je ne pensais, et la bonne nouvelle est que Prestashop 1.4 faisait de la réécriture de nom de fichier pour les images ! Bravo les gars ! J’ai donc rapidement upgradé vers la dernière version ( 1.4.3 pour ce site), et graduellement mes images reviennent dans le haut de l’index.

C’est bien de référencer les images mais surtout pensez à faire des images de qualité ! Prenez exemple sur ce site de vente de canapés en tissus qui semble être sa niche.

Upgradez vers Prestashop 1.4 !

Je vous recommande d’upgrader vers cette version qui présente de nombreuses innovation pas seulement dans le domaine du SEO. Possibilité d’exporter vers Ebay votre catalogue, one page checkout et guest checkout entre autre. Pour la mise à jour, je vous rappelle cet article sur la mise à jour vers Prestashop 1.4 à partir de la version 1.3.

Sondage : Qui a mérité la Panda Update ?

Google dans sa bonté ( après avoir réduit en miettes les revenus de certains webmasters du jour au lendemain, preuve qu’il ne faut pas baser ses sources de revenu uniquement sur le SEO) a ouvert un thread où les webmasters qui se sentent victimes de dommages collatéraux de poster leur demandes.

Quelque soit le type de site, les sites web comme des bébés, forcément, on ne se sent pas visé et ce ne peut qu’être une erreur due à l’imperfection de Google, bien sûr.

Google est clair là dessus, il n’y aura pas de tuning manuel car tout ça c’est fait par un programme informatique, dont ils sont très heureux de la performance et pertinence.

J’ai jeté un coup d’oeil sur les sites, franchement certains méritent leurs sorts tant ils sont faits pour générer un max de clics comme celui ci. Et d’autres doivent avoir une raison d’être des victimes collatérales (si Google était tellement sûr d’eux, ils n’ouvriraient pas ce thread pour recueillir les doléances), curieusement peu de webmasters s’expriment.

Je voudrais vous soumettre pour avis une liste de sites, et vous me direz lesquels méritent la Panda update.

  1. askmehelpdesk.com
  2. homeconstructionimprovement.com
  3. proposalwriter.com
  4. charlesandhudson.com
  5. theteacherscorner.net
  6. wordnik.com
  7. spirithome.com
  8. My3cents.com
  9. artpromote.com
  10. travbuddy.com

Retrouvez vous une constante dans la liste des sites pénalisés?

[poll id="5"]

Google Instant + Preview Bon ou Mauvais pour Google?

Ok les gars, ce Google Instant va mettre la pagaille, depuis la première seconde où j’ai utilisé ce truc. Diverses choses ont été entendues, du ridicule Seo is dead jusqu’au Google kills long tail keywords.

Sous l’ère pré Instant, vous tapez une requête, entrée et glissez l’ascenseur pour jeter un coup d’oeil sur les 10 résultats des serps.

Google Instant

Ce qui se passe lorsque vous tapez sous Google Instant, c’est vos yeux sont focalisés sur les premiers résultats, et que le 11ème annonceur Adwords s’en sort de justesse (ouf les $$ sont saufs !). Moins de chance cependant pour les résultats organiques, qui n’ont pas le même traitement de faveur, maintenant on arrête de taper quand on a un résultat qui est à peu près potable. Exit les recherches associées donc. Je ne dis pas que tout le monde va faire ça, l’on continuera à scroller à travers les 10 résultats, mais sans doute moins souvent qu’avant.

Cependant il faut considérer deux types d’utilisateurs de Google, ceux qui tapent une lettre puis lève leur yeux vers l’écran puis regardent le clavier pour la lettre suivantes, et ceux qui peuvent taper un mot sans regarder le clavier.

Dans la première catégorie, on s’apercevra que quelque chose se passe, car il y a déjà quelque chose de retourné, et pourtant on n’a pas encore pressé la touche Entrée. Dans la seconde catégorie on s’aperçoit en temps réel que les résultats bougent !

Les première fois c’est assez impressionnant, et techniquement c’est impressionnant de retourner des résultats aussi vite, Google Instant c’est Google Suggest on Steroid!

Pour nous référenceur, la seule chose qui compte, c’est si cela va impacter le trafic vers nos sites.

Pour ma part je n’ai pas constaté de baisse de trafic ni de hausse, (Google instant a été lancé le 8 septembre). Je pense que Google n’a pas pris de risque et sait que l’influence de Google Instant est minimal sur la recherche.

Je pense que le changement est surtout perceptible pour les annonces de liens sponsorisés. En effet pour la requêtes « référencement », avant il fallait attendre le retour des résultats pour avoir une page avec des pub Adwords. Avec Google Instant les annonces Adwords commencent dès « réfé » puis changent à « référ » pour stabiliser jusqu’à « référencement+<Espace> ».

Le temps d’exposition de l’internaute aux publicité Adwords augmenté de plusieurs secondes. Mais le plus surprenant est que les annonces Adwords pour le même mot clé sont beaucoup plus nombreuses. Au lieu des 11 annonces traditionnelles, j’ai dénombré environs une vingtaine, je suis sûr que les impressions sont plus nombreuses, et le taux de clic risque de baisser. Actuellement je n’ai pas de campagne active, mais je vais relancer bientôt une campagne pour un client et je suis impatient de voir comment ça va évoluer.

Google a réussi un coup de maître en affichant plus de publicités Adwords, tout en se faisant passer pour un grand innovateur en technologie web pour le bien de l’internaute.

Pour les webmarketers, le plus important est maintenant de savoir si leur ROI a changé, si leur dépense a augmenté pour une même période de temps.

Et vint Google Instant Preview

C’est une version graphique de Google Instant. Cette fonction vous permet de visualiser un site Web depuis la page des résultats de Google. L’ennui c’est que les résultats AdWords semblent être cachés par cette petite fenêtre de visualisation. A priori, cela pourrait porter préjudice à la vache à lait du Google. Mais qu’en est-il vraiment ? Nous avons vu qu’avec Google Instant, le taux de clic était légèrement modifié à la hausse. Tous les blog posts qui sont sortis suite à Google Instant ne sont en réalité que du vent, pour une raison très simple, Google teste ses nouvelles fonctionnalités en live depuis toujours. Si Google a décidé de sortir Google Instant, c’est qu’il a déjà fait beaucoup de tests grandeur nature. Or, une évolution de cette ampleur ne pouvait se faire à la légère. Et bien sûr Google ne va pas prendre de risques par rapport à voir ce qui est encore une fois sa vache à lait. Même chose pour Google Instant Preview

Lorsque nous survolons la loupe en cliquant dessus il apparaît à la droite une fenêtre flottante avec un aperçu de la page de destination. Cette fenêtre flottante masque les résultats AdWords. Enfin, presque. Car à aucun moment, le bloc Adwords ne les masquait en intégralité, même si vous survolez le premier résultat il y a toujours le petit message qui précède le bloc annonce de AdWords. Et quand vous survolez les résultats suivants, on commence à entrevoir le premier résultat de AdWords. Ceci pourrait attirer votre attention sur le bloc des liens sponsorisés. Je pense que c’est l’effet recherché par Google. Ce qui paraît comme être un acte de suicide est en fait la toute dernière technique de Google pour rentrer encore plus d’argent.

Google Géolocalise les suggestions

Update 2:bon apparemment c’était en place depuis avril 2009 Duh !

Update : Entre la publication de l’article et l’apparition de ce billet dans Feedburner, il s’est écoulé 10 seondes…

J’ai constaté aujourd’hui que Google géolocalise les suggestions. Peut être que c’est en cours depuis plusieurs jours, mais à regarder l’image, je ne peux qu’être sûr que ce n’est pas une coincidence si on voit plusieurs lieux de la région de Toulouse.

Seuls informatique de gestion, informatique leclerc ne sont pas à connotation géolocalisée. Quand à savoir s’il y a une relation entre l’ordre d’arrivée et la proximité du lieu de l’ordinateur je vais tenter ci-après de vois s’il ya  une corrélation:

Distance Toulouse-Albi:68 km

Distance Toulouse Rodez :122 km

Distance Toulouse – Tarbes:118 km

Distance Toulouse – Montauban :46km

Distance Toulouse – Auch :68 km

Pour faire la mesure des distances je me suis basé sur le vol d’oiseau, par défaut Google Maps vous centre sur la ville (Toulouse dans mon cas si je ne rentre que « informatique »). Bon clairement il n’y a pas de corrélation.

Google Maps vous permet également de mesurer la distance le long d’une route (plutôt killer comme fonctionnalité non ?) , mais là non plus pas de corrélation, je me suis épargné l’effort de la faire. Tout ce dont on peut déduire c’est que le classement ne doit pas seulement reposer sur la distance au point de recherche sur le moteur. Ci dessous la carte Google map que j’ai créé pour l’occasion:
Afficher Geolocalisation Suggestion Toulouse sur une carte plus grande

Voilà c’est cuit on dirait si on veut un listing plus exhaustif de Google Suggest. L’historique des recherches peut influer sur les suggestions retournées. Mais même en déconnecté j’ai les mêmes suggestions.

Je me souviens que les suggestions sur Google Mobile étaient géolocalisées, mais je n’arrive pas à retrouver l’article de Search Engine Land.

Faites le test et envoyez moi l’image de la même recherche pour le terme « informatique » depuis chez vous si vous le voulez.

Le Monde du Black Hat français en Ebullition?

Depuis le seo-campus Toulouse, le monde du black hat en France semble être en ébullition avec les annonces des inoxydables Discodog et Tiger, « porte paroles » du black hat français. En effet lancement de Auto-splog, d’un forum black hat par Tiger:

seoblackout

Le black hat c’est quoi?

C’est un mec qui a tout compris au référencement on page et off page. On page, il génère du contenu sans effort (apparent) et en off page, il a tout compris également depuis le début, puisque le plus important pour lui c’est d’avoir le maximum de backlinks possible sans effort (apparent) sur des pages à fort pagerank. Donc les gens qui nous les cassent avec des déduplications pour des pages catégories filtrés par ordre croissant et décroissant, vous avez mieux à faire…

Les outils du black hat

Tiger nous a fait une excellent présentation lors du seo-campus Toulouse, le slide du SMX est en partie disponible, les outils sont divisés en deux catégories: les générateurs de contenu , et les moissonneurs de liens

Les générateurs de contenu : le fameux Link Farm Evolution qui est en passe d’entrer dans le Hall Of Fame du web tellement j’en entend parler,SE Nuke, Auto Splog par Discodog.

Les moissonneurs de liens : Scrapebox, Xrumer pour les expert BH, SE Nuke, Sick Submitter.

A cela il faut ajouter les outils pour passer les captchas, fini les solutions software, maintenant on crowdsource en Afrique, avec decaptcher.com. N’oubliez pas le B A Ba, faites du black hat derrière un proxy, il existe des proxys gratuit mais pour 10 euros/mois, vous avez de beaux proxys fiables, les prix varient en fonction de ce que vous voulez faire.

Le black peut être une réponse aux personnes affamées de positionnement, mais ne vos y engagez pas sans être averti ! Le Black Hat promet des résultats (d)étonnantsbh (je n’en doute pas) mais les risques sont à la mesure des gains, alors une règle d’or, ne mettez pas en jeu vos sites web importants, faites vous un bac à sable, ou mettez en oeuvre le link wheel qui permet de mettre un écran devant votre site principal et le mettre en quarantaine.

Je suis sûr qu’avec la pression commerciale qu’ils vont nous mettre, je ne fais pas de soucis pour leur CA de cette année.

Enfin n’oubliez pas une chose, faites le à vos risques et périls. Si vous ne voulez pas prendre de risque, alors faites du seo white hat, gage de pérennité.

Interview de l’auteur de Crawltrack : Jean Denis Brun

Q1:Salut Jean Denis, j’ai connu Crawltrack en 2007, à l’époque je n’avais que des connaissances vagues sur les bots (j’étais plutôt Google analytics). Or ce dernier ne détecte que les visites d’humains. Très concerné par le Seo technique, j’ai très vite vu l’intérêt d’un outil comme Crawltrack qui à la différence de Google Analytic à l’époque, détectait les visites des bots. Mais parlons d’abord de toi, comment es tu venu à Crawltrack? Quelles connaissances techniques avais tu à l’époque où tu as commencé à coder Crawltrack?

Pour revenir à l’origine de CrawlTrack il faut remonter à fin 2004. Je fait partie d’une famille nombreuse dont les membres sont éparpillés un peu partout en France, et j’ai eu l’idée de créer un site  pour  s’échanger des infos.  J’ai commencé par un site fait en Frontpage sur un hébergement gratuit, mais assez vite j’ai eu envie d’apprendre et de maitriser le code et j’ai laissé tomber Frontpage pour un simple notepad++.

J’ai installé un phpMyVisites (aujourd’hui Piwik)pour suivre les statistiques de visites et la j’ai eu envie de comprendre comment ça marchait. Je n’avais jamais fait de php, je ne suis pas informaticien mais ingénieur en mécanique. J’ai acheté plusieurs livres (du style php5 pour les nuls) et j’ai appris. Assez vite j’ai fait des modifs dans phpMyVisites pour mon usage personnel et j’ai fini par mettre en ligne des plugins pour phpMyVisites.

Au mois de juin 2005, l’idée de permettre la détection des robots par phpMyVisites est lancé et je me charge de cette partie. A l’époque RobotStats est la référence dans la détection de robots mais déjà son développeur (Olivier Duffez du site Webrankinfo) a visiblement d’autres priorités et le script n’est plus mis à jour. Après plusieurs semaines de travail, il apparaît clairement qu’il y a  une incompatibilité technique entre phpMyVisites qui utilise le Javascript (tout comme Google Analytics) et la détection des robots qui nécessite d’utiliser le php.  L’idée de l’intégration dans phpMyVisites est abandonnée et j’ai pris la décision de sortir CrawlTrack comme script autonome. La première version a été proposée en téléchargement le 5 novembre 2005.

Q2:Peux tu nous expliquer comment marche crawltrack techniquement?
Voilà une vaste question, je vais essayer de faire simple. A chaque requête,  le tag de CrawlTrack qui est positionné sur la page lance l’exécution d’un script php.  Ce script va utiliser les informations disponibles dans la requête http reçue par le serveur (url demandée, user-agent, IP et referer) pour  classifier la visite (attaque ou pas, robot ou humain, etc…). La visite une fois  identifiée comme venant d’un robot connu par CrawlTrack, venant d’un humain ou étant une attaque fera l’objet d’un enregistrement dans la base de donnée. Les autres visites « non identifiées » seront juste comptées mais pas enregistrées. L’ensemble du traitement est fait coté serveur, c’est la différence fondamentale avec des scripts qui utilisent le Javascript (Google Analytics, Piwic) dont une part du traitement est fait coté client. CrawlTrack ne pourra jamais donner la résolution de l’écran d’un visiteur mais en contrepartie il ne dépend pas de l’activation de Javascript pour détecter une visite ce qui lui permet de détecter les robots.

Q2bis:Comment fonctionne en principe la détection d’attaque?

La détection des attaques est faite par l’analyse de l’url demandée en y regardant chacun des paramètres passé dans l’url. Classiquement, une tentative d’injection de code fait appel à un lien vers le script malicieux, c’est ce lien qui est détecté. De même pour les tentatives d’injection sql, c’est la présence de morceaux de requêtes SQL qui est détectée. La liste d’attaques qui est disponible dans la base de CrawlTrack n’est pas utilisée dans le processus de détection, elle ne sert qu’à donner les infos sur la page de statistiques de CrawlTrack (les scripts visés par les attaques reçues).

Q3:Crawltrack est en php et non en javascript pour pouvoir détecter des robots (qui ne lisent pas le javascript en général). Aujourd’hui il détecte aussi les humains, quels challenges dois tu affronter pour restituer au mieux la réalité. Sachant qu’il n’y a pas de solution parfaite, pourquoi as tu décidé d’enrichir Crawltrack dans cette direction?

C’est vrai qu’au départ je n’avais pas prévu d’intégrer la détection des humains. Ce qui m’a fais évoluer dans ce sens c’est d’une part les utilisateurs de CrawlTrack qui ont été de plus en plus nombreux à le demander et d’autre part, mon expérience en tant que webmaster qui trouvait lourd de devoir utiliser plusieurs outils différents pour avoir l’ensemble des informations qui m’intéressaient. L’avantage du tag php c’est qu’il voit toute les requêtes reçues par le serveur, mais quand il s’agit de détecter les humains ça devient un inconvénient. C’est fou le nombre requêtes que reçoit un serveur web. Pour faire le tri entre les humains et les autres il a fallu développer des  filtres pour séparer le bon grain de l’ivraie. Ce traitement est lancé lors de la préparation de l’affichage des pages de résultat. Il a fallu presque un an de tests en parallèle avec Google Analytic pour mettre au point ces filtres.

Q4:Comment un webmaster peut-il tirer au maximum de l’environnement Crawltrack? Par exemple il m’est venu à l’idée de croiser les données de crawl de Google avec le temps d’indexation de Google, et j’entrevois d’intéressante possibilités pour de l’analyse fine et statistique, surtout pour des sites de taille moyenne. Que vois tu d’autres comme applications possibles?

C’est chaque utilisateur qui peut inventer son mode de fonctionnement et d’utilisation des données. C’est clair par exemple que de voir ce que font les robots permet de mieux comprendre le processus d’indexation pour éventuellement  apporter les corrections nécessaires pour favoriser un crawlage en profondeur. L’analyse des mots clef utilisés par les visiteurs et des pages d’entrée sur le site permet dans un deuxième temps de vérifier l’impact du référencement. On découvre parfois que des mots clefs utilisé par les visiteurs pour arriver sur le site ne sont pas ceux auxquel on avait pensé, ce qui peut ouvrir de nouvelles pistes pour le référencement. Il y a certainement encore beaucoup d’autres façons d’utiliser la masse importante d’informations donnée par CrawlTrack. Et c’est les suggestions des utilisateurs qui permettront de donner de nouvelles pistes pour les évolutions futures.

Q5:On voit une profusion de solutions analytiques pour les humains, mais très peu pour les bots. Confirmes-tu mon analyse?Pourquoi à ton avis?

Je pense qu’il y a une première raison, c’est que les webmasters sont d’abord intéressés par le nombre de visiteurs sur leur site. La prise de conscience de l’importance des robots ne vient qu’en deuxième temps si le webmaster commence à s’intéresser au référencement.
La deuxième raison c’est qu’il est plus simple pour le webmaster d’intégrer un tag Javascript qui ne demande rien de particulier au niveau du codage du site, alors que le tag php demande soit des pages en .php, soit un paramétrage du serveur pour traiter les pages html comme du php. Pour un produit « grand public », le choix du Javascript parait au première abord plus évident mais du coup cela ferme la porte à la détection des robots.

Q6:Pourquoi des bots sont plus gourmands que d’autres?

C’est un bonne question, sur mon site le numéro un et de loin s’appelle Googlebot avec une  visite toute les 2 à 4 secondes; ensuite arrive dans l’ordre Slurp Inktomi (Yahoo) et MSN Bot. Je trouve ça plutôt bon signe, mais si je fais un calcul de ratio (visiteurs envoyés)/ (visites du robot) je trouve que Yahoo et Bing utilisent beaucoup de bande passante pour un résultat très médiocre. Alors en fait je n’ai pas la réponse à ta question, il faudrait la poser à Google, Yahoo et Microsoft…

Q7:As tu des conseils à donner à ceux qui font du référencement de par ta connaissance des crawlers? Penses-tu que l’on ne met pas assez l’accent sur cette partie invisible qu’est le crawling?

Le référencement a pour objectif essentiel d’amener des visiteurs sur un site; tout le travail du référenceur consiste à faire connaître le site sur la toile. La part de visiteurs venant de moteurs de recherche (principalement Google) est souvent très importante, voir la plus importante. Ces moteurs ne « conseilleront » un site à un visiteur que si ils  le connaissent, et la seule façon pour eux de connaitre un site est de le crawler. Clairement, une page jamais crawlée, ne sera jamais proposée par le moteur puisqu’il ne la connait pas. C’est donc fondamental de savoir ce qui se passe au niveau du crawling pour d’une part vérifier que tout se passe bien (ça serait ballot de bloquer l’IP de Googlebot dans son .htaccess par exemple), mais aussi détecter les pages qui sont oubliées par le robot (page orpheline?). Un autre paramètre important est la fréquence de crawling, Googlebot viendra de plus en plus souvent si il découvre de nouvelles informations (ou pages) et si il n’est pas freiné dans son exploration. J’ai souvent observé qu’une augmentation de la fréquence  de crawling précédait une augmentation du nombre de visiteurs. Attention aux capacités du serveur, les robots peuvent être très gourmands, souvent nettement plus que les visiteurs humains.

Q8:ta base de bots a l’air sympa puisque très complète. Cela me rappelle que Fantomaster lui aussi a une base d’addresse ip de bot très mise à jour. Des possibilités que certains utilisent ta base à des fins de cloaking (surtout pour les ip de Google) ou alors c’est un peu risqué ?

Les utilisateurs sont libres de faire ce qu’ils veulent avec cette base, à eux d’assumer les risques qu’ils prennent au niveau de leur référencement. Personnellement je ne tente pas le diable, Google est beaucoup trop important en terme de source de visiteurs pour prendre le risque d’un blacklistage. Les ingénieurs de Google ne sont pas nés de la dernière pluie, ils savent que le cloaking existe et ils peuvent le détecter. Je ne serai pas étonné que de temps en temps Googlebot se déguise en visiteur lambda…[Ne tentez pas le black hat sur vos sites importants NDB]

Q9:le travail que tu as fait est considérable, Crawltrack est toujours gratuit, penses-tu le rendre payant un jour, en faire un service professionnel et freemium?

CrawlTrack est et restera open-source et gratuit. Les ressources publicitaires me permettent maintenant d’amortir l’ensemble des coûts d’hébergement. CrawlTrack reste pour moi un loisir, j’ai une activité professionnelle qui n’a rien à voir avec le web qui me permet de faire bouillir la marmite.

Q10:Quelle direction va prendre Crawltrack dans les mois et années à venir?

Voilà une bonne question, je ne fait pas de plan à long terme, les évolutions sont la plupart du temps venues suite à des demandes d’utilisateurs.
Dans un premier temps, c’est certainement la partie anti-hacking qui va évoluer le plus, ensuite on verra, j’attends les suggestions.

Q11:Parles nous de Crawlprotect, ta solution de protection des sites web, en quoi une protection au niveau du serveur peut être efficace?

CrawlProtect est né d’une demande de certains utilisateurs de CrawlTrack qui n’étaient intéressés que par la protection anti-hacking. L’objectif était donc de proposer un script léger uniquement dédié à la protection. CrawlProtect utilise un fichier .htaccess, et c’est donc au niveau du serveur Apache que le traitement est fait, avant tout traitement php (et donc avant les éventuels failles présentes dans les scripts utilisés).
Ca permet un plus grande réactivité tout en utilisant moins de ressources. Cela  fonctionne quelque soit le type de page (hml, php, …) sans avoir a intégrer un tag sur le site.
Mais attention, aucune protection n’est efficace à 100%, de nombreux cas de hacking se font simplement par ftp avec le login et le mot de passe qui ont été récupéré directement sur le PC du webmaster par un Trojan. Et là ni CrawlTrack, ni CrawlProtect ne peuvent rien y faire, alors si je peux donner un dernier conseil, en tant que webmaster, mettez vous à Linux, surtout que si vos affaires marchent bien il faudra passer au serveur dédié un jour et là vous serez en terrain connu ;) .

Merci JDB. pour cette interview.

Si vous avez marre de Google Analytics il est temps d’essayer des alternatives certes moins puissantes (mais combien de gens utilisent les fonctions avancées de GA?) légère et au moins vous gardez tout pour vous.