Le scraping des SERP Google n’est pas un métier si facile

Vendredi dernier j’ai reçu un message de Monitorank annonçant un changement dans le scraping des serps de GG, et tout de suite je me suis souvenu de la difficulté d’assurer un service de qualité.

C’est quoi le scraping web?

Cela parait magique au premier abord, on voit une page de résultats de Google, et il est possible d’avoir informatiquement ces données afin de les exploiter à l’envie, le scraping c’est ce qui vous permet d’avoir la position de votre site web dans les serps de Google sans avoir besoin d’ouvrir  un navigateur web, et de checker à la main un par un les mots clé sur lesquels se positionnent votre site web. Vous venez de gagner une heure sur une trentaine de mot clé…

Comment se fait le scraping des serps de Google?

Techniquement, on utilise une méthode informatique qui s’appelle les expressions régulières, qui permettent d’extraire les lignes de textes qui satisfont une condition, dans le cas des serps, les 10 résultats d’une page sont eglobée dans des tag HTML spécifique. Les expressions régulières vont reconnaitre ces tag HTML et vont les stocker dans une variable. On puet utiliser n’importe quel langage de programmation, mais souvent c’est n langage Python que cela se fait pour des raison de performance, ou en PHP si les performances ne sont pas exigeantes.

Les problèmes qui peuvent survenir

Il suffit d’une toute modification de la présentation (dans mon cas un caractère entrée supplémentaire) pour que le scraping ne marche pas, ou que Google restreigne un peu plus l’acès à ses résultats, pour que le système se grippe, plus de scrape, plus de résultat

Les autres aspects techniques à considérer

Les temps de pause

N’imaginez pas que Google va vous laisser gentiment scraper ses résultats, c’est son capital le plus précieux. Le code HTML peu évoluer pour X raison, mais surtout vous ne pouvez pas requêter trop intensément ses résultats sous peine d’être banni (par votre IP) temporairement, le fameux message Bad Request Erreur 400, c’est celui qu’on voit quand on scrape un peu trop.

D’où l’idée de mettre une temporisation pour ne pas se faire reconnaitre comme un programme informatique, mais simuler qu’on est une personne.

Les proxys

Seulement quand on a des centaines de milliers de mots clé à scraper par jour, il faut passer par des milliers d’IP différentes. Comment en avoir? passer par des Botnet :P? Il y a des revendeurs de proxys un peu partout sur le web, comme Hidemyass. Ces proxys ont un coût, et quand vous avez des milliers de proxys, ça se chiffre en milliers d’euros/mois.

De plus il faut distinguer les proxys dédiés des proxys partagés, ces derniers étant de moins bonne qualité, j’ai eu par le passé des proxys partagés car pas cher, mais au bout d’un moment les IP étaient blacklistée.

Les user agents

Il faut simuler un navigateur en règle (Firefox ou Google Chrome). Par exemple pour Firefox le user agent est : Mozilla/5.0 (Android 4.4; Mobile; rv:41.0) Gecko/41.0 Firefox/41.0, celui de Google Chrome version 41 ( ça date je sais) est : Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36.

La géolocalisation

Depuis bien longtemps, les serps de Google ne sont pas identiques selon l’endroit où l’on fait la requête, c’est surtout vrai les requêtes géolocalisées. Donc importance de la localisation de l’adresse IP !

Autre facteurs relatif à l’humain

Je ne l’ai pas vérifié, mais pourquoi pas : pas de requêtes en grand nombre à 3 heures du matin?

Les moyens humains

Comme c’est très technique, il va de soi qu’il faut être informaticien à la base pour pouvoir développer une telle plateforme, et avec de multiples compétences : langage de programmation, connaissance de serveur, web, SEO, marketing. J’en oublie, mais même si une seule personne est capable de faire ça, l’entreprise ne va pas aller loin, c’est surtout un travail d’équipe. C’est la raison pour laquelle GammaSeotools n’est pas allé plus loin que la phase prototype. Aujourd’hui je l’utilise à des fins personnelles, peu de scraping, c’est une toute autre histoire s’il fallait assurer un service pour des centaines de clients.

Outre les techniciens, il faut promouvoir l’outil et c’est les marketeurs qui doivent s’en charger. Difficile de faire le grand écart, et chacun doit faire ce qu’il sait le mieux. Cela implique un budget conséquent, et avant même d’avoir gagné suffisamment d’argent.

La proposition de valeur

Un tool comme Monitorank n’est pas le seul sur le marché, il y a Ranks.fr, Myposeo (bof), ça rien que pour la France, qui font la même chose. On m’a conseillé Monitorank pour la réactivité du support, moi j’ai vu surtout le prix, ils sont vraiment imbattable, ils proposent des prix que moi j’estime être convenable. Maintenant que vous avez vu les tenants et aboutissants du scraping des serps de Google, je pense que vous vous rendez compte du coût et de la difficulté de proposer des positions de mot clé, et j’espère vous avoir un peu plus éclairé sur ce métier un peu à part.

Yvon Huynh

Refschool est un référenceur / développeur full stack, il a commencé à faire du développement de site web, avant de brancher vers le développement web, front end et back end. Il poursuit sa passion de référenceur en bloggant de temps à autres sur le sujet du webmarketing.

Vous aimerez aussi...