Détecter qui hotlink vos image et comment en tirer profit

On dit souvent que le hotlinking est comme un poil à gratter, ça nous ennuit, nous bouffe de la bande passante, mais on peut en tirer facilement profit pour driver du trafic vers nos sites.

Détecter le hotlinking

Mais d’abord comment détecter qu’une image est hotlinkée? Deux façon de la savoir, le premier est de balayer les serps de Google Images, et de voir si une de vos image n’est pas hotlinkée, quand vous la survolez, (l’image dont vous êtes sûr d’être à l’origine), le domaine apparait.

Mais ceci est fastidieux, car il n’est vraiment pas évident de trouver, et il faut se fier à al chance.

Une autre méthode plus scientifique est de regarder les log Apache.

Voici comment se présente cette ligne :

92.156.158.106 – – [24/Sep/2013:13:05:33 +0200] « GET /942-1333-large/anse-5156-2-marron.jpg HTTP/1.1 » 304 263 « http://lafibrecreative.canalblog.com/archives/2012/05/09/24225174.html » « Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0 »

Je reprends cette ligne en soulignant les éléments intéressants :

92.156.158.106 – – [24/Sep/2013:13:05:33 +0200] « GET /942-1333-large/produit-5156-2-marron.jpg HTTP/1.1 » 304 263 « http://coupable.canalblog.com/archives/2012/05/09/24225174.html » « Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0 »

 

Le second segment de phrase souligné en gras est la page qui demande le média. Normalement, cette page est une page de votre site, mais dans ce cas précis non ! Vous tenez le coupable !

Vengeance

Maintenant que vous avez identifié la page coupable, identifiez l’endroit où se trouve l’image, suivant votre CMS, et si une réécriture est faite via htaccess, vous devez plus ou moins chercher.

Téléchargez l’image et retravaillez la en ajouter l’url de votre site web, simple comme bonjour !

Comment chercher dans les logs Apache ces lignes?

Bonne question ! là c’est la partie technique, la méthode que je vous dis ne marche que pour les hébergement où vous avez accès à vos logs.

Il vous faut maitriser un peu la commande grep qui sert à trouver une chaine de caractère dans un fichier. Un tuto sur grep sur cette page. en un peu plus complet mais en anglais (googlez quoi)

Je ferai un autre article sur les logs Apache, mais en gros voilà ce qu’il faut faire:

  1. chercher les lignes concernant les images téléchargées et les mettre dans un nouveau fichier
  2. à partir de ce fichier, ne garder les lignes qui ne sont pas téléchargées par votre site web et les mettre dans un nouveau fichier
  3. ensuite ne garder les lignes qui ne sont pas téléchargées par les moteur de recherche type google, bing, yandex
  4. maintenant vous devriez avoir un fichier plus petit, au besoin ne pas garder les lignes qui contiennent des information manquantes comme la chaine de caractère « -« 
  5. Passez au peigne fin les lignes, et repérez les url des sites web que vous ne connaissez pas c’est tout.

Les commandes :

Une fois que vous connaissez un peu les commandes grep voici pour les différentes étapes ci-dessus les syntaxe je suis pas un cador en regex mais si vous repérez une erreur dites le mois, Je fait la recherche de fichier gif,jpg, et png :

  1. grep -i « (\.gif|\.png|\.jpg) HTTP » fichierlog > fichierlog2 (regex pour détecter plusieurs types d’image)
  2. grep -i -v « www\.monsite\.com » fichierlog2 > fichierlog3
  3. grep -i -v « bing » fichierlog3 > fichierlog4  ( répéter pour les autres moteurs de recherche)
  4. grep -i -v « \ »-\ » » fichierlog15 > finallog

le caractère \  (backslash) sert à échapper les caractères spéciaux.

Ce que je fais est que j’ajoute l’url de mon site sur l’image je pense que ça marche le mieux. Bonne chasse !

 

Comments on this entry are closed.

mautic is open source marketing automation