Archives pour la catégorie webmastering

Merci Mavenhosting (billet d’humeur)

Je fais partie des gens qui n’ont pas sauvegardé leur site, normal c’est petits MFA, pas des money sites.J’en avais une trentaine dormantes (je ne sais pourquoi d’ailleurs c’est une perte d’argent), apparemment j’ai plus de site web que de sauvegarde. Et puis ce jour arriva ou Mavenhosting se fait hacker et perd tout.

J’en veux aux personnes qui sont à l’origine de ça, non mais c’est des connards quand même de saboter une entreprise pour la couler, un coup en dessous de la ceinture quoi.

Empathie pour Mavenhosting, tout en espérant que leur traitement des disques durs en salle blanche leur fera recouvrir la mémoire…

hélas j’apprends officiellement via une langue de bois que toutes mes données sont perdus, ce sont quand même des centaines d’heure de travail.

Donc Mavenhosting est à bannir de votre liste de provider. J’ai même pas pu avoir de remboursement (qui en tente rien n’a rien).

Dernier conseil : faites des sauvegardes! (perso heureusement que mes sites importants ne sont PLUS chez eux !), on aurait frôlé le dépôt de bilan

 

Je m’excuse auprès des personnes à qui j’ai recommandé Mavenhosting

Détecter qui hotlink vos image et comment en tirer profit

On dit souvent que le hotlinking est comme un poil à gratter, ça nous ennuit, nous bouffe de la bande passante, mais on peut en tirer facilement profit pour driver du trafic vers nos sites.

Détecter le hotlinking

Mais d’abord comment détecter qu’une image est hotlinkée? Deux façon de la savoir, le premier est de balayer les serps de Google Images, et de voir si une de vos image n’est pas hotlinkée, quand vous la survolez, (l’image dont vous êtes sûr d’être à l’origine), le domaine apparait.

Mais ceci est fastidieux, car il n’est vraiment pas évident de trouver, et il faut se fier à al chance.

Une autre méthode plus scientifique est de regarder les log Apache.

Voici comment se présente cette ligne :

92.156.158.106 – - [24/Sep/2013:13:05:33 +0200] « GET /942-1333-large/anse-5156-2-marron.jpg HTTP/1.1″ 304 263 « http://lafibrecreative.canalblog.com/archives/2012/05/09/24225174.html » « Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0″

Je reprends cette ligne en soulignant les éléments intéressants :

92.156.158.106 – - [24/Sep/2013:13:05:33 +0200] « GET /942-1333-large/produit-5156-2-marron.jpg HTTP/1.1 » 304 263 « http://coupable.canalblog.com/archives/2012/05/09/24225174.html » « Mozilla/5.0 (Windows NT 6.1; WOW64; rv:24.0) Gecko/20100101 Firefox/24.0″

 

Le second segment de phrase souligné en gras est la page qui demande le média. Normalement, cette page est une page de votre site, mais dans ce cas précis non ! Vous tenez le coupable !

Vengeance

Maintenant que vous avez identifié la page coupable, identifiez l’endroit où se trouve l’image, suivant votre CMS, et si une réécriture est faite via htaccess, vous devez plus ou moins chercher.

Téléchargez l’image et retravaillez la en ajouter l’url de votre site web, simple comme bonjour !

Comment chercher dans les logs Apache ces lignes?

Bonne question ! là c’est la partie technique, la méthode que je vous dis ne marche que pour les hébergement où vous avez accès à vos logs.

Il vous faut maitriser un peu la commande grep qui sert à trouver une chaine de caractère dans un fichier. Un tuto sur grep sur cette page. en un peu plus complet mais en anglais (googlez quoi)

Je ferai un autre article sur les logs Apache, mais en gros voilà ce qu’il faut faire:

  1. chercher les lignes concernant les images téléchargées et les mettre dans un nouveau fichier
  2. à partir de ce fichier, ne garder les lignes qui ne sont pas téléchargées par votre site web et les mettre dans un nouveau fichier
  3. ensuite ne garder les lignes qui ne sont pas téléchargées par les moteur de recherche type google, bing, yandex
  4. maintenant vous devriez avoir un fichier plus petit, au besoin ne pas garder les lignes qui contiennent des information manquantes comme la chaine de caractère « - »
  5. Passez au peigne fin les lignes, et repérez les url des sites web que vous ne connaissez pas c’est tout.

Les commandes :

Une fois que vous connaissez un peu les commandes grep voici pour les différentes étapes ci-dessus les syntaxe je suis pas un cador en regex mais si vous repérez une erreur dites le mois, Je fait la recherche de fichier gif,jpg, et png :

  1. grep -i « (\.gif|\.png|\.jpg) HTTP » fichierlog > fichierlog2 (regex pour détecter plusieurs types d’image)
  2. grep -i -v « www\.monsite\.com » fichierlog2 > fichierlog3
  3. grep -i -v « bing » fichierlog3 > fichierlog4  ( répéter pour les autres moteurs de recherche)
  4. grep -i -v « \ »-\ »" fichierlog15 > finallog

le caractère \  (backslash) sert à échapper les caractères spéciaux.

Ce que je fais est que j’ajoute l’url de mon site sur l’image je pense que ça marche le mieux. Bonne chasse !

 

Guide Optimisation SEO De Prestashop

Référencement général Prestashop 1.3.xx

Pour suivre ce tuto, il faut ouvrir le thème par défaut de Prestashop dans /theme/prestashop, ou si vous avez un thème cutomisé, essayez de retrouver les balises signalées.

Les titres et sous titres de toutes les pages

Par défaut, Prestashop met le H1 sur le logo sur toutes les pages. Pour les pages produits le sous-titre H2 sur le nom du produit, ce qui n’est pas optimal, il faut changer l’architecture de votre page, ainsi il faut ouvrir le fichier header.tpl qui contient le haut de votre page web, et remplacer le h1 logo par div id=logo.

Pour la fiche produit :

Une fois ceci fait ouvrez le fichier product.tpl qui contient toute la fiche produit, changez le h2 qui se trouve juste après le primary-block en h1 ! Les fichiers .tpl se trouvent dans le répertoire /themes/nom_du_theme

Dans le fichier css changez le h1#logo en #logo (ligne 191 environ)  et le h2 en h1 (ligne 162 environ).Maintenant vous avez une structure beaucoup plus optimisée pour votre boutique. Source : Homo economicus.

Pour la page Catégorie:

Ouvrez category.tpl et à la ligne 7 environ, transformez le h2 class= »category_title » en h1.

Que faire des pages catégorie? Personnellement ce sont mes pages importantes que je référence, je ne référence pas les fiches produits.

Optimisation des images:

Optimisation de l’attribut « alt » des images dans la fiche produit : le thème par défaut de Prestashop n’implémente pas bien l’attribut alt. Il reprend le nom du produit, si vous voulez qu’il reprenne le titre de la page, il faudra éditer le fichier template product.tpl. Cherchez la balise

div id="image-block", rajoutez width="300" height="300"

après {if $have_image}, indiquer les tailles augmente la probabilité d’indexation de l’image, et surtout mettez le même contenu de l’attribut alt que le title.

Page accueil

Maintenant que vous avez modifié le h1 pour la  page produit, vous pouvez mains ce n’est pas une obligation changer le h2 de la page d’accueil en h1 en éditant dans le dossier modules le répertoire editorial, le fichier editorial.tpl, cherchez le h2 et transformez le en h1, mais le problème est qu’il n’y a pas de h2 maintenant, on passe de h1 à h4 et h5 ! Or pas de preuve que ce soit plus efficace donc vu que la hiérarchie n’est pas modifiée entre les sous-titres. Mais c’est à tester.

Architecture du site

Vos produits sont organisés en catégories ou sous-catégorie, par défaut Prestashop ne montre que les dix premiers articles d’une catégorie. Si vous avez 50 produits, l’internaute sera amené à cliquer sur les pages suivantes ou afficher un nombre de produits plus grands. C’est ce qu’on appelle la pagination. Le problème avec les paginations, c’est en outre des ancres de liens nom optimisés (1,2,3…), mais aussi une certaine difficulté pour le moteur de recherche de crawler vos pages.

Une façon de contourner ce problème est de ne pas mettre trop d’articles par catégorie, et donc de créer des catégories supplémentaires pour éviter d’avoir la pagination. Une autre est d’augmenter le nombre d’articles présentés (nous n’en parlerons pas ici). Ainsi dès que vos produits deviennent nombreux n’hésitez pas à créer une catégorie ou des sous-catégories pour rendre la navigation plus simple pour l’humain et le crawl plus facile pour les spiders.

Les sitemaps

Le sitemap

Un sitemap est un fichier texte au format xml qui stocke en dur les url des pages de votre site web. Il est destiné à décrire au moteur de recherche les pages que possède votre site et à l’aider à les indexer (du moins crawler). Parfois il arrive que certaines urls de votre site ne soient pas facilement accessible pour x raison et il est bon de donner aux moteurs de recherche les indications. Notez que la fourniture d’un sitemap d’url ne garanti pas que les moteurs de recherche vont les crawler voire indexer, ce dernier est seul maitre de ce qu’il veut faire.

On conseille d’abords aux site de bien travailler leur architecture de site afin de faciliter au maximum le crawl des pages, et non de tout de suite lui donner un fichier sitemap. Ce n’est qu’après avoir fait le maximum pour rendre accessible un moteur de recherche que l’on met un fichier sitemap.

Le sitemap image

Google vous permet de faire un sitemap d’images, pour un site d’e-commerce c’est utile car on fait souvent des recherches de produits avec Google Image. J’avais pensé faire un script pour construire un sitemap image mais je n’ai pas encore trouvé le temps de le faire.

Le sitemap video

Google vous permet de faire un sitemap de videos, fonctionne sur le même principe que les sitemaps image. Si vous avez des vidéos dans votre boutique c’est le moment de tester ce type de sitemap.

Fichier robots.txt

Rien à signaler sinon vérifiez qu’il ne bloque pas un répertoire important on ne sait jamais.

La réécriture d’urls, le fichier .htaccess (Apache)

Comme les données sur les produits et les catégories sont stockées sous forme de base de données, pour accéder à une produit donné, il faut indiquer la référence du produit qui est codés sous forme de chiffre ou alphanumériques et illisible par un être humain. La technique de réécriture d’url permet de rendre une référence à un produit par une phrase en claire pour l’homme. Les mots clés dans l’url ont un très faible poids sur le référencement. Mais vous serez content quand vous vous plongez dans les logs de Google Analytics.

A/Rediriger http://boutique.com vers http://www.boutique.com

#force www
RewriteCond %{HTTP_HOST} ^boutique.com$
RewriteRule ^(.*)$ http://www.boutique.com/$1 [R=301,L]

B/Rediriger http://www.boutique.com/index.php vers http://www.boutique.com

#force index.php to /
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9} /index.php HTTP/
RewriteRule ^index.php$ http://www.boutique.com/ [R=301,L]

C/Rediriger http://www.boutique.com/lang-fr/produits vers http://www.boutique.com/produits (ne marche pas pour les catégories, seulement les produits hélas)

#redirection lang-fr vers /
RewriteRule ^lang-fr/(.*)$  /$1

N’oubliez pas de remplir les champs seo de votre fiche produit et catégorie.

Prestashop par défaut convertit votre nom de produit ou de catégorie dans l’url. Mais le titre de la page n’est pas rempli par défaut, et reprend le nom du produit. Si vous voulez un titre personnalisé, il vous faudra remplir les champs (pas vraiment visibles) de la fiche produit. Donc remplissez le titre, la meta description et accessoirement la meta keyword.

Optimisation éditoriale

Optimisez quand même votre meta description

Bien que la description ne soit pas prise en compte pour le positionnement de votre page web, elle est quasiment toujours reprise dans les résultats de recherche des moteurs de recherche, et souvent on les lit ! Alors autant les optimiser en écrivant un argumentaire accrocheur.

Solution 1 : Mettre les caractéristiques principales : Iphone 4, 16 Go 499€, Coque Noire, Ecran Retina haute résolution…

Solution 2 : Rassurer le client quant aux modalité de livraison : Iphone 4 16 Go 499 €, livré en 48h recommandé…

Solution 3 : Vous vous la pétez : Le plus large choix de coque Iphone sur le web francophone,…

Les comparateurs de prix :

Vous pouvez vous référencer gratuitement dans quelques comparateurs de prix. Vous pouvez commencer par Leguide.com, ce sera ensuite repris par Twenga qui est un très bon comparateur de prix qui ramène du trafic qualifié.

Shopmania est moins intéressant que Leguide ou Twenga, je n’ai que très peu de trafic venant de Shopmania.

Pour vous référencer sur Leguide, téléchargez le plugin Leguide.com. Le plugin pour Shopmania ne me semble plus gratuit mais je donne le lien quand même, personnellement Shopmania ne ma quasiment jamais rien rapporté au contraire de Leguide.com en référents.

Google Shopping :

Comment peut on s’en passer vous me direz, mais il n’est pas si facile de référencer ses produits, activez le module inclus de base dans Prestashop,

Optimisation de la vitesse de chargement

Il y a 4 choses à faire en théorie pour accélérer le site :

1/Aller dans configs/smarty.config.inc.php, vers la ligne 10 mettre $smarty->force_compile à false, cette valeur sert en développement mais pas en production, où l’on n’a pas besoin de recompiler les templates à chque chargement de la page,
gain de temps sur mon kimsufi : 1.4 secondes

2/Augmenter la taille du cache mysql à 256 MB, en pratique on gagne que dalle (40 ms)

3/Utiliser des sous-domaines pour les éléments statiques pour paralléliser les téléchargement, personnellement, c’est une manoeuvre assez délicate à faire marcher, mais la version 1.4 de Prestashop intègre dans son back office les potards pour le faire.

4/Utiliser un cache d’opcode pour cacher les opérations php.

Je conseille de ne faire que la manip 1/ qui est largement suffisante. Optimisez vos images produit lorsque vous les uploadez. pas plus de 50Ko.

Je rajouterai que pour aller encore mieux, il faut utiliser un serveur dédié (perso j’utilise un Kimsufi de base, vous verrez rien à voir avec un mutualisé). Ainsi vous pourrez obtenir un temps de chargement de 3 secondes pour votre boutique. Ceci est important quand on sait que le temps de chargement a une incidence sur le taux de conversion.

Autres optimisations :

Désactivez le module Tags, outre le fait que cela puisse générer du duplicate content, il constitue autant de trous de fuite de pagerank.

Pour les boutiques multilingues, la version 1.4 gère bien les langues (sans doute depuis la 1.2.5 également), seulement pour la langue principale du site

(par exemple le français), il existe deux chemins qui permettent d’accéder à un produit. http://www.boutique.com/produit ou http://www.boutique.com/lang-fr/produit, voir le hack ci-dessus pour rediriger les fiche produits mais pas le reste (si quelqu’un y arrive je prends !)

Que faire avec les thèmes custom dans le cas où ils sont perfectible?

Il faut retrouver les mêmes lignes et procéder aux modifications. Ou contactez le vendeur.

Bon à savoir :

le système de template Smarty cache le rendu des pages dans le répertoire /tools/smarty/compile, si vous faites une modification et que vous ne voyez pas le résultat immédiatement c’est que vous voyez le cache, une solution (assez radicale) est d’effacer les fichiers compilés (attention à ne pas effacer le fichier index.php avec !), et normalement vos modifications sont visibles. Sinon allez dans le répertoire config, ouvrez le fichier smarty.config.inc.php et à la ligne10 mettez à true le force_compile n’oubliez pas de remettre à false quand vous aurez fini les modifs :

$smarty->force_compile	= true;

Update : téléchargez les fichiers suivant pour vous aider à configurer votre htaccess, le 1.3.5 est exploitable, le 1.4 n’est pas optimisé (je verrai si j’ai le temps…) . Cliquer sur les liens pour télécharger.

Le secret derrière Google et la vitesse de vos sites web

Google récemment pousse beaucoup les webmasters à améliorer la vitesse de chargement des sites web, à juste titre. Voici quelques événements qui vont dans ce sens:

Google souligne les bénéfices d’un Internet plus rapide pour l’expérience utilisateur, et entend bien récompenser les bons élèves. Mais il y a une autre raison de penser que Google récompense les bons élèves, un web plus rapide va diminuer les coûts de fonctionnement de Google.

Cet aspect est rendu plus critique depuis que Google a mis en place l’infrastructure Cafféine, qui accélère le crawling et indexing des pages. En bref, si Google met deux fois moins de temps à télécharger une page, il peut faire deux fois plus de travail sans augmenter sa bande passante. Ainsi il est son intérêt de d’avoir des pages rapide à charger.

Bien sûr les gains réels ne se chiffrent pas en 50%, mais si on gagne 10 millisecondes, sur des millions de pages la différence se voit sans problème.

Il faut reconnaitre que cela va profiter aux autres moteurs de recherche mais pas autant qu’à lui-même.

Donc il n’y a pas que de la philantropie dans tout ça, c’est surtout pour des raisons très terre à terre que l’on nous demande d’accélérer nos sites web.

Il y aura de la philantropie le jour où Google nous proposera gratuitement des CDNs.

Interview de l’auteur de Crawltrack : Jean Denis Brun

Q1:Salut Jean Denis, j’ai connu Crawltrack en 2007, à l’époque je n’avais que des connaissances vagues sur les bots (j’étais plutôt Google analytics). Or ce dernier ne détecte que les visites d’humains. Très concerné par le Seo technique, j’ai très vite vu l’intérêt d’un outil comme Crawltrack qui à la différence de Google Analytic à l’époque, détectait les visites des bots. Mais parlons d’abord de toi, comment es tu venu à Crawltrack? Quelles connaissances techniques avais tu à l’époque où tu as commencé à coder Crawltrack?

Pour revenir à l’origine de CrawlTrack il faut remonter à fin 2004. Je fait partie d’une famille nombreuse dont les membres sont éparpillés un peu partout en France, et j’ai eu l’idée de créer un site  pour  s’échanger des infos.  J’ai commencé par un site fait en Frontpage sur un hébergement gratuit, mais assez vite j’ai eu envie d’apprendre et de maitriser le code et j’ai laissé tomber Frontpage pour un simple notepad++.

J’ai installé un phpMyVisites (aujourd’hui Piwik)pour suivre les statistiques de visites et la j’ai eu envie de comprendre comment ça marchait. Je n’avais jamais fait de php, je ne suis pas informaticien mais ingénieur en mécanique. J’ai acheté plusieurs livres (du style php5 pour les nuls) et j’ai appris. Assez vite j’ai fait des modifs dans phpMyVisites pour mon usage personnel et j’ai fini par mettre en ligne des plugins pour phpMyVisites.

Au mois de juin 2005, l’idée de permettre la détection des robots par phpMyVisites est lancé et je me charge de cette partie. A l’époque RobotStats est la référence dans la détection de robots mais déjà son développeur (Olivier Duffez du site Webrankinfo) a visiblement d’autres priorités et le script n’est plus mis à jour. Après plusieurs semaines de travail, il apparaît clairement qu’il y a  une incompatibilité technique entre phpMyVisites qui utilise le Javascript (tout comme Google Analytics) et la détection des robots qui nécessite d’utiliser le php.  L’idée de l’intégration dans phpMyVisites est abandonnée et j’ai pris la décision de sortir CrawlTrack comme script autonome. La première version a été proposée en téléchargement le 5 novembre 2005.

Q2:Peux tu nous expliquer comment marche crawltrack techniquement?
Voilà une vaste question, je vais essayer de faire simple. A chaque requête,  le tag de CrawlTrack qui est positionné sur la page lance l’exécution d’un script php.  Ce script va utiliser les informations disponibles dans la requête http reçue par le serveur (url demandée, user-agent, IP et referer) pour  classifier la visite (attaque ou pas, robot ou humain, etc…). La visite une fois  identifiée comme venant d’un robot connu par CrawlTrack, venant d’un humain ou étant une attaque fera l’objet d’un enregistrement dans la base de donnée. Les autres visites « non identifiées » seront juste comptées mais pas enregistrées. L’ensemble du traitement est fait coté serveur, c’est la différence fondamentale avec des scripts qui utilisent le Javascript (Google Analytics, Piwic) dont une part du traitement est fait coté client. CrawlTrack ne pourra jamais donner la résolution de l’écran d’un visiteur mais en contrepartie il ne dépend pas de l’activation de Javascript pour détecter une visite ce qui lui permet de détecter les robots.

Q2bis:Comment fonctionne en principe la détection d’attaque?

La détection des attaques est faite par l’analyse de l’url demandée en y regardant chacun des paramètres passé dans l’url. Classiquement, une tentative d’injection de code fait appel à un lien vers le script malicieux, c’est ce lien qui est détecté. De même pour les tentatives d’injection sql, c’est la présence de morceaux de requêtes SQL qui est détectée. La liste d’attaques qui est disponible dans la base de CrawlTrack n’est pas utilisée dans le processus de détection, elle ne sert qu’à donner les infos sur la page de statistiques de CrawlTrack (les scripts visés par les attaques reçues).

Q3:Crawltrack est en php et non en javascript pour pouvoir détecter des robots (qui ne lisent pas le javascript en général). Aujourd’hui il détecte aussi les humains, quels challenges dois tu affronter pour restituer au mieux la réalité. Sachant qu’il n’y a pas de solution parfaite, pourquoi as tu décidé d’enrichir Crawltrack dans cette direction?

C’est vrai qu’au départ je n’avais pas prévu d’intégrer la détection des humains. Ce qui m’a fais évoluer dans ce sens c’est d’une part les utilisateurs de CrawlTrack qui ont été de plus en plus nombreux à le demander et d’autre part, mon expérience en tant que webmaster qui trouvait lourd de devoir utiliser plusieurs outils différents pour avoir l’ensemble des informations qui m’intéressaient. L’avantage du tag php c’est qu’il voit toute les requêtes reçues par le serveur, mais quand il s’agit de détecter les humains ça devient un inconvénient. C’est fou le nombre requêtes que reçoit un serveur web. Pour faire le tri entre les humains et les autres il a fallu développer des  filtres pour séparer le bon grain de l’ivraie. Ce traitement est lancé lors de la préparation de l’affichage des pages de résultat. Il a fallu presque un an de tests en parallèle avec Google Analytic pour mettre au point ces filtres.

Q4:Comment un webmaster peut-il tirer au maximum de l’environnement Crawltrack? Par exemple il m’est venu à l’idée de croiser les données de crawl de Google avec le temps d’indexation de Google, et j’entrevois d’intéressante possibilités pour de l’analyse fine et statistique, surtout pour des sites de taille moyenne. Que vois tu d’autres comme applications possibles?

C’est chaque utilisateur qui peut inventer son mode de fonctionnement et d’utilisation des données. C’est clair par exemple que de voir ce que font les robots permet de mieux comprendre le processus d’indexation pour éventuellement  apporter les corrections nécessaires pour favoriser un crawlage en profondeur. L’analyse des mots clef utilisés par les visiteurs et des pages d’entrée sur le site permet dans un deuxième temps de vérifier l’impact du référencement. On découvre parfois que des mots clefs utilisé par les visiteurs pour arriver sur le site ne sont pas ceux auxquel on avait pensé, ce qui peut ouvrir de nouvelles pistes pour le référencement. Il y a certainement encore beaucoup d’autres façons d’utiliser la masse importante d’informations donnée par CrawlTrack. Et c’est les suggestions des utilisateurs qui permettront de donner de nouvelles pistes pour les évolutions futures.

Q5:On voit une profusion de solutions analytiques pour les humains, mais très peu pour les bots. Confirmes-tu mon analyse?Pourquoi à ton avis?

Je pense qu’il y a une première raison, c’est que les webmasters sont d’abord intéressés par le nombre de visiteurs sur leur site. La prise de conscience de l’importance des robots ne vient qu’en deuxième temps si le webmaster commence à s’intéresser au référencement.
La deuxième raison c’est qu’il est plus simple pour le webmaster d’intégrer un tag Javascript qui ne demande rien de particulier au niveau du codage du site, alors que le tag php demande soit des pages en .php, soit un paramétrage du serveur pour traiter les pages html comme du php. Pour un produit « grand public », le choix du Javascript parait au première abord plus évident mais du coup cela ferme la porte à la détection des robots.

Q6:Pourquoi des bots sont plus gourmands que d’autres?

C’est un bonne question, sur mon site le numéro un et de loin s’appelle Googlebot avec une  visite toute les 2 à 4 secondes; ensuite arrive dans l’ordre Slurp Inktomi (Yahoo) et MSN Bot. Je trouve ça plutôt bon signe, mais si je fais un calcul de ratio (visiteurs envoyés)/ (visites du robot) je trouve que Yahoo et Bing utilisent beaucoup de bande passante pour un résultat très médiocre. Alors en fait je n’ai pas la réponse à ta question, il faudrait la poser à Google, Yahoo et Microsoft…

Q7:As tu des conseils à donner à ceux qui font du référencement de par ta connaissance des crawlers? Penses-tu que l’on ne met pas assez l’accent sur cette partie invisible qu’est le crawling?

Le référencement a pour objectif essentiel d’amener des visiteurs sur un site; tout le travail du référenceur consiste à faire connaître le site sur la toile. La part de visiteurs venant de moteurs de recherche (principalement Google) est souvent très importante, voir la plus importante. Ces moteurs ne « conseilleront » un site à un visiteur que si ils  le connaissent, et la seule façon pour eux de connaitre un site est de le crawler. Clairement, une page jamais crawlée, ne sera jamais proposée par le moteur puisqu’il ne la connait pas. C’est donc fondamental de savoir ce qui se passe au niveau du crawling pour d’une part vérifier que tout se passe bien (ça serait ballot de bloquer l’IP de Googlebot dans son .htaccess par exemple), mais aussi détecter les pages qui sont oubliées par le robot (page orpheline?). Un autre paramètre important est la fréquence de crawling, Googlebot viendra de plus en plus souvent si il découvre de nouvelles informations (ou pages) et si il n’est pas freiné dans son exploration. J’ai souvent observé qu’une augmentation de la fréquence  de crawling précédait une augmentation du nombre de visiteurs. Attention aux capacités du serveur, les robots peuvent être très gourmands, souvent nettement plus que les visiteurs humains.

Q8:ta base de bots a l’air sympa puisque très complète. Cela me rappelle que Fantomaster lui aussi a une base d’addresse ip de bot très mise à jour. Des possibilités que certains utilisent ta base à des fins de cloaking (surtout pour les ip de Google) ou alors c’est un peu risqué ?

Les utilisateurs sont libres de faire ce qu’ils veulent avec cette base, à eux d’assumer les risques qu’ils prennent au niveau de leur référencement. Personnellement je ne tente pas le diable, Google est beaucoup trop important en terme de source de visiteurs pour prendre le risque d’un blacklistage. Les ingénieurs de Google ne sont pas nés de la dernière pluie, ils savent que le cloaking existe et ils peuvent le détecter. Je ne serai pas étonné que de temps en temps Googlebot se déguise en visiteur lambda…[Ne tentez pas le black hat sur vos sites importants NDB]

Q9:le travail que tu as fait est considérable, Crawltrack est toujours gratuit, penses-tu le rendre payant un jour, en faire un service professionnel et freemium?

CrawlTrack est et restera open-source et gratuit. Les ressources publicitaires me permettent maintenant d’amortir l’ensemble des coûts d’hébergement. CrawlTrack reste pour moi un loisir, j’ai une activité professionnelle qui n’a rien à voir avec le web qui me permet de faire bouillir la marmite.

Q10:Quelle direction va prendre Crawltrack dans les mois et années à venir?

Voilà une bonne question, je ne fait pas de plan à long terme, les évolutions sont la plupart du temps venues suite à des demandes d’utilisateurs.
Dans un premier temps, c’est certainement la partie anti-hacking qui va évoluer le plus, ensuite on verra, j’attends les suggestions.

Q11:Parles nous de Crawlprotect, ta solution de protection des sites web, en quoi une protection au niveau du serveur peut être efficace?

CrawlProtect est né d’une demande de certains utilisateurs de CrawlTrack qui n’étaient intéressés que par la protection anti-hacking. L’objectif était donc de proposer un script léger uniquement dédié à la protection. CrawlProtect utilise un fichier .htaccess, et c’est donc au niveau du serveur Apache que le traitement est fait, avant tout traitement php (et donc avant les éventuels failles présentes dans les scripts utilisés).
Ca permet un plus grande réactivité tout en utilisant moins de ressources. Cela  fonctionne quelque soit le type de page (hml, php, …) sans avoir a intégrer un tag sur le site.
Mais attention, aucune protection n’est efficace à 100%, de nombreux cas de hacking se font simplement par ftp avec le login et le mot de passe qui ont été récupéré directement sur le PC du webmaster par un Trojan. Et là ni CrawlTrack, ni CrawlProtect ne peuvent rien y faire, alors si je peux donner un dernier conseil, en tant que webmaster, mettez vous à Linux, surtout que si vos affaires marchent bien il faudra passer au serveur dédié un jour et là vous serez en terrain connu ;) .

Merci JDB. pour cette interview.

Si vous avez marre de Google Analytics il est temps d’essayer des alternatives certes moins puissantes (mais combien de gens utilisent les fonctions avancées de GA?) légère et au moins vous gardez tout pour vous.

Etre Freelance SEO est-ce une aberration économique?

Je vais parler d’un sujet qu’on traite peu dans le domaine du seo, en France en tout cas, parlons salaire.

Voilà maintenant plus d’un an que je suis en free lance (pour être précis je suis auto entrepreneur, mais ça fait plus in), j’ai plusieurs activités sur le web, e-commerce, référencement, webmarketing, et bien sûr le site de formation au référencement avec son forum (privé).

J’ai plusieurs contrats en cours, et je m’aperçois qu’être un homme orchestre c’est assez fastidieux.

C’est quoi être homme orchestre en seo?

Dans le domaine du webmarketing c’est :

  1. référenceur
  2. rédacteur web
  3. mendiant (linkbuilder)
  4. web analyste
  5. Liens sponsorisés
  6. Conversion
  7. webdesigner (!)
  8. commercial
  9. e-commerçant
  10. formateur
  11. veille
  12. pompier (quand le serveur flanche)
  13. (mettez ici ce que j’ai oublié de citer)

Voilà pour une liste non exhaustive de ce que fait l’homme orchestre en seo. (au passage c’est ce que demandent certaines boîte pour le smic)

C’est quoi le problème avec le freelancing?

Surtout quand vous êtes au commencement de votre aventure, le volume d’affaire ne suffit pas à vous redonner votre niveau de vie d’antan. Les gros clients sont hors de portée et c’est le domaine réservé aux agences (grosses), ici les contrats se jouent gros, il faut une équipe dédiée pour référencer un site. Un tel fait du lien sponso, un autre de la soumission dans les annuaires, bref un mode de fonctionnement à efficacité maxi car chacun fait à fond dans son secteur.

Si on fait tout tout seul, switcher mentalement entre différentes tâches demande un temps d’adaptation et la productivité s’en ressent (même si on éteint Twitter). Les contrats ne sont pas gros et la charge n’est pas forcément réduite d’autant.

C’est super de tout savoir faire mais pas forcément pour le chiffre d’affaire. Il faut penser à la rentabilité de votre affaire c’est le seul objectif.

Aussi à l’avenir je vais me concentrer sur le consulting ou sur un aspect pointu plutôt que de vouloir tout faire (liens sponsorisés seulement (ceux qui me connaissent savent à quel point j’adore Adwords), web analytique seulement, conversion seulement).

Et j’ai aussi mes sites sur lesquels je pourrais plus travailler en suivant ce mode de fonctionnement.

Alors que dire pour les nouveaux venus dans le monde du référencement? Je leur souhaite bonne courage et de la persévérance.

Souhaitons bonne chance à ce consultant Seo rencontré sur Twitter pour qu’il puisse s’épanouir dans son travail. Sinon pour les client potentiel d’agence seo, pourquoi ne pas sous traiter offshore avec une agence de referencement à Madagascar ?

Le Deal Bing-Yahoo peut faire trembler Google

Il est peut-être encore un peu tôt pour l’affirmer, mais étant donné les bonnes performances de Bing aux USA, une association avec Yahoo pourrait faire des étincelles. En France Bing n’a pas encore fait ses preuves, mais comme on a toujours un wagon de retard par rapport aux US, il risque de se passer la même chose en France.

Lire la suite

Y-a-t-il un impact du temps d’affichage de la page sur le positionnement?

Quel temps met en moyenne une page de votre site web à être entièrement téléchargée? Et ce temps a-t-il un impact sur le positionnement de la page en question? La réponse peut être futile mais selon cette vidéo de Matt Cutts, pour l’instant le temps de téléchargement n’a pas d’influence. Mais comme toujours avec Google il faut savoir lire entre les lignes. Il dit que c’est une bonne idée. Et je ne serais pas surpris qu’un jour ce sera un facteur, surtout pour les sites mobiles.

Lire la suite

Ne pas confondre âge du domaine et âge du site

Vous pouvez lire beaucoup de choses sur l’influence de l’âge du domaine sur le positionnement dans les SERP de Google. Je ne doute pas qu’il soit vraiment très facile de tester cette théorie. Cependant grâce à la chaîne de Google Webmaster Help sur Youtube, Matt Cutts vous sert sur un plateau la réponse.

Lire la suite