Accueil - Référencement efficace - Les robots d'indexation, User-Agent, bot ou encore boots sur le Net

Vous avez aimé cet article ? Alors partagez-le avec vos amis en cliquant sur les boutons ci-dessous :

Les robots d'indexation, User-Agent, bot ou encore boots sur le Net

Qui sont donc ces robots qui scannent le net tous azimuts et pourquoi , pourqui ? Les robots d'indexation procèdent de manière simple et répétitive pour indexer les différents fichiers trouvés sur le NET.

On en trouve plusieurs définitons, comme toujours; robots, user-agent, bot ou autres abréviation de 'robot' ...

Quelques extraits assez fiables:

Un bot informatique, ou robogiciel, est un agent logiciel automatique ou semi-automatique qui interagit avec des serveurs informatiques. Un bot se connecte et interagit avec le serveur comme un programme client utilisé par un humain, d'où le terme « bot », qui est la contraction (par aphérèse) de « robot ».
On les utilise principalement pour effectuer des tâches répétitives que l'automatisation permet d'effectuer rapidement. Ils sont également utiles lorsque la rapidité d'action est un critère important, avec par exemple les robots de jeu ou les robots d'enchères, mais aussi pour simuler des réactions humaines, comme avec les bots de messagerie instantanée.

Les robots d'indexation, tels que le Googlebot, sont la principale utilisation des robots informatiques. Ils parcourent le web en indexant les pages pour le compte de moteurs de recherche.

Un user agent est une application cliente utilisée avec un protocole réseau particulier ; l'expression est plus généralement employée comme référence pour celles qui accèdent au World Wide Web. Les User Agents du Web vont de la gamme des navigateurs jusqu'aux robots d'indexation, en passant par les lecteurs d'écran ou les navigateurs braille pour les personnes possédant un handicap.
Quand un internaute visite une page web, une chaîne de type texte est généralement envoyée au serveur pour identifier l'agent de l'utilisateur. Elle est incluse dans la requête HTTP via l'entête « User-Agent » et elle donne des informations comme par exemple : le nom de l'application, la version, le système d'exploitation, la langue, etc.
Les robots de recherche incluent souvent une URL et/ou une adresse électronique si le webmaster veut contacter l'opérateur du robot.
La chaîne « User-Agent » est l'un des critères utilisé pour exclure un certain nombre de pages ou une partie d'un site web en utilisant le « Robots Exclusion Standard » (robots.txt).
Ceci permet aux webmasters qui estiment que certaines parties de leur site web ne devraient pas être incluses dans les données recueillies par un robot en particulier, ou qu'un robot en particulier épuise trop la bande passante, pour l'inviter à ne pas visiter ces pages.

Les googlebots sont des robots d'indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web.

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

(wikipédia)

Un robot est un programme qui traverse demanière automatique la structure des liens hypertextes du Web en trouvant tout document et recouvrant récursivement tous les documents qui sont déjà référencés ou lui font référence.
Notez que "récursif" ne limite pas ici la définition d'un algorithme de recherche spécifique; même si un robot applique certaines critéres de recherches heuristiques pour sa sélection et son ordre de visite des espaces sur le web, à long terme, c'est toujours un robot.
Des navigateurs Internet normaux ne sont pas des robots, parce qu'ils sont exploités par un homme et ne récupèrent pas automatiquement de documents référencés d'eux même, mais par l'intermédiaire de ceux qui l'ont été par les moteurs de recherche.
Ces robots du Web sont parfois appelés "Web Wanderers, Web Crawlers, ou encore Spiders" c'est à dire comme des Vagabonds du Web, des Explorateurs du Web, ou des Araignées. Ces noms peuvent nous induire un peu en erreur puisqu'ils donnent l'impression que le logiciel lui-même se déplace entre des sites comme un virus; ce pas le cas du tout, un robot visite simplement des sites,  des pages pour en retirer tous les renseignements voulus.

Le dernier problème, pour ne pas trop s'étendre sur ce trop vaste sujet : comment savoir alors si ce 'robot' qui vient nous voir est bien celui envoyé par un moteur de recherche, et non par d'autres chose, sites ou humains pour prendre des informations telles que les adresse mails (pishing) ou autre ?

Et bien il existe un liste complète de ces robots, classés par ordre alphabétique, suivant le nom de leur "maître" sur un site bien connu, qui nous founit, à la date d'aujourd'hui une liste quasi-officielle de 303 noms. Vous pouvez facilement la consulter directement en ligne, cliquer sur un lien, pour connaître l'auteur ou le propriétaire de ce "robots".

The Web Robots data base.

Google lui-même nous indique ceci :

"Vérification de Googlebot:
Il est possible de vérifier que le robot accédant à votre serveur est bien Googlebot en effectuant tout d'abord une résolution DNS inverse, qui permet de confirmer que le nom appartient au domaine googlebot.com, puis en réalisant une résolution DNS à l'aide de ce nom googlebot. Cela est utile si vous souhaitez éviter que des spammeurs et d'autres personnes mal intentionnées accèdent à votre site en prétendant être Googlebot. "

sachant aussi que le 'mosntre' google ayant une foule de datas centers de part le monde, sont bot change parfois, même souvent, soit d'appellation, soit d'adresse IP

Support Google.

 


Tous les articles de blog, ainsi que leur contenu, comme indiqué en page index du site principal, sont mis à disposition sous les termes de la licence Creative Commons. Vous pouvez le copier, distribuer et modifier tant que cette note apparaît clairement. " source: longuetraine.fr - Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'Identique 3.0 France ", ainsi qu'un lien vers la source .
à voir également :

Écrire un commentaire

Quelle est la quatrième lettre du mot ueeib ?

Pour laisser un petit avis au passage, nul besoin d'avoir un site ou une adresse Internet, juste se donner un 'pseudo' ...
Les commentaires sont en 'dofollow', mais modérés à priori. Ils ne seront publiés qu'après vérification de votre message.
Si vous pensez ou désirez obtenir un backlink, votre commentaire doit être construit de manière cohérente, rédigé correctement ET avoir un minimum de contenu et de pertinence.