référencer les fichiers txt possible ou pas ?

Question en passant, les fichiers *.txt présents sur un site sont-il pris par les robots ?

Une recherche sur le net pour trouver des fichiers *.txt est quasi nulle, ils ne sont donc pas indexés par les moteurs de recherche ... Mais, car il y a un "mais" cetains sont avantagés ! Un exemple bien précis, plusieurs recherches dans google ne donnent pas de résultats et, à la limite heureusement direz-vous, car sinon quel en serait le nombre et surtout l'utilité ?

Cependant faîtes un petit essai sur Google et cherchez robots.txt : il y a des millions, voire peut-être des milliards de fichiers de ce genre sur le Net ce qui saturerait certainement et rendrait quasi illisibles tous les résultats des recherches. On ne les trouvent pas, sauf : " http://www.google.com/robots.txt " qui apparaît en première page des résultats indexés, comme toute autre page normale d'un site, et affiche bien sur tout son contenu. Une petite recherche dedans et pas de "Disallow: robots.txt" .... Ce qui veux bien dire que c'est dans l'algorythme du moteur d'indexation lui même que se trouve cette exclusion, sauf pour google.com ...

Avantage volontaire ou bug dans la programmation ?

La même recherche chez Yahoo ne donne rien, chez Bing l'on trouve "http://samantdi.net/robots.txt" qui fait référence à un "Site non actif sur cette adresse." !!!

Encore un mystère supplémentaire .... Preuve par l'image:

fichier robots.txt

Tous les articles de blog, ainsi que leur contenu, comme indiqué en page index du site principal, sont mis à disposition sous les termes de la licence Creative Commons. Vous pouvez le copier, distribuer et modifier tant que cette note apparaît clairement. " source: longuetraine.fr - Paternité - Pas d'Utilisation Commerciale - Partage des Conditions Initiales à l'Identique 3.0 France ", ainsi qu'un lien vers la source .

7 commentaires

#1 lundi 05 octobre 2009 - 09:54 - unesourisetmoi a dit :

Heureusement que ces fichiers et surtout les "robots.txt" ne sont pas pris en compte par les moteurs, il faudrait alors mettre des filtres d'exclusion dans nos recherches !
Mais quand même, pourquoi justement google.com/robots.txt est-il indexé chez google ????

Répondre

#2 lundi 05 octobre 2009 - 09:55 - unesourisetmoi a dit :

Pour simple information, le contenu du fichier concerné:
User-agent: *
Allow: /searchhistory/
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news
Disallow: /nwshp
Allow: /news?btcid=
Disallow: /news?btcid=*&
Allow: /news?btaid=
Disallow: /news?btaid=*&
Disallow: /setnewsprefs?
Disallow: /index.html?
Disallow: /?
Disallow: /addurl/image?
Disallow: /pagead/
Disallow: /relpage/
Disallow: /relcontent
Disallow: /imgres
Disallow: /imglanding
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /default
Disallow: /m?
Disallow: /m/?
Disallow: /m/ig
Disallow: /m/images?
Disallow: /m/lcb
Disallow: /m/news?
Disallow: /m/news/i?
Disallow: /m/setnewsprefs?
Disallow: /m/search?
Disallow: /m/swmloptin?
Disallow: /m/trends
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local?
Disallow: /local_url
Disallow: /froogle?
Disallow: /products?
Disallow: /froogle_
Disallow: /product_
Disallow: /products_
Disallow: /print
Disallow: /books
Disallow: /bkshp?q=
Allow: /booksrightsholders
Disallow: /patents?
Disallow: /patents/
Allow: /patents/about
Disallow: /scholar?
Disallow: /complete
Disallow: /sponsoredlinks
Disallow: /videosearch?
Disallow: /videopreview?
Disallow: /videoprograminfo?
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /maphp?
Disallow: /places/
Disallow: /maps/place
Disallow: /help/maps/streetview/partners/welcome/
Disallow: /lochp?
Disallow: /center
Disallow: /ie?
Disallow: /sms/demo?
Disallow: /katrina?
Disallow: /blogsearch?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /reader/
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Disallow: /mbd?
Disallow: /extern_js/
Disallow: /calendar/feeds/
Disallow: /calendar/ical/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /notebook/search?
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /browsersync
Disallow: /call
Disallow: /archivesearch?
Disallow: /archivesearch/url
Disallow: /archivesearch/advanced_search
Disallow: /base/search?
Disallow: /base/reportbadoffer
Disallow: /base/s2
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /codesearch?
Disallow: /codesearch/feeds/search?
Disallow: /wapsearch?
Disallow: /safebrowsing
Allow: /safebrowsing/diagnostic
Disallow: /reviews/search?
Disallow: /orkut/albums
Disallow: /jsapi
Disallow: /views?
Disallow: /c/
Disallow: /cbk
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /translate_a/
Disallow: /translate_c
Disallow: /translate_f
Disallow: /translate_static/
Disallow: /translate_suggestion
Disallow: /profiles/me
Allow: /profiles
Disallow: /s2/profiles/me
Allow: /s2/profiles
Disallow: /s2
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /cse/panel
Disallow: /cse/manage
Disallow: /tbproxy/
Disallow: /MerchantSearchBeta/
Disallow: /imesync/
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /hosted/life/
Disallow: /ppob/?
Disallow: /ppob?
Disallow: /ig/add?
Disallow: /adwordsresellers
Disallow: /accounts/o8
Allow: /accounts/o8/id
Disallow: /topicsearch?q=
Disallow: /xfx7/
Disallow: /squared/api
Disallow: /squared/search
Disallow: /squared/table
Disallow: /toolkit/
Allow: /toolkit/*.html
Disallow: /qnasearch?
Disallow: /errors/
Disallow: /voice/fm/
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml
Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml
Sitemap: http://www.google.com/sitemaps_webmasters.xml
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml

Répondre

#3 lundi 05 octobre 2009 - 15:09 - Jeff a dit :

A mon avis, tu vas vite à la conclusion :
Tous les fichiers txt sont bien indexés, contrairement à ce que tu as l'air de penser. Il suffit de faire la requête filetype:txt pour s'en convaincre !
Voire même :
inurl:robots.txt filetype:txt
Evidemment les premiers résultats sont les fichiers robots.txt des sites les plus populaires, dont Google.com !

Même ton propre robots.txt est indexé chez Google :
site:unesourisetmoi.info filetype:txt

Répondre

#4 lundi 05 octobre 2009 - 15:10 - unesourisetmoi a dit :

Je suis tout à fait d'accord avec toi Jeff, tout au moins pour la recherche avec ce commutateur,mais pourquoi alors ne trouve-ton pas d'autres fichiers par exemple 'robots.txt' avec la simple recherche de l'internaute lambda ?
http://www.google.fr/...
5 090 000 réponses ... mais ... quasiment rien d'autre alors qu'il devrait y en avoir des millions qui pointent vers tous les fichiers robots.txt présents sur les sites du monde entier .....
même des liens qui semblent être les même VVVVVVVVVVVVVVVVVVVV.robots.txt dans les résultats ne sont que des 'transformations' de pages web normales
exemple :
http://www.google.fr/#hl=fr&q=robots.txt&start=720&sa=N&fp=2da48a14dbd324b8
on trouve :
http://ca.wikipedia.org/wiki/Robots.txt
qui n'est pas un fichier robots.txt !!!
c'est cela qui m'a interpeler ! Il y a quelque chose à sortir de là c'est pas possible autrement , ou alors c'est la commande "filetype:txt" elle même qui est filtrée 'sauf pour google.com' dans les résultats ?
finalement pour moi je dirai qu'ils sont accessibles (c'est encore heureux !) mais pas indexés de manière à figurer dans les résultats de la recherche dans google
deplus, si l'on fait la recherche :
http://www.google.fr/#q=inurl%3Arobots.txt+filetype%3Atxt&hl=fr&sa=2&fp=1&cad=b
cela ne donne que 217 000 réponses ... pas possible, il y a quand même plus de sites que cela dans le monde qui se servent de ce fameux fichier ....
qu'en penses-tu ?

Répondre

#5 lundi 05 octobre 2009 - 16:20 - Jeff a dit :

Forcément, car d'une manière générale il n'y a aucun lien vers le fichier robots.txt d'un site. Or le lien est la base même de l'algo de Google.

Donc si tu cherches robots.txt il y a infiniment plus de probabilités que ça envoie vers des articles qui en parlent, que vers des fichiers robots.txt, à part pour Google, Amazon et les quelques gros qui sont généralement donnés en exemple par les WM.

Répondre

#6 lundi 05 octobre 2009 - 16:21 - unesourisetmoi a dit :

Encore d'accord !
mais il ne me semble pas avoir de lien vers le mien de robots.txt ...
bon et puis là n'est pas la question, moi ce qui m'a interpelé c'est le résultat que j'ai vu à l'écran, sans chercher à l'aide d'un commutateur ... (voir la capture d'écran ...)
Il se passe quand même qq chose de ce côté là, non ?

Répondre

#7 lundi 05 octobre 2009 - 16:23 - Jeff a dit :

A mon sens non.

C'est tout simplement parce que beaucoup de gens pointent vers cette adresse lorsqu'ils parlent de robots.txt.

Il suffit de voir les résultats d'une recherche pour "www.google.com/robots.txt", cela donne plus de 100 000 résultats :
http://www.google.fr/#hl=fr&q=%22www.google.com%2Frobots.txt%22&meta=&fp=1&cad=b

A côté, même Amazon fait pâle figure avec seulement un millier de résultats :
http://www.google.fr/#hl=fr&source=hp&q=%22www.amazon.com%2Frobots.txt%22&btnG=Recherche+Google&meta=&aq=f&oq=%22www.amazon.com%2Frobots.txt%22&fp=1&cad=b

D'ailleurs, si on venait à te parler de fichier robots.txt et que tu n'en avais jamais entendu parler, lequel irais-tu voir en premier ?

Répondre

Fil RSS des commentaires de cet article

Les commentaires sont fermés.