Robots.txt: un fichier important

C'est quoi un fichier robots.txt?
En un mot:
  Les propriétaires de sites Web utilisent le fichier / robots.txt pour donner des instructions sur leur site web aux robots, c'est ce qu'on appelle le protocole d'exclusion des robots. 
Il fonctionne comme ceci: un robot veut vister les URLs d'un site Web, par exemple http://www.example.com/index.html. Avant de le faire, il cherche en premier le fichier: http://www.example.com/robots.txt, et trouve:
User-agent: *
Disallow: /

Le "User-agent: *" signifie que les restrictions s'appliquent à tous les robots.
Le "Disallow: /" indique au robot qu'il ne faut pas visiter pour indexer les pages du site.
Il y a deux considérations importantes lors de l'utilisation du  robots.txt:  robots peuvent ignorer votre / robots.txt:
1- Certains robots surtout les robots malveillants qui scannent le web pour les failles de sécurité, et les pêcheurs d'adresses électroniques utilisés par les spammeurs ne font pas attention au robots.txt
2- Le fichier / robots.txt est un fichier accessible au public. N'importe qui peut voir ce que contiennent les sections de votre serveur que vous ne voulez pas montrer au robos.  Donc, ne pas essayer d'utiliser / robots.txt pour masquer des informations au public. C'est inutile.

Web Max Up

Ton guide complet pour maîtriser le web et ses outils. Des tutoriels simples aux dernières tendances, découvre tout ce que tu veux savoir sur le numérique.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال