Estándar de exclusión de robots

Estándar de exclusión de robots

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

 

El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

 

Lo que de sedebe de hacer es  un nuevo fichero /robots.txt en lel razia de la web y poner el contenido que se desee

en est ejemplo vamos a denegar tan solo al robot Linguee 

User-agent: Linguee Bot
Disallow: /

 

pero si fuese otro el roboe deberíamos de eliminar o nombrar al otro

se pueden nombrar a varios robot dentro dle mismo fichero, permitiendo o denegando acceso a distintas carpetas de nuestra web 

más información en: 

http://www.robotstxt.org/

http://www.robotstxt.org/robotstxt.html

https://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots

¿Te ha parecido útil este artículo? Haz click aquí para saber más sobre los expertos de ProfesionalHosting en alojamiento web y ¡todo lo que podemos hacer por ti!

Etiquetas: , robots, denegar, estandar