使用robots协议可以禁止百度爬虫的抓取,下面讲一下robots的用法:
1、新建一个txt记事本,命名为robots.txt
2、文件中写入一下代码
User-agent: baiduspider
Disallow: /
3、上传到网站空间的根目录就完成了。
演示教程:
代码含义
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符、
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。