13925013474
移动推广,广告投放蓝海渠道,抢占移动互联网无限商机

禁止百度爬虫的方法/教程

2015-08-09 来源:   阅读:908次

使用robots协议可以禁止百度爬虫的抓取,下面讲一下robots的用法:

1、新建一个txt记事本,命名为robots.txt

2、文件中写入一下代码 User-agent: baiduspider
Disallow: /

3、上传到网站空间的根目录就完成了。


演示教程:

代码含义

User-agent: *       这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/  这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/    这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?*             禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$          禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。