360搜索对Robots协议的支持 – 龙剑博客

360搜索对Robots协议的支持

搜索引擎 龙剑博客 87浏览

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

360搜索对Robots协议的支持

360搜索支持Robots协议的主要命令,以下为具体说明:

1. user-agent360搜索支持user-agent命令,包括使用通配符的user-agent命令。360搜索各产品的爬虫user-agent为:

– 网页搜索 360Spider

– 网页搜索 HaoSouSpider

360搜索将优先使用HaoSouSpider来访问站点,如果遇到UA识别无法下载页面,会再用 360spider抓取,蜘蛛IP不更改。

– 图片搜索 360Spider-Image

– 视频搜索 360Spider-Video

2. Allow站长可通过Allow命令指定建议收录的文件、目录 。

3. Disallow站长可通过Disallow命令指定不建议收录的文件、目录。

360搜索对Robots协议的扩展

360搜索根据站长们的反馈,会陆续推出扩展的Robots协议命令。这些命令将能帮助站长们提高和360搜索爬虫沟通的效率,减少站长们维护Robots协议文件的技术成本。

360搜索首个扩展命令是:indexpage,站长们可以使用此命令告知360搜索哪些网页经常更新。360搜索会根据站长的指示以及自己的算法,智能调整爬虫抓取频率,实现对您网站新内容的更高频率抓取。

在命令中可以使用*、$等通配符。

示例:

使用通配符的

Indexpage: http://bbs.360safe.com/forum-*-1.html$

Indexpage: http://ent.sina.com.cn/*/roll.html

不用通配符的:

Indexpage: http://roll.tech.sina.com.cn/internet_all/index.shtml

Indexpage: http://roll.tech.sina.com.cn/it/index.shtml

Indexpage: http://roll.tech.sina.com.cn/tele/index.shtml

Indexpage: http://roll.tech.sina.com.cn/discovery/index.shtml

Indexpage: http://roll.tech.sina.com.cn/elec/index.shtml

声明:除非标注“龙剑博客”,文章来源于网络,转载仅用于分享,版权归原作者所有。若涉及侵权,请联系QQ:616338334 。提供贵方版权证明后即刻删除。转载请注明:龙剑博客 » 360搜索对Robots协议的支持