文档章节

从Robots协议看奇虎360与百度的互联网战争

江哥一直在
 江哥一直在
发布于 2013/10/29 22:53
字数 1262
阅读 103
收藏 0

导读:从今天9月份开始,奇虎360与百度公司的互联网搜索大战再掀波澜。近日,百度公司起诉奇虎360违反国际互联网公认的“Robots协议”,强行抓取、复制其网站内容构成侵权,向奇虎360索赔经济损失1亿元,而奇虎360认为,百度是滥用“Robots协议”或利用这一协议排斥竞争对手,欲垄断市场。在这场互联网战争的背后是商业的较量,更是搜索市场的蛋糕的利益驱动,也是无形营销的一种体现。在这场战争中,一直没有离开“Robots协议”这个话题,在这里,我们即将揭开“Robots协议”的神秘面纱。

1、Robots协议时什么样的协议

Robots协议,也称爬虫协议或者机器人协议,它的全称是“网络爬虫排除标准”,英文为:Robots Exclusion Protocol。互联网上的站点通过Robots协议,告诉搜索引擎哪些页面是可以抓取的,哪些页面不能抓取。

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
(1)、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
(2)、网站有义务保护其使用者的个人信息和隐私不被侵犯。

2、Robots协议的具体工作原理及介绍

Robots协议是在一个robots.txt文件中定义的。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

3、目前搜索引擎市场有哪些蜘蛛程序在运行呢

google蜘蛛:Googlebot、百度蜘蛛:Baiduspider、baiduspider、360蜘蛛:360Spider、sogou蜘蛛:Sogou Web Spider、yahoo蜘蛛:Yahoo!slurp、alexa蜘蛛:ia_archiver、bing蜘蛛:MSNbot、altavista蜘蛛:scooter、lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler、inktomi蜘蛛:slurp、Soso蜘蛛:Sosospider、Google Adsense蜘蛛:Mediapartners-Google、有道蜘蛛:YoudaoBot

4、常见网站的Robots协议是怎样的

(1)、例如taobao:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

(2)、移动互联百科博客:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.mbaike.net/sitemap.xml
Sitemap: http://www.mbaike.net/sitemap.xml.gz

(3)、禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /

(4)、允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /

5、Robots协议怎样产生的

robots.txt并不是某一个公司制定的,而是早在20世纪93、94年就早已出现,当时还没有Google。真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。即便是今天,互联网领域的相关问题也仍然是在一些专门的邮件组中讨论,并产生(主要是在美国)。

1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。在此之前,相关人员一直在起草这份文档,并在世界互联网技术邮件组发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing,以及中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。

Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

自有搜索引擎之日起,Robots协议已是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。它就像一个钟摆,让互联网上的搜索与被搜索和谐相处。
 

总结:通过上面对于“Robots协议”知识的恶补,我们现在已经知道的“Robots协议”是什么、达到什么目的、以及互联网公司的“Robots”之争的缘由了。

本文转载自:http://www.mbaike.net/techs/1840.html

江哥一直在

江哥一直在

粉丝 32
博文 24
码字总数 2316
作品 3
成都
后端工程师
私信 提问
百度、360 法庭激辩“Robots 协议”大战升级

百度与奇虎360这对“冤家”的又一场对决正式对簿公堂。昨日,北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司诉北京奇虎科技有限公司不正 当竞争一案在北京市第一中级人民法院开...

oschina
2013/10/17
6.7K
181
互联网首例反垄断案今日宣判:腾讯360再较量

昨日,广东省高级人民法院在官方微博上发布预告称,北京奇虎科技有限公司诉腾讯科技(深圳)有限公司、深圳市腾讯计算机系统有限公司滥用市场支配地 位纠纷一案将于今日上午9时30分在广东省高级...

oschina
2013/03/28
4.7K
61
百度奇虎等签搜索公约:共守 robots 协议

11月1日消息,中国互联网协会已于今日下午召集百度、奇虎360、搜狗、搜搜等12家公司签署搜索公约。该公约的第七条明确规定,遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)...

oschina
2012/11/03
4.9K
38
评论:百度 360 搜索夜战 受伤的只有用户

【搜狐IT消息】北京时间8月29日消息,百度终于出手了,在静默近一周之手,百度终于对于360搜索反击了,8月28日晚间,百度开始反击360搜索,除了百度网页搜索外,将所有来自360搜索框的搜索重...

oschina
2012/08/29
2.8K
34
360 搅局市场:搜索引擎开打“3B”大战

南方都市报 作者:高凌云 谢睿 从8月21日起,360自主搜索引擎替换谷歌,成为360网址导航的默认搜索引擎。 8月16日,奇虎360低调推出综合搜 索,引起行业震动。8月22日,360董事长周鸿祎在第二...

oschina
2012/08/23
5K
99

没有更多内容

加载失败,请刷新页面

加载更多

Java描述设计模式(11):观察者模式

本文源码:GitHub·点这里 || GitEE·点这里 一、观察者模式 1、概念描述 观察者模式是对象的行为模式,又叫发布-订阅(Publish/Subscribe)模式。观察者模式定义了一种一对多的依赖关系,让多...

知了一笑
48分钟前
6
0
Qt 之 模态、非模态、半模态窗口的介绍及 实现QDialog的exec()方法

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/GoForwardToStep/article/details/53667566 一、简述 先简...

shzwork
52分钟前
4
0
OSChina 周一乱弹 —— 产品经理和程序员是夫妻?

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 小小编辑推荐:《Ocean Eyes》- Billie Eilish 《Ocean Eyes》- Billie Eilish 手机党少年们想听歌,请使劲儿戳(这里) @夏目Jane :风太大。...

小小编辑
今天
486
8
使用CSS自定义属性构建骨架屏

写在前面 几天前看到薄荷前端团队分享的《前端骨架屏方案小结》,突然回想起一年前看到的max bock写的《Building Skeleton Screens with CSS Custom Properties》,翻译整理写下出此文,分享...

前端老手
昨天
17
0
Docker常用命令小记

除了基本的<font color="blue">docker pull</font>、<font color="blue">docker image</font>、<font color="blue">docker ps</font>,还有一些命令及参数也很重要,在此记录下来避免遗忘。 ......

程序员欣宸
昨天
12
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部