百度的“钓鱼行动” 3B大战牵出Robots疑云(2) _ 互联网

百度的“钓鱼行动” 3B大战牵出Robots疑云(2)

2012-9-8 6:24:32每日经济新闻【字体：大中小】

一个是搜索引擎市场具有垄断地位的巨头，一个是颇具争议的闯入者，这场围绕搜索引擎的“3B大战”进入了第二个回合：钓鱼。

几天前，百度工程师放出“鬼节捉鬼”的钓鱼策略，将争论引向一直以隐私安全为底牌的360。问题出在一个叫做Robots的协议上。360被指不遵守协议，直接用浏览器抓取用户浏览信息，可能致使用户信息泄露。“3B大战”的对手百度等互联网公司发出了要求员工卸载360浏览器的号召，搜狗CEO王小川也表示应遵守Robot协议，担心360在安全上做裁判又做球员。

CNNIC最新的统计数据显示，360搜索覆盖中国网民比例已由上周的13.04%降为11.61%，覆盖人数由3420万降为3052万，近一周时间，损失用户达368万。

3B大战第二回合，落在了浏览器端直接搜集网页信息的争议上。《每日经济新闻》在调查中发现，Robots协议被浏览器开发人员视为“Google自己制定的协议规范”，“连行业规范都算不上”，搜索引擎对用户隐私权的定义，目前还是空白。

百度非原创式捉“鬼”

8月31日，一则由百度工程师发布的微博引发了业内的广泛讨论。

这位名叫赵明华的百度互联网数据研发部经理称，百度的工程师制作的几个特殊页面没有任何外链，由于搜索引擎爬虫只能通过链接爬行网页，因此这个网页是完全封闭的“孤岛”，不可能被搜索引擎抓取到。但令人意外的是，百度工程师试着在360搜索中输入以上关键词，结果这个网页赫然出现在搜索结果第一行，并可以直接点击访问浏览网页内容。但再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容，却无法返回相应网页。

为什么一个完全封闭的网页竟然能被360搜索引擎抓取到？赵明华的解释是，他曾用360浏览器打开过这个网页。在360浏览器的隐私策略中，注明了360安全浏览器会在用户的计算机上记录有关浏览历史记录的实用信息。

百度认为，百度钓鱼流程揭示了360搜索存在安全隐患：只要用户通过360浏览器访问过一个网页，无论是私人账号信息，还是公司内网机密数据，都会被360浏览器记录下来，并被360搜索爬虫抓取、上传到360服务器。

不过，360却有着自己的说法。360在官方微博上指出，百度以所谓的“孤岛”数据污蔑360泄露用户隐私。其实百度的做法很简单，只要通过外部链接引导360爬虫抓取页面，同时屏蔽其他搜索引擎，然后切断外链，就可以造成只有360搜索收录所谓“孤岛”的假象。

9月2号，360董事长周鸿祎对此回应，“这是百度在滥用Robots协议，阻碍360进入搜索市场。”

百度“鬼节抓鬼”的行为，在互联网界并非首例。2011年初，谷歌由于怀疑必应借鉴其搜索结果，也采取过这种做法。

2010年10月份，谷歌注意到Bing的搜索结果越来越多地和谷歌重合，头条结果相同的趋势也越来越高，由此必应抄袭了他们的搜索结果。

为了验证猜想，谷歌在去年12月进行了一场钓鱼行动。他们选择了100个异常钓饵进行手动搜索排名，将这些关键词的搜索结果指向毫无关联的页面。当时约20位谷歌工程师在电脑上使用IE浏览器来搜索这些关键词，然后通过IE在谷歌上搜索这些钓饵，诱使必应上钩。两周后，谷歌工程师再通过必应搜索当时的钓饵，预先埋下的结果就开始陆续出现在必应结果中，由此发现必应通过IE收集用户上网的隐私数据，直接记录上传了用户访问网址并随后放入搜索结果中。

搜索引擎与商业网站博弈

赵明华称，360绕过了Robots协议，利用浏览器记录并上传用户数据和上网行为，并形成自己的网址库，再用伪装和隐藏过的爬虫来抓取快照，生成搜索结果。

那么，从浏览器端直接搜集网页信息是否正当？

实际上，Robots协议并非强制性法规，而是搜索引擎诞生后，互联网业界经过长期博弈，最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。

据《每日经济新闻》了解，早期的互联网主要是“用户-网站”模式。用户通过网站获取信息，网站通过吸引用户点击来实现广告收入。不过，当谷歌把搜索引擎变成一种成功的商业模式之后，很多网站原有的商业模式遭到了严重破坏。

为了维护自身的利益，一些欧美大型网站联合起来与谷歌谈判，要求谷歌“有所为有所不为”，于是就有了Robots协议。该协议的核心思想就是要求Robots程序不要去检索那些站长不希望被直接搜索到的内容，并将约束Robots程序的具体方法规范成格式代码，就成了Robots协议。一般来说，网站是通过Robots.txt文件来实现Robots协议。

国内使用Robots协议最典型的案例就是淘宝网拒绝百度搜索。此外还有大量的用户注册、邮件等信息，都利用Robots协议来防止这些内容在互联网上被搜索到。

不过，绝大多数中小网站需要依靠搜索引擎来增加流量，因此通常并不排斥搜索引擎，也很少使用Robots协议。去年京东商城屏蔽一淘网抓取数据时，曾指责一淘网破坏了Robots协议。

技术工程师Joey在接受《每日经济新闻》采访时表示，谷歌、百度是通过都是自己的服务器不停地在网上抓内容进行索引，而360的模式是让每个使用360浏览器的电脑成为360的蜘蛛爬虫，把浏览的内容上传到360服务器上做索引。

Robots协议约束力几何？

此前，在多次“互联网大战”中，360的隐私问题均被竞争对手列为质疑的焦点。

两年前，奇虎360公司两名网络工程师利用360公司系统收集的用户信息，通过360服务器云计算后台破解了市政一卡通系统的后台密码，并远程为自己和3位同事的一卡通恶意充值2600元。2011年1月，360收集隐私数据被谷歌爬虫抓取，结果包括网民在百度搜索的关键字、淘宝购物记录、金蝶等企业内部财务网络数据等链接数据“裸奔”于互联网上。

分享到：

网站导航

百度的“钓鱼行动” 3B大战牵出Robots疑云(2)

相关阅读：