爬信息爬到服务器瘫痪今日头条的头条搜索成了小网站的噩梦！

　　文章经授权转自公众号：差评(ID：chaping321)，作者：差评君

　　今年上半年，字节跳动放出了个让百度虎躯一震的消息 —— 今日头条开始做搜索引擎了。

　　头条搜索从只限于头条 App 的站内搜，变成可以抓取全网内容的全新搜索引擎，期间还和百度互刚了好几波，字节跳动的野心可见一般。

　　( 世超之前还带大家体验了一把，没看过的差友们可以点这里补补课【传送门】)

　　依靠着今日头条过亿日活带来的天然信息流资源，头条搜索已经有了很大的基础优势，这不考虑分百度一羹都说不过去。。。

　　不过上线的这段时间，差评君关于他们的官方消息没看到几个，倒是爆出了这么个新闻 ——

　　爬虫就是自动抓取全网内容的一种程序，它会定时把互联网上的内容爬下来，汇总存储到自己的服务器上，这样你每次搜索的时候，搜索引擎就会在这些内容里进行匹配相似度高的内容反馈给你。

　　为了让大家总能查询到互联网上的最新内容，爬虫一般每隔一段时间就再重新爬取一下网站内容。

　　在这个新闻里，一些服务器体量较小的网站称，一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高，直接把网站整瘫痪了。

　　大家顺着爬虫的 IP 地址查了一下，发现 Bytespider 就是今日头条的搜索爬虫。

　　大公司的爬虫都有自己的名字，像是谷歌的爬虫叫 Googlebot，百度的爬虫是 Baiduspider，搜狗的爬虫 Sogouspider，而今日头条家的就是 Bytespider。

　　但让差评君疑惑的是，像是用爬虫爬信息这种在互联网界已经算得上最常规不过的操作，小体量的公司都很少出错，今日头条这种大厂怎么把人家网站给搞瘫了?今日头条在业内的技术口碑一直不错啊。。

　　不查不知道，一查吓一跳，其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。

　　根据网站主的描述，爬虫短短一上午时间就对网站发出了 46W 次请求，直接耗掉服务器 7 个多 G 的流量。

　　这对平均日活可能都没有过千的小网站来说，已经算得上一次小型的 DDoS 攻击了啊。。

　　而且从今年 6 月到 10 月，越来越多的人开始在网上爆料自己也遇到了类似的情况。

　　最过分的是，无论是国内还是国外的开发者，都表示遇到 Bytespider 无视自家网站 robots 协议的情况。

　　它是一种网站附带的文本文件，专门用来告诉爬虫引擎在这个网站上的爬虫规矩。

　　譬如说哪些内容可以被爬取，哪些内容不能被爬取，而某些涉及用户隐私的会直接禁止爬取。。。

　　如果你想查看某个网址的 robots 规则，只需要在主域名后面添加 /robots.txt 便可以看到。。

　　举个栗子，下面这个图片就是 Google 搜索的 robots 规则，Disallow 后面跟着的就是禁止爬虫做的事情，Allow 后面跟着的则是允许爬虫的操作。

　　当然 robots 协议并不是每个网站都有，并且 robots 协议也没有什么法律效力， robots 协议更像是一种江湖规矩，就像电影院里贴着不要大声喧哗，博物馆里不让用闪光灯一样。。

　　那些专门写了 robots 协议的网站，就是告诫那些爬虫网站，进了我家门，请遵守我的规定。

　　再举个栗子，在用谷歌搜索的时候，你有可能会碰到有词条有链接，却没有页面说明的搜索结果。

　　这就很可能是因为对方的 robots 协议里允许谷歌抓取信息，但不让谷歌搜索结果对网页进行描述。

　　有些小网站会根据自己的服务器体量和维护成本，直接在 robots 协议里规定爬虫爬取的频率。

　　然而 Bytespider 却会忽略掉人们的规矩，仗着自己财大气粗、服务器牛逼，每秒几十次，几百次的抓爬访问频率，让小网站变得卡顿，甚至直接 502 挂掉。。。

　　本来网站们是并不排斥爬虫过来爬取他们的内容的，因为对他们来说被正常抓爬不是坏事，反而给自己的网站多了一个搜索曝光位，何乐而不为?

　　我给你提供内容，你给我曝光量，这本来是个双赢的事情，但这回头条搜索的操作实在是太乱来了，压根不管你的承受能力，索取无度。。

　　而且，遇到这种情况的开发者偏偏又很难找到渠道去和今日头条沟通，只能在自己这边直接禁掉今日搜索的爬虫 IP 了。。。

　　搜索引擎公司爬虫被禁，可能直接导致它的搜索结果失去了一条有用结果;而对于禁爬虫的公司来说，他们无疑少了一个渠道的曝光。

　　而且忽略网站 robots 规则，也就是说，没准儿今日搜索的爬虫会爬到一些网站禁止访问的内容，譬如用户隐私信息啥的，这可就是在法律边缘试探了。。

　　至于头条搜索为什么要这么做，差评君猜测很可能是因为产品急着上线，需要快速扩充内容库，下了个狠手。

　　截止到目前，字节跳动或者头条官方都没有出面对这个事情做出辟谣或任何解释。

　　有人说，在搜索引擎界，头条算是新入局的小孩儿，如果要拿他这次的 “ 流氓行为 ” 和现在已经数据基础庞大，但是遵守规定的谷歌、百度去比，有点不公平。

　　差评君说句实话，字节跳动已经算得上一个大佬，这样的行为对那些无力反抗的小网站来说公平吗?

　　大家都遵守 robots 规则是有道理的：做信息分发等业务时，不能竭泽而渔扰乱互联网生态，这样大家相安无事互助互赢。

　　现在这么一波暴力抓取，为了节省时间成本逼得网站不得不完全屏蔽掉它，结果整得大家都费力不讨好。

　　不管是物资还是财力都更庞大的巨头，更应该成为江湖界守规矩的标杆，老大要是乱了风气，江湖可就彻底糊了。

转载请注明出处。