娱乐

爬信息爬到服务器瘫痪今日头条的头条搜索成了小网站的噩梦!

字号+ 作者:lobtom 来源:未知 2019-10-30 02:17 我要评论( )

文章经授权转自公众号: 差评(ID:chaping321),作者:差评君 今年上半年,字节跳动放出了个让百度虎躯一震的消息 今日头条开始做搜索引擎了。 头条搜索从只限于头条 App 的站内

  文章经授权转自公众号: 差评(ID:chaping321),作者:差评君

  今年上半年,字节跳动放出了个让百度虎躯一震的消息 —— 今日头条开始做搜索引擎了。

  头条搜索从只限于头条 App 的站内搜,变成可以抓取全网内容的全新搜索引擎,期间还和百度互刚了好几波,字节跳动的野心可见一般。

  ( 世超之前还带大家体验了一把,没看过的差友们可以点这里补补课【传送门】)

  依靠着今日头条过亿日活带来的天然信息流资源,头条搜索已经有了很大的基础优势,这不考虑分百度一羹都说不过去。。。

  不过上线的这段时间,差评君关于他们的官方消息没看到几个,倒是爆出了这么个新闻 ——

  爬虫就是自动抓取全网内容的一种程序,它会定时把互联网上的内容爬下来,汇总存储到自己的服务器上,这样你每次搜索的时候,搜索引擎就会在这些内容里进行匹配相似度高的内容反馈给你。

  为了让大家总能查询到互联网上的最新内容,爬虫一般每隔一段时间就再重新爬取一下网站内容。

  在这个新闻里,一些服务器体量较小的网站称,一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高,直接把网站整瘫痪了。

  大家顺着爬虫的 IP 地址查了一下,发现 Bytespider 就是今日头条的搜索爬虫。

  大公司的爬虫都有自己的名字,像是谷歌的爬虫叫 Googlebot,百度的爬虫是 Baiduspider,搜狗的爬虫 Sogouspider,而今日头条家的就是 Bytespider。

  但让差评君疑惑的是,像是用爬虫爬信息这种在互联网界已经算得上最常规不过的操作,小体量的公司都很少出错,今日头条这种大厂怎么把人家网站给搞瘫了?今日头条在业内的技术口碑一直不错啊。。

  不查不知道,一查吓一跳,其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。

  根据网站主的描述,爬虫短短一上午时间就对网站发出了 46W 次请求,直接耗掉服务器 7 个多 G 的流量。

  这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击了啊。。

  而且从今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。

  最过分的是,无论是国内还是国外的开发者,都表示遇到 Bytespider 无视自家网站 robots 协议的情况。

  它是一种网站附带的文本文件,专门用来告诉爬虫引擎在这个网站上的爬虫规矩。

  譬如说哪些内容可以被爬取,哪些内容不能被爬取,而某些涉及用户隐私的会直接禁止爬取。。。

  如果你想查看某个网址的 robots 规则,只需要在主域名后面添加 /robots.txt 便可以看到。。

  举个栗子,下面这个图片就是 Google 搜索的 robots 规则,Disallow 后面跟着的就是禁止爬虫做的事情,Allow 后面跟着的则是允许爬虫的操作。

  当然 robots 协议并不是每个网站都有,并且 robots 协议也没有什么法律效力, robots 协议更像是一种江湖规矩,就像电影院里贴着不要大声喧哗,博物馆里不让用闪光灯一样。。

  那些专门写了 robots 协议的网站,就是告诫那些爬虫网站,进了我家门,请遵守我的规定。

  再举个栗子,在用谷歌搜索的时候,你有可能会碰到有词条有链接,却没有页面说明的搜索结果。

  这就很可能是因为对方的 robots 协议里允许谷歌抓取信息,但不让谷歌搜索结果对网页进行描述。

  有些小网站会根据自己的服务器体量和维护成本,直接在 robots 协议里规定爬虫爬取的频率。

  然而 Bytespider 却会忽略掉人们的规矩,仗着自己财大气粗、服务器牛逼,每秒几十次,几百次的抓爬访问频率,让小网站变得卡顿,甚至直接 502 挂掉。。。

  本来网站们是并不排斥爬虫过来爬取他们的内容的,因为对他们来说被正常抓爬不是坏事,反而给自己的网站多了一个搜索曝光位,何乐而不为?

  我给你提供内容,你给我曝光量,这本来是个双赢的事情,但这回头条搜索的操作实在是太乱来了,压根不管你的承受能力,索取无度。。

  而且,遇到这种情况的开发者偏偏又很难找到渠道去和今日头条沟通,只能在自己这边直接禁掉今日搜索的爬虫 IP 了。。。

  搜索引擎公司爬虫被禁,可能直接导致它的搜索结果失去了一条有用结果;而对于禁爬虫的公司来说,他们无疑少了一个渠道的曝光。

  而且忽略网站 robots 规则,也就是说,没准儿今日搜索的爬虫会爬到一些网站禁止访问的内容,譬如用户隐私信息啥的,这可就是在法律边缘试探了。。

  至于头条搜索为什么要这么做,差评君猜测很可能是因为产品急着上线,需要快速扩充内容库,下了个狠手。

  截止到目前,字节跳动或者头条官方都没有出面对这个事情做出辟谣或任何解释。

  有人说,在搜索引擎界,头条算是新入局的小孩儿,如果要拿他这次的 “ 流氓行为 ” 和现在已经数据基础庞大,但是遵守规定的谷歌、百度去比,有点不公平。

  差评君说句实话,字节跳动已经算得上一个大佬,这样的行为对那些无力反抗的小网站来说公平吗?

  大家都遵守 robots 规则是有道理的:做信息分发等业务时,不能竭泽而渔扰乱互联网生态,这样大家相安无事互助互赢。

  现在这么一波暴力抓取,为了节省时间成本逼得网站不得不完全屏蔽掉它,结果整得大家都费力不讨好。

  不管是物资还是财力都更庞大的巨头,更应该成为江湖界守规矩的标杆,老大要是乱了风气,江湖可就彻底糊了。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 总台出手今年最受瞩目的电视赛事为梦发声闪耀青春光彩

    总台出手今年最受瞩目的电视赛事为梦发声闪耀青春光彩

    2019-10-30 02:19

  • 精选头条丨小米开始卖冰箱;谷歌将推出5G手机;知乎直播上线;物

    精选头条丨小米开始卖冰箱;谷歌将推出5G手机;知乎直播上线;物

    2019-10-30 02:19

  • 人工智能+教育开启青岛市教育新空间

    人工智能+教育开启青岛市教育新空间

    2019-10-30 02:18

  • 智造头条|176万元太空旅行来了!603人排队30亿美元潜在市场;英

    智造头条|176万元太空旅行来了!603人排队30亿美元潜在市场;英

    2019-10-30 02:18

网友点评