今后做了内容发布到网上肯定会被搜索引擎爬取嘛,我们需要未雨绸缪,提前进行反爬虫技术的研发。
琦哥,这事儿交给你了。”
话说谷歌在国内已经没有几天好蹦跶了,今后嘉盛在国内面对的搜索引擎除了自家的寻知,就剩下百度,未来可能会有360搜索引擎,如果自己没来得及彻底剿灭周教主的话。
不论是百度搜索引擎还是360搜素引擎,在陆道升看来都不是什么好鸟,提前防范一下很有必要。
要提供搜索引擎服务,需要解决数据的搜集和数据的组织两个大问题。
其中数据的搜集即指的是使用爬虫来对互联网网站内容进行爬取,搜集到自家的后台中。
数据的组织即如何将爬取下的海量数据进行处理,以使得用户能通过搜索快速获得高相关性的结果。
陆道升要提前做好针对准备的就是百度的数据搜集过程,即通过反爬虫机制来限制百度对嘉盛旗下网站的内容爬取。
这并不是对百度的进攻性策略,而是一种自保的防御手段。
前世曾爆出国内某搜索引擎大量采用快照的形式来承接用户的点击跳转,大量屏蔽了用户对原网站的访问的事件。
快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。
但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。
也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。
这么干不是不行,可以采取robots协议实现。
简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署xt文件,告知搜索引擎的爬虫哪些内容不应被爬取。
即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。
但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。
中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。