假设从查找引擎用户领会的视点思索,对爬虫的工作效果有不同的点评标准,其中最首要的3个标准是:抓取网页的掩盖率、抓取网页时新性及抓取网页重要性。假设这3方面做得好,则查找引擎用户领会必定好。
关于现有的查找引擎来说,还不存在哪个查找引擎有才能将互联网上呈现的一切网页都下载并树立索引,一切查找引擎只能索引互联网的一局部。而所谓的抓取掩盖率指的是爬虫抓取网页的数量占互联网一切网页数量的份额,掩盖率越高,等价于查找引擎的召回率越高,用户领会越好。
索引网页和互联网网页比照
抓取到本地的网页,很有或许曾经发作变化,或者被删除,或者内容被更改,由于爬虫抓取完一轮需求较长的时间周期,所以抓取到的网页傍边必然会有一局部是过时的数据,即不能在网页变化后
时间反响到网页库中。所以网页库中过时的数据越少,则网页的时新性越好,这对用户领会的改善大有裨益。
假设时新性不好,查找到的都是过时数据,或者网页被删除,用户的内心感触不可思议。
互联网固然网页繁复,但是每个网页的差别性都很大,比方来自腾讯、网易新闻的网页和某个做弊网页比拟,其重要性犹如大相径庭。假设查找引擎抓取到的网页大局部是比拟重要的网页,则可以说明在抓取网页重要性方面做得比拟好。这方面做的越好,则越说明查找引擎的查找精度越高。
经过以上3个标准的说明剖析,可以将爬虫研制的方针简单描绘如下:在资源有限的状况下,既然查找引擎只能抓取互联网现存网页的一局部,那么就尽或许给选择比拟重要的那局部页面来索引;关于曾经抓取到的网页,尽或许快的更新内容,使得索引网页和互联网对应页面内容同步更新;在此根底上,尽或许扩展抓取范围,抓取到更多曾经无法发现的网页。
3个“尽或许”根本说分明了爬虫体系为加强用户领会而斗争的方针。
大型商业查找引擎为了称心3个质量标准,大都开发了多套针对性很强的爬虫体系。以Google为例,至少包含两套不同的爬虫体系:一套被称为FreshBot,首要思索网页的时新性,关于内容更新频频的网页,如今可以抵达以秒计的更新周期;另外一套被称之为DeepCrawlBot,首要针对更新不是那么频频的网页抓取,以天为更新周期。