页面维护方式——定期抓取
由于搜索引擎不可能一次性抓取到网站的所有的页面,而且网站中页面的数量也会不段地变化,内容也在不断的更新。因此,搜索引擎还需要对已抓取的页面进行维护,以便能及时获取页面中最新的信息及抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取及分类定位抓取。下面先简单说下定期抓取。
定期抓取也称为周期抓取,即搜索引擎周期性地对网站中已收录的页面进行全面更新。更新时,用抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已收录的页面,因此更新周期会比较长。例如,Google一般是30到60天才会对已收录的页面进行更新。
定期抓取算法的实现相对简单。由于每次更新涉及网站中所有已收录的页面,因此页面权重的再分配也是同步进行的。这种方式适用于维护页面较少、内容更新缓慢的网站。但是。由于更新周期十分漫长,这就导致不能及时向用户反映更新期间页面的变化情况。
页面维护方式——增量抓取方式
上次介绍了常见页面维护方式中的定期抓取方式,这次同样简单介绍一下常见页面维护方式中的增量抓取方式。
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控的做法是不现实的。基于重要页面携带重要内容的思想以及八二法则,搜索引擎只需对网站中部分重要页面进行定时监控,即可获取网站中相对重要的信息。因此,增量抓取只针对某些重要页面,而非所有已收录的页面,这也是为什么搜索引擎对重要页面可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,而且还可以及时向用户展示页面中最新的内容。
页面维护方式——分类定位抓取方式
上一次给朋友们介绍了常见页面维护方式中的增量抓取方式,现在介绍第三种页面维护方式:分类定位抓取方式。
与增量抓取由页面重要性决定不同,分类定位抓取是根据页面类别或性质而制定相应更新周期的页面监控方式。例如:对于“新闻资讯”与“资源下载”这两类页面,新闻资讯类页面更新周期可以精确到每分钟,而下载类页面更新周期就可以定为一天或更长。
分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大量的抓取时间,并大大提高了页面内容的实时性,也增强了页面抓取的灵活性。但是,按照类别而制定页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是相同类别的页面,在不同网站上内容的更新时间也会存在很大的差别。例如新闻类页面,在大型门户网站中内容的更新速度就会比其他网站快的多。所以,还需要结合其他的方式如增量抓取等对页面进行监控、更新。

订阅我的BLOG(RSS)