从上一章我们知道,获取链接是爬虫工作的第一步.除去我们事先给与的链接外,大部分链接都要靠通过挖掘现有的链接得到,而网上的网页很多是重复的,过期的和没有参考性的。那么,我们如何在爬取过程中避免出现这些情况呢?我们可以通过地址去重来避免抓取的重复页面,然后通过价值算法来提升优质链接的优先级来避免抓取到无参考性的和过期的页面.首先我们来说下地址去重。
关注时代Java