当百度爬取了海量网页后,每一个网页我们称为”文档“,不可能就杂乱无章的放着,它使用了文档集合,就是类似的文档放在一个集合中那什么样的文档算类似呢?相信你猜到了,文档中有相同关键字的就可以放在一个集合中。
关注时代Java