长期探索方面,我们结合大数据图谱来介绍。整个大数据领域,按照数据量、延时要求等特点,可以划分为三部分:第一部分是 Data Engineering,包含我们熟悉的批量计算、流式计算;第二部分是 Data Discovery,包含交互式分析、搜索等;第三个部分是 Data Apps,主要用于支撑在线服务。
该小节会从定义和用途上介绍一下搜索引擎爬虫.搜索引擎爬虫在整体用途中算少数.它主要是看robot.txt来获取页面的信息.然后尽可能快的,深的挖掘出互联网中的所有链接.按照前面所说,该类爬虫分为批量型,增量型和垂直型三类.批量型此类爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程.
携程度假搜索引擎(以下简称为引擎):携程度假搜索引擎是一个专注在旅游行业的垂直搜索引擎,用来查找符合从出发地到目的地的相关旅游产品(跟团、自由行、邮轮、游学、主题游等),是一个典型的O2O搜索引擎(Online To Offline)。
30年互联网信息分发史及演变的四大模式,互联网信息分发的模式分为:分类索引-门户时代;搜索引擎-搜索时代;订阅关注-SNS时代;推荐算法-Feed时代。
关注时代Java