集册 爬虫之路 训练材料与可视化

训练材料与可视化

欢马劈雪     最近更新时间:2020-08-04 05:37:59

77

该小节与上一节差不多,继续以介绍为主.数据模型训练材料是指通过爬虫爬取的具有关联性的特定数据来作为各种数据模型的训练材料,从而得出各种结论.这类用途因为涉及到很多计算模型的专业知识,所以我们通过社会舆论分析,机器翻译,地域性特征图这几个例子为重点,来讲讲我们会在什么时候用上这些技术。

  • 网络舆论分析
    首先,我们了解下什么叫网络舆论.就是在一件事发生后,在社交网络上面形成主流的一类舆论,通常可以代表大部分网民在这件事上的态度。我们通过从各类SNS中抓取的大批量数据通过自然语言分析(NLP)来来得到其中所代表的社会情感.比如我在第一章里提到的那篇著名论文,就是通过抓取了推特上亿条信息后推算出的.这种结论能一般代表SNS上的民意,可以成为各种论文所引用的对象以及公司决策的辅助.举个例子,下图为新浪微舆情在某件事中根据自身微博中网友的留言得出的分析结论.此下图是通过新浪自身的情感研判模型得出的网络舆论对该起事件的情感判定.

  • 机器翻译
    机器翻译就是不依靠人工,通过输入人工翻译的大量语料,然后做出统计模型,让计算机尽可能地熟悉别人是怎么翻译的,从而耳濡目染,领悟到该如何翻译。而这大量语料就是我们通过爬虫在网上抓取的各种双语翻译。例如如今的Google翻译,百度翻译和必应翻译都是如此而来的.只所以说,如果你对此有兴趣也可以尝试自己搭建一个翻译引擎.只不过像谷歌百度都是用十亿级别的数据训练出来的,如果你只输入几千语料的话,可能结果会不有点半生不熟。

  • 地域性特征
    地域性特征就是在一定的范围内,由于相同的历史文化、气候地理条件,造成某种事物分布集中于某一片.或者有一定的规律,产生的一些只属于该地区的特定现象.而我们同样是通过SNS社交网络上的数据,可以根据不同的地域范围,通过数据分析,得出具有地域性的一般结论,可用作各种社科类论文的补充依据.如果这也要举例子的话,那么还是刚才那件事.微舆情上也列出了各地域转发的分布图.就是如下:如图可以直观的看到天津地区与江西地区两个不同地域之间的差异.

和第一种方法一样,这种方法也只是介绍,不涉及具体学习模型.有关机器学习以及模型的训练,请参照其他论文。感谢.

展开阅读全文