1互联网信息分发的模式分为:分类索引-门户时代;搜索引擎-搜索时代;订阅关注-SNS时代;推荐算法-Feed时代。
2互联网信息分发的演化过程,实际上有些类似生物的演化过程,随着互联网用户的增长和网络上信息总量的增加,我们不断需要更高效更先进的信息分发解决方案。
3Google之所以快速崛起的原因不仅仅因为他们孜孜不倦的快速爬取网页或者是产品的简洁设计。早期的胜负手来自Google创造性的重新定义了搜索结果的排序方式。
这是关于互联网过去和现在的一个思考。
1/ 互联网与世界的比特镜像
我曾经和很多朋友探讨过一个很朴素的问题,在你的眼中,互联网是什么?
要回答这个问题,必须先回答另一个问题,互联网为什么而出现?
在我看来,这个世界是由三个要素构成的,也即是:物质、能量、信息。那么什么是信息呢?
按照信息学祖师爷CE Shannon在《信息论》里给的定义,信息是对事物的运动状态与存在方式不确定的描述。
人类获取信息的过程就是消除不确定性的过程。因为描述信息混乱与不确定性的概念是“信息熵”,所以你也可以把人类获取信息的这个过程看做是一个“信息熵减”的过程。
二元信源的信息熵
换成人话说就是:获取信息能够让你从“不明白”到“明白了”。
人类为了在这个世界生存下来,我们的基因把我们“设计”成了一个高效的信息获取与处理信息的系统。比如我们(或者说所有的灵长类)进化出了色彩识别的能力,我们的眼球能够识别380~780nm波段范围的光谱,这让我们拥有可以通过色彩分辨食物,寻找掩体,感知危险的能力。
人类肉眼可见光谱
当然,这还只是非常基础的信息获取能力,在人类数百万年的演化过程中,为了满足我们社会组织的需要,我们进化出了更复杂高级的对抽象信息的获取与理解的能力,这也就是对文字、图画、音乐等信息的处理能力。
简单说,获取信息对我们很重要,但这和互联网又有什么关系呢?
这里我们还需要理解两个概念,一个是信号,一个是信道。
信息的传递
信息发布者(信源)发布了一个信息,这个信息以某些物理介质承载(这就是信号),通过媒介传递了出去(这就是信道),被信息的接受者接收(信宿)。
举个栗子就是,你说了一句话(这句话包含的就是信息),这句话转化成了音波信号,通过空气这个信道媒介传到了我这里,被我听到了,这就是个信息传递的过程。这个过程里,信道中会有“噪音”,噪音会干扰信号,信息传递就会出现偏差,最后甚至会导致信息传递失败。所以不同的信号承载形式和不同的信道会有相对的信息传递的物理极限。比如你在1公里外说了一句话,我可能就听不到了。
因此信号能够不受干扰的传递距离对我们能维系多大的社会组织的效率产生了很大的影响。
所以为了最大程度的保存信号不受干扰,尽可能远距离的传递/获取信息,我们人类发明了各种科技。而迄今为止,传递信息的最先进的科技工具是“互联网”。
以上内容,如果你在大学本科读过信息学的话,基本上第一课就讲这个。
但如果只理解到工具的层面,我们对互联网的理解就不够深刻。因为互联网传递信息的时候,不是单向的传递,实际上,互联网保留了现实世界的让每个人发布和获取信息的能力,因此互联网形成了一个“网络”。这个网络在尽可能的提取这个世界上已知的所有具象客观的和抽象主观的信息,把这些信息映射到互联网上,然后以电信号(光速)传递这些信息。
所以,我经常说,互联网是现实世界的比特(BIT,信息的单位)镜像。
而且这个比特镜像上信息是以“光速”运转传递的。
S=VT
我们都知道这个简单的公式,意思就是距离=速度*时间。简单说就是,如果信息被以光速的速度在传递,那么在同样的时间里,我们获取信息的半径距离就非常长。长到什么程度呢?你肯定听过“地球村”这个概念,在互联网刚传进中国的那十年里,人们特别喜欢说这个概念。虽然有点土,但这句话确实很形象。地球变成了个村。
一开始这挺好的,我们获取信息的半径扩大了,我们用计算机和互联网完成了一次“进化”。但我们其实不一定能够习惯这种变化,因为人类面对的环境从文明诞生的1万年来,第一次从“信息匮乏”变成了“信息过载”。
实际上互联网的发展过程,我们可以梳理出两个主脉络,分别是:
网络上的信息越来越多;
上网的人越来越多。
而这两条主脉络本身又互相促进构成了一个闭环,也就是越来越多的人上网制造、发布、卷入了越来越多的信息到互联网上,互联网上的信息越来越多也吸引越来越多的人去使用它。
我们都知道,到2019年的时候,全球的网民的数量大概正好是40亿出头点,其中大概有不到9亿是中国网民。那么你知道互联网上一共有多少信息吗?
我们都知道,到2019年的时候,全球的网民的数量大概正好是40亿出头点,其中大概有不到9亿是中国网民。那么你知道互联网上一共有多少信息吗?
数据来源:IDC,2017年《数据时代2025》白皮书
2017年的时候IDC(国际数据公司)做过一次研究,他们估计当时互联网上的信息大概20多个ZB(1ZB=1万亿GB),当时预测这个数据到2019年大概会翻一倍,达到40个ZB。
2019年的全球数据量
所以粗略计算一下,每个网民理论上平均被分配到1ZB的信息。当然,实际情况并不是平均主义,这里只是便于理解。我只想说,即便我们行使这样的平均主义,你依旧没可能在你短暂的一生里,把这些信息都完整的接受一遍。更何况,在可以被重复消费的信息海洋里,实际情况是今天的你终其一生需要在40ZB的信息海域里找的,不过是需要的那几十个TB而已。
你能获取的信息超过了你能处理的信息的上限,这就是信息过载。
互联网的先驱其实很早就意识到这个问题了。
世界上第一个网站,http://info.cern.ch/hypertext/WWW/TheProj
万维网(WWW)之父Tim Berners-Lee在发明万维网的同时,也发布了世界上第一个网站,这个网站用超文本(hypertext)技术把CERN(欧洲核子研究中心)各个实验室连接起来,因为用了超文本(也就是后来的链接),所以人们可以方便的浏览聚合的信息。1991年8月6日Tim Berners-Lee公开了这个项目,这一天也被认为是万维网的诞生。这个网站介绍了超文本的规范、网站的建站细节、浏览器的安装使用等信息,后来这个网站还收录了一些其他的网站范例,所以也被认为是世界上第一个网站目录。
也是从这一天起,每个接入万维网的人(或者说,你熟悉的因特网),都有获得了建立一个属于自己的图形化的网站和对应的http网址的权力。然后采用更自然的拼写的http网址,已经比之前的FTP地址要容易访问的多。
当然,在万维网诞生的时代,尽管Tim Berners-Lee已经试着去做一些万维网站的目录工作,但http网址在后来发生如此巨大的爆炸式增长,以至于这个工作显然已经需要专门的机构来服务。所以从那个时代开始,互联网信息分发漫漫之路就被开启了。
我们大概可以把互联网信息分发的模式按照其主导的信息分发的模式流行的时期大致划分成四个时代:
分类索引-门户时代;
搜索引擎-搜索时代;
订阅关注-SNS时代;
推荐算法-Feed时代;
在这四个时代以外还并行了一个长期存在的“高热更新-社区热帖”模式(这个模式在国内因为百度贴吧在搜索时代的崛起,一度也成为了非常重要的一种信息分发模式)。有必要注意的是,以上的这些时代所诞生的信息分发模式,大多都随着相应的技术变革应用所产生,而背后又都伴随了商业模式的彻底升级革新而兴起主导了一个网络时代。
这些信息分发模式的演化塑造了不同时代的互联网巨头。不过这些模式也并非完全的先后替代,更多的是新的信息分发模式向下兼容了早期的模式,然后通过商业模式的创新,后者主导的企业把前辈按在了地上摩擦(至少也是某种程度上的打破了前辈的领导者地位)。
2/分类索引-门户时代 & 搜索引擎-搜索时代
虽然BBS论坛和搜索引擎技术诞生的时间都要比万维网诞生还早一些,但基于生产力的应用需要适应时代的发展的客观规律,万维网诞生初期,主导网络世界信息分发的并不是搜索引擎技术和BBS论坛,而是基于超文本技术的分类索引。
尽管第一个互联网分类索引服务并不是Yahoo,不过最知名与成功的案例确实是它。
1994年第一版的Yahoo!
这个由华裔企业家杨致远创立的网站,用高效的管理、激进的市场策略,在上世纪90年代中期快速击败了他的主要对手成为了全球最重要的网络门户(没错,国内曾经所谓的四大门户——新浪、搜狐、网易、腾讯,最初都是Yahoo!的copycat)。而所谓“门户”这个概念,对于现在的年轻人可能有些陌生,但对于当时的人来说,这个词汇很形象的描绘了,这是大多数人上网的第一步。
今天的人可能很难想象,在25年前万维网刚诞生不久没有搜索引擎的年代,如果人们要寻找什么“信息”,人们该如何开始开始。所以Yahoo!这个由手工归纳分类,手工录入搜集的分类检索目录网站,就是你能最快捷发现又有什么新的网站出现在互联网上的地方。你可以把这类网站看做“黄页”(收录工商企业电话号码的号码簿),或者从某种程度上说,Yahoo!就是网络黄页(马云最早想做网络黄页,后来又拿了杨致远的投资,不是毫无理由的)。
人类的想象力并不是无中生有的。我们总是会基于已有的一些事物,结合一些变化的趋势,对未来的做一些猜想。对于从未见过当今这个未来的人来说,把聚合所有网址信息的网站,参照已经存在的电话黄页,“拟物化”的设计产品,是再合理不过的事情。
而Yahoo!的商业模式可以说非常粗暴简单,就是贩卖广告,准确的说是贩卖网站上的banner广告。
1997年的Yahoo!搜索框上方明显的汽车banner广告
当时的Yahoo!想要增加收入,方法也很简单,就是在首页上(包括后来的各个索引目录页面的大分类页面)上增加banner广告位(增加Ad Loads),同时把单个广告卖的更昂贵(提升Ad Price),为此Yahoo!愿意给广告销售极高的提成,同时大量投放市场广告,以此激励销售与教育广告主。
2004年的Yahoo!首页上一堆广告banner
早期的Yahoo!在做分类索引的信息分发模式大成功之后,快速进化了产品的形态,首先在1995年加入了搜索功能,不过这个搜索和后来的搜索引擎还不太一样,主要是用来做分类检索的快捷搜索的,搜索出来的结果往往直接指向某个网址(这个细节待会儿在讲搜索引擎时格外重要)。然后96年Yahoo!又开始了邮箱服务,再然后是把业务触角扩张到了新闻资讯服务(这项服务等于对标了传媒报纸的业务)。
作为当时全球最大的互联网门户、网络目录、电子邮箱和新闻资讯网站,伴随快速增长的全球网民数量,雅虎市值一度超过1000亿美金,以至于在今天的Google和中国的四大门户身上,总有Yahoo!的既视感。
然后,在未来终结门户时代的搜索引擎登场了。
严格的说,搜索引擎技术诞生的要比万维网还早一年,现代搜索引擎的前身是诞生于90年的Archie,一种通过文件名从FTP主机中查找文件的技术。而到了1994年,第一款现代意义上的使用了蜘蛛爬虫技术的搜索引擎Lycos诞生了(Lycos这个词就是一种狼蛛的名字)。4年后,我们熟悉的Google也诞生了。
这些搜索引擎和分类索引的门户最初的差异就是获取网络信息的方式不同。分类索引用人工录入的方式,而搜索引擎则使用蜘蛛爬虫程序全自动的爬取信息。另外,人工分类的目录主要收录的是网址,而蜘蛛爬虫爬取的可以是每个具体的网页。对于使用者来说,前者需要进入网站自己继续找信息,后者可以一步到位,方便快捷。
显而易见的,搜索引擎获取网络信息的效率要比分类索引高得多。那么为什么一开始人们并不那么爱用搜索引擎呢?因为早期的搜索引擎虽然可以爬到很多东西,但在大量的相关结果中,搜索引擎并不能准确的“猜到”哪个才是你要的结果。
Google之所以快速崛起的原因不仅仅因为他们孜孜不倦的快速爬取网页或者是产品的简洁设计。早期的胜负手来自Google创造性的重新定义了搜索结果的排序方式。
Google的两位创始人之一,Larry Page发明了PageRank算法——通过指向网页的链接数量来衡量一个网页的价值。Google在搜索结果的优化上发力,这让他们独树一帜。实际上包括PageRank算法和后来他们不断加入的Hilitop算法、HITS算法、TrustRank算法以及用来处理一些不良网页的SandBox(沙盒)等等技术,让Google成为了2000年左右,最关注的信息分发效率的公司。
不过早期的Google虽然技术先进,但是作为一家技术公司,他们暂时还不能和拥有海量用户和巨量现金的Yahoo!直接正面对抗。实际上他们不仅没有对抗,Google在2002年-2004年甚至是Yahoo!搜索技术的独家外包。采用了Google技术的Yahoo!的体验迅速提升,点击量飞速增长,巨头Yahoo!乐得前仰后合,完全没意识到这个小老弟未来成了自己的掘墓人。
作为Yahoo!的迷弟,Google的Larry Page曾经一度想把Google的前身BackRub卖给Yahoo!,而到2002年,Yahoo!也曾经试图花30亿美金收购Google,如果不是因为Google还价到50亿美元,Yahoo!嫌贵放弃了这笔交易,世界互联网史几乎改写(这样的故事在互联网真的不断在上演)。
98年第一版的Google!模仿Yahoo!也有个感叹号
Google早期团队照片
真正让Google完成对Yahoo!超越的是创新商业模式AdWords(关键词广告)。Google让每个被搜索的关键词都成为了潜在的广告载体,让每个搜索结果页面都成为了广告收入的来源。
我们前面说了,互联网信息分发时代的王朝更替,主要是围绕两个因素:
信息分发技术应用的进步;
商业模式的革命性升级;
在Yahoo!,广告最初是按照版面浏览热度的banner位置热度在卖的。这个商业模式其实和卖电话黄页簿的广告,或者和卖报纸广告没什么区别。卖广告的收入上限主要取决于用户能访问多少个页面,不同页面的热度决定了价格水平。为了多卖广告,就得在最好的位置加广告区。而首页就是最好的位置,这就会为什么所有的早期门户网站的首页看起来就像是寸土寸金的市中心一样拥挤不堪。
然后为了进一步的增加广告收入,每个广告位缩短广告的播放时间,加上轮播的广告次数,再按照广告位置的热度,让销售把黄金广告位置和时段的价格炒上去,这样又和卖电视广告差不多了。
在那个时代这已经能为Yahoo!赚到相当多的钱。但Google完全打破了这种商业模式。
AdWords的创新来自两个方面:
全新的计价模式;
全新的广告位设计;
Adwords计价方式是按照用户搜索关键词后,点击搜索结果来计算广告收益的(也就是大名鼎鼎的CPC计价)。这样一来,广告的投放效果变得可靠可监测,而单次支付的价格又非常低,让投放广告的策略变得非常灵活,这让那些支付不起巨额广告费的小型企业有了投放互联网广告的机会。
而Adwords的广告位不再是一个个乱入的广告贴图和弹窗,而是直接融合在搜索的结果里,这让广告的转化效率得到了质的飞跃,让广告主万分满意。同时改变了广告载体,广告位的数量再也不和门户网站的页面数量挂钩,世界上有多少个词,理论上就有多少个词的对应页面的广告位。Google能赚多少钱,完全取决于用户会用Google搜索多少次,而用户搜索Google多少次又完全取决于Google搜索的体验有多好,这样一来广告收入的模式和产品体验不再是对立关系,而是完全一致的闭环。
2004年Yahoo!宣布与Google断绝合作关系,两者全面开战。在搜索业务上Google完全碾压的Yahoo!,然后Google推出了Gmail邮箱服务对抗Yahoo!的邮箱服务。技术全面领先的Google很快就把Yahoo!抛到身后,尽管财大气粗的Yahoo!买了一大堆的互联网公司组成了集团军,但结果看毫无茶叶蛋用。如果不是当年Yahoo!在鼎盛时期投资了阿里巴巴,这个公司甚至会更早退出我们的视线。
就在人们以为互联网信息分发的战争在这里就要告一段落的时候。新的模式又来了。
3/订阅关注-SNS时代
2004年,Google大战Yahoo!难解难分的时候,忽然在美国,有人提出了一个全新的概念——Web2.0。意思是第二代互联网,第二代互联网和第一代互联网最大的区别是,Web1.0是由网络信息服务商主导提供信息服务,而在Web2.0时代,会由用户主导提供产品服务。
说实话这个概念其实挺模糊也挺不靠谱的,但在2004年左右,真的诞生了基于这样理念设计的全新一代互联网产品,其中很多款产品在今天已经被广泛熟知:Myspace(2003年9月)、Facebook(2004年2月)、flickr(2004年2月)、Reddit(2005年)、Google Reader(2005年)、YouTube(2005年12月)、twitter(2006年3月)、tumblr(2007年)等等等等。
这些信息服务产品的拥有一个共同的特征就是UGC(User Generated Content 用户生成内容)。2004年左右,全球互联网用户的数量大概达到了8亿左右。伴随大量的互联网用户的接入,互联网信息的产生正在面临一次底层变革。
最早互联网用户主要是单向的获取信息服务为主,但随着网络接入的用户数增加和网络带宽的提升,互联网开始能够提供更多的服务了。
最早的BBS衍生出来的社区论坛,每个人都可以建立自己的个人主页(没错,最早就是个人站的变种,个人homepage),可以分享喜爱图片的网络相册服务,可以分享自己拍的沙雕视频的网络录像厅……
互联网开始转变成更接近这个词原教旨的含义——连接人与人,然后再浏览个人发布的信息。
因为信息的发布方式发生了根本的转变,信息分发的方式也必须随之改变。在Web1.0时代,接入互联网获取信息的最短路径是通过聚合信息的门户或者搜索引擎,而现在,用户多了一个选择——通过订阅/关注的用户列表。
不管是接近媒体形态的门户网站还是接近工具形态的搜索引擎,当用户使用他们的时候,都是透过一个中介来获取信息,而直接订阅可以让用户越过信息的中介,直接从信息源头获取信息。
我们先讲讲信息的分发方式的变化,那就是RSS。
1999年,一种基于XML的全新协议RSS被开发了出来,最初这个协议代表的是RDF(Resource Description Framework,描述资源格式框架) Site Summary,也就是RDF站点摘要——一种可以把符合RDF规则描述的网站最新摘要推送给用户的技术。而后发明该协议的网景公司(Netscape,网景浏览器)把RDF语句格式拿掉了,这个技术进而变成了Rich Site Summary(富集站点摘要),也就是允许网站向用户推送网站摘要的技术。
之后美国的互联网用户开始逐渐流行在个人网站上写Weblog(网络日志),或者换成我们更熟悉的一个名字,Blog——博客。当Blog遇到RSS技术,一种全新的订阅服务就产生了——RSS集合阅读器。
不同于之前的门户和搜索,RSS阅读器是完全个性化的,用户会读到什么完全由用户的订阅列表决定,这个设计是划时代的。
国内用户最熟悉的Google Reader
同时另一方面,在信息的发布方式一侧,虽然当时已经有了向Wordpress这样的快捷Blog建站工具,但是对于普通人来说,建立一个网站依旧是一件有些门槛的事情。
那么有没有一款能够满足既能拥有属于自己个人网页,又不用搞懂技术建设一个个人网站的产品呢?于是在2002年,诞生了最早的个人主页产品Friendster,这个产品也是世界上第一个社交网络服务(SNS,Social Network Service)。
Friendster很快遭遇了自己最大的竞争对手——MySpace,并且在与MySpace的竞争中败下阵来,尽管MySpace诞生之初是个像素级复刻Friendster的产品。最初的原因只是因为MySpace因为一个bug,允许用户修改前端UI的HTML,因此用户可以自定义自己的个人主页的色彩、墙纸和背景。这个“功能”受到大量青少年用户的喜爱,因此瞬间成为爆款(没错,QQ空间就是MySpace的copycat)。然后在MySpace持续高速的产品与技术迭代下,孱弱的Friendster被打出了美国市场,而专注于服务海外市场(Friendster一度是东南亚最流行的SNS)。
不过MySpace也没有机会笑太久,我们都知道,世界上最大的SNS——Facebook在2004年诞生。不过刚诞生的Facebook并没有比Myspace更有太多优势。实际上恰恰相反,当年的MySpace更潮更酷,总部设在洛杉矶好莱坞的MySpace更像流行文化的风向标(其实以当时人的眼光看,MySpce更有点2017年的抖音的感觉,而且起点历程都很像)。
很多人都认为MySpace大战Facebook,最后会败下阵来和2005年他们的母公司Intermix被出售给了默多克的新闻集团有重大关联。这个观点或多或少有几分道理,但如果我们深究的话,可能Facebook自己的努力是更主要的原因。
Facebook和MySpace组织分发社交信息的方式不一样,Facebook在2006年上线了一个全新的功能:Newsfeed。这个功能当初的中文翻译被叫做好友动态,不过随着这个功能的进化,现在有个更出名的叫法——信息流(早期的信息流和今天的信息流差别其实很大,这点在后面会展开讲)。
但发明这个“信息流”功能的其实并不是Facebook,而是twitter(虽然twitter自己最早可能都没意识到)。前面讲到,RSS做了订阅功能,允许用户订阅blog列表查看blog的更新,而诞生在更晚一些2006年的twitter把这个设计更进一步,直接越过了“订阅列表”的设计,直接在twitter站内实现了发布、订阅信息、转载信息的完整闭环。信息的呈现形式是被限定在140字内的长度(因为足够短,才能方便用户阅读和发布),并且按照时间顺序(timeline),直接呈现订阅信息流,用户阅读到什么同样完全由用户来决定,这就是最早的“信息流”设计的由来。
另外当时除了改造信息分发模式的设计创新,还有一些人因为带宽提升,开始对信息发布的媒介做升级,其中包括做图片分享的flickr和做视频分享的YouTube。
这些SNS和订阅关注服务对像Google这样的搜索引擎产生最大的威胁来自Google没有办法像以前那样方便的抓取网页的内容了。如果我们把信息看做一个水,那么这些SNS和图片、视频分享站点就是蓄水池,而Google这样的搜索引擎就是运水站。如果上游每有一个蓄水池把给运水站的输送管道切断,运水站就会失去一些价值。
早年的商业网站自己没有流量,服务也不高频,每次服务用户都会需要从搜索引擎走,但是像SNS这样自己站内闭环拥有大量UGC动态信息的网站,用户几乎每天都要登录,几乎完全可以摆脱外部送水站的流量导入。对Google来说,流量卖给Facebook几乎变成了一杆子买卖。而且新增的互联网信息都在这些蓄水池的内容,如果Google不能够想办法掌控一些蓄水池,未来甚至很难说他们和Facebook之间,谁的话语权更大。
这件事直接导致了Google停掉了Google Reader业务,转而全力研发Google+(Google自己的社交平台,这件事看起来非常像腾讯当年做腾讯微博或者今天做微视)。以及不惜以巨资收购并且又连续十年补贴巨额亏损的YouTube(当今世界Top3的蓄水池)。
不过对搜索引擎的好消息可能是,在订阅关注-SNS时代,虽然像SNS这样的新玩家开始掌握增量信息的话语权,但是在商业模式的创新上,初生的他们还非常孱弱,创新不足。在商业模式上,SNS或者social media依旧采用广告模式,但是他们在分发广告的效率上,完全没法和搜索引擎比,毕竟广告也是一种信息。而搜索引擎的商业模式实在太先进了。当时的SNS和Social media除了使用时长完爆搜索引擎,在商业相关的数据上,完全没有优势。
这就是订阅关注-SNS时代的这些新贵只冲击了一些垂垂老矣的门户新闻站和颠覆了传统非互联网媒体行业更多一些。搜索引擎的商业基本盘完全没有撼动。
不过使用时长的优势也给新贵们留下曙光,直到全新的时代来临,新的大杀器被研究了出来。
4/推荐算法-Feed时代
现在的我们都知道,新的大杀器就是:推荐算法。不过应该出乎很多人的意料之外,这个大杀器其实相对它大杀四方的时代,并不能算多新的技术。
所谓推荐算法这个东西,本质上就是“向用户推荐信息的算法”。之前就说过,Google搞出了PageRank这样一个排序算法,来分辨哪些网页的价值更大,这本质上就是一个广义的“推荐算法”,因为Google会把他们认为价值更大的网页排在搜索结果的前列,推荐给用户。
而目前最流行的“协同过滤算法”其实早在90年代就诞生了,Amazon很早就在使用协同过滤算法,而当下使用基于“内容”的协同过滤算法大概是在2003年开始被Amazon使用的(当然,Amazon当时主要是基于“商品”做协同过滤,对推荐系统发展有兴趣的朋友,推荐阅读《推荐系统实践》一书,作者项亮)。
要说推荐算法-信息流时代是怎么崛起的,还要从在2006年说起。
Facebook发布了全新功能NewsFeed,而最初的NewsFeed,就配备了“推荐算法”,当时的算法叫EdgeRank,最初的算法非常糙只是对不同内容类型做一些简单的加权,但是随着时间的推移,Facebook开始不断优化他们的算法,比如采用更复杂的计算维度和加入机器学习,当时Facebook还抄袭社交网站Friendfeed的点赞设计(赞的设计对推荐算法来说是个划时代的设计,有了赞机器学习的算法才有判断推荐满意度的重要参照物。当然最后Facebook09年收购了Friendfeed,抹除了各种意义上的威胁)。
被推荐算法加持的Newsfeed变得越来越好用,用户不再按照单纯的订阅维度来消费信息。于是该功能上线不到两年时间,Facebook就从日活跃用户不到Myspace的一半迅速在活跃用户的数据上迅速超越了Myspace。这是推荐算法第一次在信息分发中展现其惊人的威力。
于是最先进的互联网信息公司都开始配置推荐算法这个武器。不管是YouTube、Twitter甚至做长视频的Netflix。推荐算法一下子成为了当时互联网产品的必备功能。此时的推荐算法-信息流,还只是一个附属于产品的一个功能,完全基于围绕推荐算法-信息流设计的产品这个时候还没降临。
说起推荐算法和信息流,其实feed这个词被翻译成流是一件非常奇怪的事情。虽然用“流”来形容feed确实挺形象的。不过我查阅材料的时候发现,我的朋友潘乱的公众号乱翻书上曾经记录过一件事情,就是早在扎克伯格创立Facebook之前,他和他的同学德安杰洛(Facebook CTO,Qura创始人)一起写了一款使用推荐算法的音乐播放器,然后为这个个性化推荐算法申请了一个专利,当时在专利申请文件中,他们用了Stream来称呼这个算法输出的推荐结果串。而Stream这个词直译就是“流”。
有了推荐算法,信息流革新商业模式,甚至成为能够独立存在的产品形态,建立一个全新的时代只差一步之遥。这一步的启发来自Pinterest。Pinterest诞生在2010年,它是一款图片分享工具,诞生的时代移动互联网即将进入全面爆发,尽管当时Pinterest还是一款网页产品。
Pinterest和他的前辈flickr最大的不同有两点:
flickr的图片主要来自用户上传,然后让用户分享、转发和评论;而Pinterest的图片除了来自用上传,他们还会使用蜘蛛爬虫爬取网络上的图片,然后通过标签分类把图片进行识别过滤分类(Pinterest最大的爬取源就是flickr);
Pinterest呈现结果的页面是采用了一个向下滚动无限加载的不用翻页的交互设计,在中国国内人们管这个设计叫“瀑布流”(infinite scrolling)。
Pinterest的瀑布流设计成为了后来的图片网站的标配
前者让Pinterest拥有远多于flickr的图片储备,而后者为之后的移动时代信息流产品的做了一个划时代的设计范本。
我曾经在2018年写的《Gamification浅析》一文当中详细阐述过推荐算法+无限瀑布流设计如何启动人类的“斯金纳强化”,使人进入“心流”状态。而这个设计在加上一点点创新,就开启了推荐算法-信息流模式能够对抗搜索引擎的商业模式。
可以由推荐算法+无限瀑布流设计激发的心流
搜索引擎的理论广告位的理论上限虽然非常高,但是搜索引擎有个致命缺陷,那就是一个人使用搜索引擎的次数其实非常有限。这个限制是由“人能清楚的知道多少自己不知道什么”决定的。这句话听起来有点绕,展开说就是,人必须知道自己现在要找什么,然后要找的这个信息,还得是自己不知道的,人才会有机会去使用搜索引擎。换句话说,搜索引擎的使用场景就像词典(Google在二级市场上的伞形公司壳公司也确实叫Alphabet,意思就是词典),人查阅词典和百科全书的机会和无所事事的时间比,实在是太微不足道了。
而采用完全主动出击思路的推荐算法型产品,是专门设计给用户不知道自己应该找什么的场景使用的。也就是说,这个解决方案在分发长尾信息的效率不上,要比精确的搜索引擎高出好几个数量级。
而采用这个设计最早最出名的互联网信息产品,应该就是今日头条了。这可能也是中国互联网产品在这整个互联网信息分发史当中,第一次有在产品理念的先进性上领先美国的案例。这款产品的诞生可能也是中美互联网copy to China到copy from China的分水岭,是中国互联网综合创新力的一种具象展现。
在推荐算法时代,中国摆脱Copycat的位置
这里我们还要明确一件事情,很多人会把推荐算法当做推荐算法-信息流类产品的唯一能力。这种认知实际上是有很大问题的。
就像我前文说的,互联网信息分发的演化过程,实际上有些类似生物的演化过程,随着互联网用户的增长和网络上信息总量的增加,我们不断需要更高效更先进的信息分发解决方案。但这个解决方案并不是覆盖式的,新的技术应用出来,直接淘汰过去的技术。这个过程是叠加式的,新的技术应用出来,结合更新的商业模式创新,叠加成一个更先进的信息分发解决方案,这个方案会包含过去发明出来的有效解法,整体是个更完整复杂的体系。
实际上像今日头条这样的产品,就是一个聚集了分类目录、搜索、关注订阅、推荐算法的综合型信息分发产品。
我相信,在未来会出现更新更高效的互联网信息分发产品,也会遵循这个“进化规律”,不论这个产品是在5G还是6G时代下的,是移动App还是个VR/MR应用。
而互联网这个比特镜像的世界,一定会驱动我们人类不断向前进。
写在最后的话:
会写这篇文章其实还是前几天去参加了今日头条的生机大会。头条的新任CEO朱文佳在开场主题演讲的时候,用了一张图描绘了一下今日头条的业务边界扩展的逻辑。
今日头条业务边界的“一横一竖”
当时我就想起来,我在2017年的时候写《抖音的野望,快手的危机》的时候,我曾经也画过一张描绘从社交到媒体的不同内容产品形态变化的图。
这张图基本反映了我对整个基于关系链的内容形态变化的理解。恰好这个轴与朱文佳所画的横轴有些近似,所以我就想写一篇讲讲竖轴是怎么随着时代发展过来的科普文。
本文系作者在时代Java发表,未经许可,不得转载。
如有侵权,请联系nowjava@qq.com删除。