机器智能的算力和数据如何实现规模化突破

回到今天看互联网、计算机与智能技术的发展,我认为第一个真正被验证过的就是搜索,互联网的发展拉动了搜索技术的发展。搜索是第一个实现算力、数据规模化的软件,它依然满足冯诺依曼架构的设想。其实,搜索最开始被提出来的时候就是为了解决海量数据的计算效率问题,最早由雅虎发明,后来 Google 通过 PageRank 算法做了改良,以更好的体验创造了巨大的市场。正是因为在互联网广告领域发现了巨大的市场需求,才使得源源不断技术投入到搜索领域。正是因为对于搜索技术的沉淀,使得算力和数据的规模化问题得以更好地解决,也就形成了云计算和大数据。

传统思路无法思考新技术的估值问题,对于创新的技术,很难对它形成正确的估值,因为技术迭代速度非常快。比如当蒸汽机出现之后,很快又出现了铁路、轮船,因此对蒸汽机进行估值时,很难想象后面会出现多大的市场,对世界和社会形成多大的改变,这就是创新的力量。所以说只有技术创新才是在创造新的财富,因为它增加了产能,再通过资本的投入不断扩大规模。因此,在研究技术的变化、迭代时,很难想象一个新技术出来之后会创造怎样的新需求,所以难以通过一套成熟的方法评估一项新技术未来的潜力空间。

今天,如果想要在企业的竞争中具有更好的竞争力,需要从资源角度去思考对每项新技术的看法。比如在工业时代,其实出现了一次自然资源的大发现,英国最早使用木材作为生产生活的主要燃料,后来因为木材减少才开始使用煤炭,但直到蒸汽机发明之后,煤炭才被大量开采出来。工业革命诞生在英国还有一个很重要的原因是英国的煤炭比较多并且方便开采,离海岸线近,比较容易运输。在古代中国,煤矿主要在内陆,而经济最发达的地方在长三角,在没有铁路、轮船的情况下,将煤炭运输到沿海地区的成本很高,所以煤炭没有成为古代中国经济发展的重要材料。当蒸汽机出现之后,煤炭成为了重要的战略资源。同样的事情也发生在石油出现之后,美国克利夫兰因为附近的油田从小城镇发展成为一个工业化城市,也正是在这里洛克菲勒拿到了第一桶金。电力发展上也一样,1886 年,美国决定在尼亚加拉瀑布上建设一个水电站,输送十万马力的电能到距离 26 英里外的布法罗市。瀑布在电力发明之前,只能被当做壮观的自然景观,而当电力系统发明之后,就会发现瀑布的水落差是非常重要的自然资源,而谁占有了这样的资源,谁就拥有了巨大的财富。对于自然资源的垄断或攫取,能够让企业或者国家在竞争上处于优势位置,因此有必要从自然资源的角度重新看待新技术的发展。当一项新技术出现之后,创新实际上是需要讲究市场规模的。而对于时代的改变来说,创新的规模才是最关键、最本质的事情。

回到计算机的发展,最开始的电子管还会发光发热,存在巨大的能耗问题。后来发明了晶体管,硅就成为了一种新的自然资源,而这种材料在地球上到处都是,使得新造晶体管比维修电子管更加便宜,这就导致了商业模式的重构。由此可见,自然资源会决定很多事情。

对于计算机、AI 的发展而言,算力和数据都是重要的生产资料。算力涉及到晶体管、存储网络等,而数据则需要当做一个新的自然资源重新思考。在信息时代,计算机的发展就是出现了各种各样的数据库,通过计算机取代了许多需要人工的填表工作。而在智能时代,一些低门槛、低复杂度的事情都可以被计算机自动完成。回过头来看,计算机在信息时代对算力和数据利用的规模都比较小,PC 时代所使用的算力和数据可能仅仅来源于自身,但在智能时代的软件操作,利用的可能是云计算海量的数据和算力。因此,今天新的软件才能解决不一样的问题,它对效率的提升会是信息时代的无数倍。云计算有效地完成了算力的规模化,数据的规模化曾经期望通过大数据来完成,但目前大数据并没有得到充分应用,各行各业依然在处理小数据。今天我们谈论机器智能到底应该设计成什么样的软件,其实应该看这个智能软件到底消耗多少算力和数据,从规模上来判断。如果一个智能软件没有消耗非常多的算力与数据,很难想象它能够提升非常高的产能。

要实现数据的规模化,其实最重要的就是 IoT。今天,通过大量的 IoT 设备,会源源不断地采集海量的数据,数据规模远远大于人工填表时代所产生的数据规模。人工填表采集的数据依然认为是信息时代采集的数据,而 IoT 设备采集的数据则是满足智能时代所需数据规模的基础。数据要想成为自然资源,规模很重要。

对于数据的成本而言,AI 的成本高是因为数据成本非常高。算力成本通过晶体管、集成电路、云计算已经有效地实现了规模经济,可以在实现路径中逐渐收敛,并且符合摩尔定律。而数据成本依旧非常高,这主要有几点原因:第一,对很多 AI 算法而言,数据打标的成本非常高,往往需要人工参与,因此整个学界和产业界都在思考如何让机器自动打标签,进而有效降低数据成本。第二,IoT 设备以及全链路数据采集的成本过高。IoT 设备不生产数据,而是采集数据,通过 3G/4G/5G 的发展降低了设备数据采集链路的成本。数据采集之后,还需要考虑如何存储和加工,需要综合考量成本,也需要和上层的应用软件形成互动,所以人工数据治理也浪费了大量时间。只要需要人工参与,效率一定不高,成本也会上升。因此,学术界和产业界也在思考如何让机器自动进行数据治理,解决数据的质量问题。当这些全部完成之后,才能让数据成为在智能时代能够被有效使用的自然资源。

本文系作者在时代Java发表,未经许可,不得转载。

如有侵权,请联系nowjava@qq.com删除。

编辑于

关注时代Java

关注时代Java