09 技术奇点——人工智能的自我挑战

机器人颠覆人类是很多科幻故事的主题,但对于“担当身前事”的科学家来说,他们聚焦的依然是当下人工智能面对的挑战和瓶颈。而这体现的依然是人的智慧。

目前全世界数据的爆发近乎失控,要想将数据进行分类计算需要极大的革新。从根本上说,人类尚未完全适应数据化生活,正如肉身至今也没有适应大工厂机器流水线的节奏一样,这是深层矛盾的来源。

矛盾就是动力。在某些方面,我们可以看到今日的矛盾和工业革命时代有类似之处。

飞梭与珍妮机的纠缠关系就是代表。1733年,飞梭的发明使织布速度大大加快。但问题马上来了,织布需要原料——棉纱,而纺纱的速度赶不上织布,只能依靠增加纺纱工和纱锭数量来弥补。1764年,让纺纱效率成倍提高的珍妮机被发明出来,纺纱的速度终于赶上了飞梭吃原料的速度。沿着珍妮机的思路,卷轴纺纱机和走锭精纺机相继诞生,这下轮到飞梭织布速度不够了,于是又推动了水力织布机的发明。两者在技艺上交替上升,互相激发。差不多同一时候,瓦特的蒸汽机出世,蒸汽原力觉醒,纺纱和织布部门都争相引入这股泥石流。工业革命就在无数机械的同声共鸣中一往无前,生生不息。

如何跨越数据的“马尔萨斯陷阱”

今天的人工智能与数据的关系也类似飞梭与珍妮机的关系。过去,人类构思出机器学习的方法,却苦于没有足够多的数据来验证和训练。互联网大爆发终于使数据不是问题,但如何处理爆发式增长的数据又开始考验硬件能力和计算能力。

巨头的数据烦恼

最早学会享用数据“螃蟹”的勇士之举,成就了BAT等大型互联网企业。巨头都曾对如何处理海量数据有深刻体会。

阿里巴巴早期使用Oracle数据库进行数据存储。这种互联网1.0时代的数据库架构很快就难以承受电商数据的爆发式增长。阿里巴巴不得不彻底换血,重金打造和使用自己研发的数据库。

京东在2013年以前经常因访问量暴增而造成服务器瘫痪,不得不更新后台架构,用java技术取代.net技术。

中国老百姓感受最深的应该还是几年前12306网站的购票灾难。过年要回家,这是融入中国人血脉的传统。但这样一个人口大国,每到春节就会上演“数字”灾难。对于实体世界中的火车线路来说,这是运力矛盾,每个人都感受过挤在车厢中动弹不得的痛苦,没有尊严,仿佛一个个冰冷的比特。这种矛盾通过高铁建设逐渐缓解。但同样的拥挤转移到了网络上。为了方便购票,铁道部对购票系统进行信息化升级,12306网站上线。不过当时并没有料到互联网化带来的数据挑战是什么。本想方便群众购票,却首先创造了不方便——上亿人同时查询、购买车票的行为让服务器迅速卡死。很多批评声音出现,认为程序员无能,认为换上电商工程师就能解决这个问题。

但真正关键的因素还是处理能力跟不上数据发展。有人专门比较了电商网站与12306网站。“双十一”时,淘宝等电商网站虽然也承接了海量人群的下单行为,但是这些单子被分布到数量巨大的商品上,彼此之间相关度很低,计算量也被服务器分摊了。火车票则不同,全国的班次就那么多,而火车票的抢购中,每一趟火车的千余个座位很可能面临数万甚至数十万人的抢购,火力极其集中。每发生一次购买行为,出票系统不但要分析该车次所有站点的数据,还要计算数十倍于车次出票数的抢票顺序数据,并实时更新沿线车站的可售票数,可以说是牵一票而动全身。数据和计算量呈几何式增长,而且一切还都要在瞬间完成,即便不计成本地投入更多服务器也难以解决。这种难题是大电商也没有遇到过的,直到后来探索出新的计算架构和方法,才得以缓解。