03 在大数据与深度学习中蝶化的人工智能(第4/14页)

非结构化数据的数量远超结构化数据,蕴含巨大能量,应用前景广阔。例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。

第四,大数据是生生不息的“流”,具有时间性。它过去就不再回来,就像人无法两次踏入同一条河流。这一方面是因为数据量太巨大,无法全部存储;另一方面是大数据和人类生生不息的行动相关,瞬息万变。百度大数据实验室因此提出一个概念叫作“时空大数据”。

地图就是时空大数据之母。百度地图有一个路段拥堵预警功能。如果前方路段畅通会显示为绿色;如果拥堵则会显示成红色,提醒用户选择其他路线。这是我们与数据互动的一个简明例子。如果我们有A和B两条路线可以选择,此时A路线拥堵而B路线畅通,那么我们都会选择B路线;当越来越多的车主选择B路线,那么B路线将会变成拥堵而A路线又会畅通。此消彼长,变化万千。依靠智能手机的定位功能,百度地图可以实时更改当前的路况监测结果,精确地告诉每一个位置用户当前自己所面对的路面情况。通过数据可视化技术和各种评估手段,可以描绘一座城市的日常脉搏,比如上下班的人流数据变化,仿佛城市在吞吐呼吸。除了被记录下来的,更多数据只在当时有效。把数据全部存储下来是不可能的,那样需要的硬盘可能整座城市的地皮都堆不下,只能即时应用,用过就消失。

与时间数据博弈是富有挑战性的工作。2016年11月,百度正式接入公安部儿童失踪信息紧急发布平台,每当有儿童失踪事件发生时,百度地图和手机百度就会把失踪儿童的姓名、面貌特征、失踪时间等重要信息精准推送给失踪地点周边的用户,使用户可以第一时间参与找回失踪儿童的过程。而在失踪儿童被寻回后,百度地图和手机百度也会及时更新结案标识,让社会各界人士随时了解进展。能将信息早1秒钟提供给用户,就能给焦虑中的家庭多一分希望。

最后一点,也是最重要的,大数据的“大”表现为无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人们周而复始的运动,才让系统能捕捉城市运动的规律。“重复”的数学意义是“穷举”。以往人类无法通过穷举法来把握一个事情的规律,只能采用“取样”来估计,或者通过观察用简单明了的函数来代表事物规律,但大数据让穷举法这种“笨办法”变得可能了。

量变促成质变,在机器智能领域,数据量的大小和处理速度的快慢可以直接决定智能水平的高低。谷歌通过数据量提升翻译质量的故事早已不是秘密。

2005年,美国国家标准与技术研究所如往年一样举办机器翻译软件评测。有许多大学机构、大公司都从美国政府申请了研究机器翻译的科研经费,这些机构需要参加这个评测。没有获得政府资助的团队或者公司也可以自愿加入,谷歌就是后者。参与评测的还包括IBM、德国亚琛工学院等多家机器翻译界老牌公司,个个实力雄厚,在机器翻译领域深耕多年,只有谷歌是初出茅庐。

然而评测结果却让人大跌眼镜:谷歌取得了第一名,并且得分远远高于其他团队。在汉译英这方面,谷歌的表现达到了51.37%的BLEU分数,第二名和第三名的公司则仅达到34.03%和22.57%。最后,谷歌公布了自己的秘诀:用更多的数据!不只是比其他团队多一两倍,而是多上万倍的数据!因为谷歌可以通过搜索引擎收集互联网上人类给出的海量双语语料数据。同样一句汉语会有很多人给出译法,计算机会通过这种重复来统计出最常用的译法。在没有更改其他主要方法的情况下,仅仅依靠数据样本的增加就训练、改造出了超越其他机器翻译一个时代的产品。谷歌能赢,实际上就是因为“穷举”能力超过了别人。