03 在大数据与深度学习中蝶化的人工智能(第3/14页)

与传统意义上的数据记录定义不同,这种数据是有“生命”的。这种记录不是客观又绝对的数学测量,也不是一板一眼的历史写作。它更像是我们身体的一种自然延伸:倾听我们的声音、拓宽我们的视力、加深我们的记忆,甚至组成一个以数据形式存在的“我”。如果说智能手机已成为人类的新器官,那么数据就是这个新器官所接收到的“第六感”。而处理这种“第六感”的新大脑正是冉冉升起的人工智能。

大数据——万物皆数

既然人类运用数据已久,而且自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现“大数据”的概念?仅仅是它所能记录和计算的数据量更多而已吗?自然数可以无限数下去,1、2、3、4,以至于无穷,但“多”是不够的,还必须具有几大特征:

第一,大数据的“大”。毋庸置疑,这个“大”相对于人类传统数据的储存方式,不是一个量级上的大小之分,而是几何量级的差距。想想百度地图上每日720亿次的定位请求,再想想互联网上每天有多少次点击、社交媒体上每天有多少文字和图片发出……各种大数据平台一天之内收集到的数据量就可以超越人类几千年来文字、图像的总和。

第二,大数据的另一个重要特点是多维度。多维度代表着大数据可以对一个事物进行多方位的描述,从而更准确。

在电影《谍影重重》里出现过一个大数据公司,能够根据互联网数据、交通数据、历史档案等各种维度的数据帮助美国中央情报局(CIA)迅速追踪和定位疑犯。现实中美国的Plantir数据公司便是如此帮助美国政府追踪本·拉登,提供反恐信息和社会危机预警。它们更常见的业务是识破金融诈骗。

以金融征信应用为例,传统金融机构在进行征信时,一般采集20个维度左右的数据,主要包括年龄、收入、学历、职业、房产车产、借贷情况等。然后综合评分来识别客户的还款能力和还款意愿,决定信贷额度。

互联网公司采用大数据方法,所获得的维度可以让传统银行吓一跳。BAT都开设了自己的金融服务,因为拥有全面且巨大的用户数据,可以查询客户的各种线上记录,比如是否有批量申请贷款等异常行为;还可以将客户信息与互联网全局信息比对,通过欺诈行为模式的比对分析其可信度;更进一步,还可以分析客户的消费行为和习惯,结合填报收入分析还款能力如何。当然,作为用户的隐私,这些数据都不会被公开,用户所能感受到的便利是征信排队时间极大地缩短了,因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核,迅速核对数万个指标维度。

对一个陌生人进行征信就好比“盲人摸象”,传统方法是通过20个“盲人”去评估一个客户的信用“大象”,注定是有缺陷的。而大数据的多维度就如同几万人同时“摸象”,再把这几万人的反馈汇总到一起。维度越多,结论就越准确。

第三,处理非结构化数据的能力。结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现(想一下常见的Excel表格),处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据,大大提升了数据维度。