03 在大数据与深度学习中蝶化的人工智能

在历史的重复中变化

当我们谈论数据的时候我们在谈什么?

在大部分人的日常印象中,数据这个词代表的可能是每月的水、电、煤账单上的数字,或者是股票K线图上的红绿指数,还有可能是电脑文件里那一大堆看不懂的源代码。

人工智能眼中的数据含义远比这些广泛。数据的存在形式随着人类文明的发展不断改变,从最初的声音、文字、图画和数字,到电子时代的每一张图像、每一段语音、每一个视频,再到如今互联网时代人类的每一次鼠标点击、用手机时的每一次手指滑动,乃至每一下心跳和呼吸,甚至还包括经济生产中的一切人机动作、轨迹,皆已融入数据流。

不管是浩瀚永恒的引力波,还是复杂细微的DNA,今天的人类已经能够将各种或宏大或微小的事物转化为数据记录,变成我们生活的一部分。数据已经浸染我们生活的每一个细节,就好比生物学家认为人体组织的一半是由微生物组成的,在数字时代,我们生活的一半已然是数据。

历史总是螺旋式前进的。让我们回溯过去,远在人工智能诞生之前,人类在漫长的岁月中也践行着对于数据的发掘、计算和利用。

五千多年前,古埃及人就通过观测记录星象的位置总结出规律:每年当天狼星清晨出现在东方地平线上的时候,尼罗河便开始泛滥。他们照此制订农业耕作的计划,并且将这个周期进行总结,确定了一年365天的太阳历。遥远的天狼星与地球并无任何因果关系,只是出现在那个位置的时候,正好地球运转到一定的节气——这正是大数据时代的相关性计算的前身。

四千多年前,在今天英国的土地上出现了巨石阵——每块重达50吨的大石头组成了一个圆阵。这是一块原始钟表,夏至的时候,它的主轴线、通往石柱的古道和早晨的第一缕阳光就会处在同一条直线上;往相反的方向,冬至日的最后一缕阳光也会穿过石门。古人用笨重的石头仪表点燃了数据测量的曙光。与中国的日晷一样,这便是最早的数据可视化技术。

图3-1 巨石阵

资料来源://baike.baidu.com/pic/%E5%B7%A8%E7%9F%B3%E9%98%B5/1179755/0/6d81800a19d8bc3ed2257b32808ba61ea8d3451c?fr=lemma&ct=single#aid=17270777&pic=ac4bd11373f08202f436987e4efbfbedaa641bce

两千多年前,托勒密研究天地运动得出三大定律,为天文学打下基础。他的方法很有趣,一言以蔽之,是错误的方法里蕴藏着正确的思路。原本他误以为天体运动的轨迹是圆形,而实际上天体以椭圆轨迹运行。为了强行用“圆”函数来表达天体的实际运动曲线,他采用多个圆形的嵌套运动模拟出天体运动。他模拟天象使用的嵌套圆圈多达40个,相当于用多个圆运动函数来拟合成一个总体函数。这已经有了最早的拟合函数思想。

什么是拟合函数?当数据很多时,我们可以把数据想象为一个坐标系中分布的很多点。怎样寻找一个函数,使其曲线能够穿越尽可能多的点呢?如果这些点分布很规律,比如呈线性分布,就可以用线性方程描述。

图3-2 用线性方程表示函数

注:左图中分布的点可以用右图中y=ax+b形式的线性函数来近似表达。

如果分布点形成一个抛物线形状,那么函数也很容易得到,就是X2=2py的形式。但是如果这些数据点分布看上去很不规则时就很难找到一个单一函数。现代人想到用多个函数叠加的方法来模拟出一个总体的函数。调节每一个函数的权重,从而能够让叠加函数曲线尽可能多地穿过这些点。托勒密记录了大量天体运动的数据,然后尝试用叠加多个圆函数的方法模拟出椭圆轨迹的函数,以便把他记录的数据都包括进来。拟合函数方法适合从大量离散的数据记录中找寻规律,而这正是今天人工智能的基础,机器学习的基本数学方法。