03 在大数据与深度学习中蝶化的人工智能（第6/14页）

中国人都说“民以食为天”，比起挑选电影，怎么能“吃好”更是全民关心的热门话题。2013年百度曾发布过一个《中国十大“吃货”省市排行榜》，让网友乐此不疲。这个榜单利用了百度知道和百度搜索的大数据，根据网友们多达7700万条关于“吃”的问答，总结出了各地不同的饮食习惯和特色。

海量数据中被挖掘出了不少有趣的现象：“吃什么水果减肥最快”有多达30万人提问过，看来许多网友在吃的同时还不忘顾及身材；“昨天晚上还活着的螃蟹死了，还能吃吗？”这一问题有高达6万条回复，看得出中国“吃货”对于螃蟹的热情特别高。当然更多的还是诸如“××能吃吗”“××怎么吃”这类的日常问题，光是“菠菜和豆腐能不能一起吃”就引起了无数讨论。

这些问题数量庞大并且看似混乱重复。但重复正是大数据的妙处。大数据可以从中捕捉到更深刻的含义。如福建、广东地区的网友经常会问某种虫是否可以吃的问题；而西北网友则对海鲜的吃法颇感疑惑。不同用户关心的食材、做法各不相同，百度大数据正是从中归纳出了各省市的“吃货”属性。在这背后大数据考量了网友的地理位置、提问回答的时间、问题中关于吃法或者做法等信息，甚至将网友使用的手机品牌等各种维度都纳入计算当中。

除了对人类关注信息的描摹，大数据甚至在构造我们的身体。现在许多人都十分熟悉的健身腕带，就是通过收集我们日常运动作息的数据，例如，行走步数、卡路里消耗、睡眠时长等来分析我们的健康状况并提出建议。更进一步，未来我们可以将个人数据上传，通过大数据检测我们罹患各种疾病的可能性或者潜在威胁，更好地预防疾病。

关于生活中的大数据有许多例子。我们现在用到的绝大部分成熟的互联网产品，无论是计算机还是智能手机，背后都或多或少有大数据的身影。当我们理所当然地使用这些服务时，就已经邀请大数据进入我们的生活。它默默注视着我们生活中的每一个细节，潜移默化地鼓励和劝告我们做出选择，强化了我们的角色。

突破：机器学习与人工智能

1950年，阿兰·图灵创造了一个针对机器的测试方法，即后来大名鼎鼎的“图灵测试”。这位充满传奇色彩的科学家认为，如果一台机器能够与人类展开对话（通过电传设备）而不能被辨别出其机器身份，那么就可以认为这台机器具有智能。这一简化使图灵能够令人信服地说明“思考的机器”是可能的，而“图灵测试”直到现在也被当作判断人工智能的重要标准。

这个标准已经暗示了一个新的路径，只要机器表现得像人类，我们可以不必过分关心机器的运作规则是什么。有人提出让机器自己来学习规则的办法，人类不用操心那些规则是什么。

1949年，唐纳德·赫布基于神经心理学的学习机制，踏出了机器学习的第一步，创造了此后被称为赫布学习规则的方法。赫布认为神经网络的学习过程发生在神经元之间的突触部位，突触的联结强度随着突触前后神经元的活动而变化，正确的反馈会让两个神经元的联系得到强化。这个原理机制类似巴甫洛夫的条件反射实验：每次给狗喂食前都先响铃，时间一长，狗的神经系统就会将铃声和食物联系起来。赫布用一套加权公式来模仿人类的神经网，权重就代表神经元之间联系的强弱。赫布给机器创造了一套可以简单区分事物的方法，对于每个数据，让决策树程序做出判断，判断对了就奖励（提高函数的权重），判断错了就惩罚（降低函数的权重）。他利用这个方法创造了一个分类器，可以提取数据集的统计特性，把输入信息按照它们的相似程度划分为若干类。看上去如同人类在观察某种现象时，会观察和总结并区分事物，但机器的这种“观察”更接近一种通过训练达成的条件反射，并非如人类那样思考，重视的是数据中蕴含的相关性关系，而非人类思维中的因果性关系。