09 技术奇点——人工智能的自我挑战(第2/5页)

BAT中最早面临大数据冲击的还有百度。“百度一下,你就知道”,全民搜索行为将海量数据发向百度服务器。日夜增长的网络信息也让百度内容爬虫疲于奔命。百度采用了预搜索和相关词搜索等方式缓解服务器遭遇的瞬时数据冲击问题。预搜索方式下,系统在搜索请求数量较低时(如凌晨)也在自动搜索并把搜索结果固化。在用户发送搜索请求时,系统就将已经整理好的结果推送过去,不需要服务器再把搜索任务跑一遍。相关词推荐也是利用系统相对空闲的时间以及功能架构清晰的数据库系统,对用户数据行为做相关性分析,比如当用户在搜索输入框输入TPP(跨太平洋伙伴关系协定)三个字母时,搜索框就会自动弹出下拉菜单提供搜索选择,比如:TPP是什么意思、TPP对中国的影响、TPP12个成员方、TPP协议等。当然,系统也会猜测少数用户表达的是“淘票票”的拼音缩写,也会列在非优先位置供用户选择。这些选项排列可谓善解人意,且能满足大多数人的需求。

在搜索结果页面下方,百度还提供了相关词搜索,比如美国新总统大笔一挥,签字退出前任费尽心机达成的TPP。这条新闻的相关搜索如图9-1所示。

图9-1 TPP相关词搜索结果

此外,搜索引擎还根据网友搜索热度排列出与TPP相关的热搜新闻,方便用户获取信息。

图9-2 与TPP相关的热搜新闻

这些都是通过对大量用户搜索的统计做到的,从而大大优化搜索体验,提升搜索速度,缓解数据处理压力。

可以说,数据引发的问题千奇百怪。数据并非均质的比特,而是和各种特殊人类活动场景相关,使得数据处理面临各种挑战。但从根本上来看,还是珍妮机与飞梭的矛盾——硬件的所有进步都会立刻被计算量和数据量吃掉。虽然硬件能力发展速度也很快,以相同成本下每18~24个月翻一番的速率增长(也称为摩尔定律)

Ian Goodfellow,Jonathon Shlens(乔纳森·舍琳)和Christian Szegedy在论文《Explaining and Harnessing Adversarial Examples》中给出了一个典型:

图9-5 深度学习对抗样本

资料来源://arxiv.org/pdf/1412.6572v3.pdf

在第一张图中,原始图像是熊猫,神经网络以57.7%的置信度判断为“熊猫”。

然后人类给图片加入微小的干扰,也就是第二张图所示的噪点。使用32位浮点值来执行修改,不会影响图像的8位表示。

最终得到第三张图。人眼完全看不出差别,但此时神经网络却诡异地以99.3%的置信度判断此图为长臂猿。

因为对抗性样本导致识别错误,有人将其当作深度学习的深度缺陷(Deep Learning’s Deep Flaws)。可是加州大学圣地亚哥分校的Zachary Chase Lipton(扎卡里·柴斯·立顿)在KDNuggets(美国一个大数据媒体)上发表文章,标题针锋相对,叫作(Deep Learning’s Deep Flaws)’s Deep Flaws,即《〈深度学习的深度缺陷〉一文的深度缺陷》[5]。该文认为深度学习对于对抗性样本的脆弱性并不是深度学习所独有的,在很多机器学习模型中普遍存在,进一步研究抵抗对抗性样本的算法将有利于整个机器学习领域的进步。

科学家抓住了“进化”的脆弱性本质,将错就错,把对抗看作一种训练办法,变阻碍为动力,艰难提升。大自然的进化本身就是高度脆弱的,无数生物“程序”被大自然淘汰,因为它们“出错”了。错误,就是进化的终极工具。而智慧就是在这个方生方死的过程中艰难升起。