04 中国大脑计划:自下而上的超级工程(第2/9页)

研发百度大脑是一件苦差事,但负责研发的人未必都是苦孩子。这个团队里有从小玩小霸王的极客;有人的家乡还没有被百度地图所覆盖;有人在做“百度医疗大脑”的同时,重拾起学生时代对医药领域的热情;还有人一边说着“很难、很深”,一边坚持研究如何“把体验做到极致”。这种极致,有时对标的甚至是科幻。

许多百度大脑年轻的科学家都爱看科幻影视。普通人看到的是“幻”,这群博士、博士后看到的是“科”。同样是看美剧《西部世界》,语音部门的工程师高亮就说:“看剧情发展,我感到唤醒设计、声纹识别和远场技术被做到了极致。对,未来人机互动就应该是这样的!”

建设百度大脑也带有科幻成分。我们不妨先从了解其基础架构开始。

百度人工智能业务最基础的是“物料层”,有基于GPU/FPGA的云计算平台、深度学习代码平台和大数据储备。这一层提供了进化的环境和工具。最上层SaaS是人工智能的各种应用。

介于两者之间的是“人工智能基础技术层”。大脑所具备的“听说”(语音识别与语音合成)、“看”(视觉识别)、“读写”(自然语言处理)等认知功能就在这一层,大脑具备的决策规划、运动控制、预测推荐等决策功能也在这一层。

广义的百度大脑即包含了以上三层。张亚勤认为,三层的结合更体现出百度大脑的综合实力。

百度大脑是百度云的核心引擎,百度云是百度大脑的云化,云为百度大脑提供了神经元和数据训练源,百度大脑则通过云向各类产业输出服务。

具体来说,在“物料层”,百度是全球首家将GPU芯片大规模用于人工智能和深度学习领域,并规模化商用ARM(Acorn RISC Machine)服务器的公司。百度也自主研发了基于FPGA芯片的服务器。加上传统的基于CPU芯片的服务器,把这么多性能、结构、原理各异的服务器整合在一起,就需要强大的异构计算能力。通过异构计算技术、100G RDMA通信技术、高效的整机柜服务器技术,百度打造了全球最大规模的GPU和FPGA混合异构计算集群,把数十万台服务器合为一体,构成百度大脑的实体,保证了百度大脑超强的计算能力。

有了强大的硬件构造还不够,大脑中还要有内容和数据。这就好比是人类的记忆。在IaaS之上的PaaS是我们人工智能的平台,所有的样本、特征和功能都在PaaS这个层次生长。百度搜索十多年来累积的全网Web数据、搜索数据,以及百亿级数量的图像、视频、定位数据都是百度大脑不断学习、快速成长的养料。

在大脑结构和记忆内容之外,百度大脑还要有认知思维能力。系统通过深度学习来模拟人类大脑的神经元,即通过万亿级的参数、千亿级的样本、千亿级的特征训练,来模拟人脑的工作机制。这也是世界上最大规模的深度神经网络。

“人工智能基础技术层”包括语音识别、图像识别、自然语言处理以及所有的知识图谱、商业逻辑和用户画像。

SaaS层面可以看作百度大脑的触角层,会更加垂直化,深入交通、教育、金融等各个垂直行业。对百度来讲,这三个层次就是百度大脑通过云和垂直行业,给商业客户提供的一种能力和服务,更是一种营造智慧生态的能力。

百度大脑全面超越了过去的信息技术服务,比如过去只是做计算、存储和网络,大家都可以做,现在三个层面有机结合起来,灵魂就在于贯穿全体的人工智能。

通过硬件—数据—算法的联合滋养,百度大脑的能力会滚雪球式增长,越来越善于处理数据、提取知识、了解使用者、善于解决问题并获取更多的知识,实现“数据—知识—用户体验—新的数据”的正循环。