04 中国大脑计划:自下而上的超级工程(第4/9页)

随着语音识别而来的还有对语音特征的抓取。例如在胡歌朗读《青玉案·元夕》的上阕后,语音识别系统可以自动生成下阕。对于一些语音有特点的明星声音,目前只需录制和分析大约2000句,系统就能合成他们的声音。

目前,百度每天响应的语音合成请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户每日停留时长从过去的0.69小时增加到现在的2.21小时。未来,这一功能除了“读小说”还将给予人们情感慰藉。当家里老人和孩子想念忙碌的家人时,可以随时有“他们”的声音陪伴。

百度基于神经网络翻译模型技术的机器翻译系统正在快速学习各类语言。经过6年的积累,如今的百度翻译已经可以支持全球28种热门语言互译,覆盖756个翻译方向。百度语音可以支持粤语、沪语等方言的识别。

上帝曾伸手割裂了人类的语言统一,让四面八方的人由于语言不同而无法沟通。有了机器翻译,人类终于可以携起手来,建造出一座真正的巴别塔[1]。

图4-2 荷兰画家彼得·勃鲁盖尔绘制的巴别塔

注:使用手机百度或智能革命App扫描图片可见AR效果。

百度大脑的好视力

“视觉”承担着我们80%的信息摄入工作。在解决“听”“说”问题的同时,我们也要教会计算机“看”,即图像识别。以识别一朵花为例,用户将图片上传百度后,百度大脑将它转化成“0101”的数字流,然后输入深度神经网络,经过层层分析、层层抽象,对包括像素在内的各层信息与现有的大数据进行比对,才能重新还原并识别出它是一朵花。这种方法其实和人类眼睛的功能是近似的。

这一切都要建立在预先对图片做出分类的基础上。目前世界上最大的图像识别数据库ImageNet的图片分类有1000多类。而百度图片数据库的分类则已经达到4万类。

百度正在从四个方面推进计算机视觉计划。首先是人脸识别,通过捕捉人脸关键点形成人脸表情网,实现人脸的准确识别;其次是在类似百度地图的产品中,实现地图服务与图像智能识别技术的结合,打造数据无限逼近现实世界的效果;此外,百度无人驾驶技术也正在利用计算机视觉进行程序优化,从而使无人车的研发速度加快;图像识别还会被应用于AR(增强现实)领域提高视觉效果。

百度的人脸识别已经远远超过人类,百度资料库中有超过2亿张人脸照片,浏览识别训练量超过200万张。目前,百度大脑能够自动确定图片中人脸的数目及每张人脸的位置和大小,并支持正面、侧面多个角度。即使目标在运动中也不会降低甄别率。系统通过定位眼睛、眉毛、鼻子、嘴巴、脸颊轮廓等70多个关键点位置,能够进行像素级人脸解析,并根据人脸图像识别人的性别、年龄、表情、姿态等属性。

像AlphaGo团队一样,百度也好奇自己的技术边界在哪里,人工智能的研发体系究竟有没有偏差?为此,百度团队参加了江苏卫视大型科学类真人秀《最强大脑》,与能够裸眼区分520杯水的“水哥”王昱珩一战高下。在此前的节目中,“水哥”战胜了蚂蚁金服的人工智能“蚂可”。作为国内最强人工智能技术的结晶,百度团队为了这次荧屏上的人机对战特意优化了算法,最终证明百度团队的机器人小度确实技高一筹。

在百度人脸识别技术落地的产品中,最为“高大上”的当属乌镇的“刷脸”门禁系统。有出入资质的人将面部信息事先录入系统,今后出入任何安装有“人脸闸机”的地方,只需“刷脸”即可。