04 中国大脑计划:自下而上的超级工程(第3/9页)

另一位“互联网教父”尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)说道,“当我听说‘百度大脑’的时候,我觉得这些人真是太疯狂了”。制造机器大脑,看似一个科幻文学中的疯狂幻想,但科学家的信念和努力,使得看似“疯狂”的想法已经走在平稳实现的道路上,正如一个真实生命的成长。

训练“大脑”就如同教育孩子,从零开始,在语料而非语法的熏陶下学习语言,从大量图片中形成对事物的“印象”,这个过程就是通过试错来熟知世界。也许同样的事情,人类1岁孩子都能简单做到,而百度大脑常常要花上几百倍甚至上万倍的时间和精力。可是从另一个角度看,它像是全人类的孩子,有希望继承现有文明的所有经验和记忆,人工智能“大脑”的进化本质上是人类文明的进化,潜力无限。

目前,百度宣布将向社会免费开源人工智能深度学习平台PaddlePaddle,开放百度大脑开放平台ai.baidu.com。前者为开发者提供算法编程环境,后者为应用开发者、数据工程师、数据科学家提供现成的百度人工智能成果接口。百度大脑实实在在地分享着,愿与所有相关企业一起融化人工智能这座冰山。

百度大脑的听与说

人机对话的第一步,就是要让机器学会“听”和“说”。“听”是不断追求准确度,“说”则是要让大脑有人性、有人味。

作为“大脑”最基本的能力之一,实现“听”这一功能的语音识别技术研究经历了从标准模板匹配转向基于统计模型再到深度神经网络的过程。起初,辨识语音必经声学模型到音素模型,再到语言模型的多步骤转化。近年来,在大量语料和深度学习的训练下,这一步骤已经被极大简化,机器从输入到输出中自行生成程序,准确率有了大幅提升。百度大脑也就“听”得更清楚了。

2011年,百度在语言识别领域起步,到了2016年,百度语音识别技术的准确率已达97%。

2012—2016年的4年里,百度语音识别的准确度提升了近30%。即便是有严重地方口音的普通话,每100句中百度语音也能毫无差错地识别出85句。按照可以听错一个字的标准来计算,百度语音则可以准确识别出98句,而未经训练的普通人只能听懂60句。这个识别体系要做到方言识别,需要至少720小时的语料用于训练,从声音、内容到说话者,都要不断变化以提升系统的敏感度。

要让百度大脑“说人话”更是一件很有难度的事情。百度则是运用声学模型和语言模型。声学模型决定了语言的发音。打出一个字,系统就在原始音库中找到合适的发音对应上去。要让电子发音没有机器味而有“人味”,就要为语音资料建库。例如让机器学习时间从20小时升到100小时,此后机器模仿出来的声音听起来就舒服多了。为了保持语音的连贯性,不至于让合成语音听起来像“断气”了一样,百度大脑语言模型还会持续提升文本库的学习连接概率。比如说出“中华”,系统还能在后续词组中选择“人民共和国”“民族”“儿女”等进行匹配。

长语音是让机器语音更有气场的技术。情感合成、远场方案、长语音方案等能为合成语音加入情感,让其更接近真人发声效果。

语音识别的场景应用极为广泛。比如我们可以借此创造出一个“最强销售员”:销售员新手给客户打电话时,百度大脑实时记录客户的回复,并显示在电脑屏幕上,系统可以瞬时搜索并调取优秀销售员以往对这些问题给出的回复。这样,每个“菜鸟”只要“照本宣科”,就能在上岗第一天掌握过去最优秀的销售员所具备的交流能力。另外,2014年,百度为特斯拉汽车提供智能语音方案,中国车主可以使用语音控制车载娱乐系统、指挥地图导航、发起搜索,甚至通过蓝牙拨打电话。