09 技术奇点——人工智能的自我挑战(第4/5页)

很多人工智能的应用涉及两个互为对偶的任务,例如从中文到英文的翻译和从英文到中文的翻译就互为对偶、语音处理中语音识别和语音合成互为对偶、图像理解中基于图像生成文本和基于文本生成图像互为对偶、问答系统中回答问题和生成问题互为对偶、在搜索引擎中给检索词查找相关的网页和给网页生成关键词互为对偶。这些互为对偶的人工智能任务可以形成一个闭环,使在从没有标注的数据中进行学习成为可能。对偶学习最关键的一点在于,给定一个原始任务模型,其对偶任务的模型可以给其提供反馈;同样的,给定一个对偶任务的模型,其原始任务的模型也可以给该对偶任务的模型提供反馈。从而这两个互为对偶的任务可以相互提供反馈,相互学习、相互提高。[8]

对偶网络利用这样一种精妙策略大大减少了对标注数据的依赖,我们从中可以再次洞见某种进化的哲学:进化是一种自我应答和自我循环的过程,从A到B,从B到A,互为镜像,但镜子并不清晰,各自掌握一半的秘密,没有仲裁,却可以在彼此猜测、参照中摇摇晃晃地前行。

深度学习的新边疆

以上两种神经网络方法只是不断涌现的新方法的典型代表。在深度神经网络方法之外,科学家也在积极探索其他路径。南京大学著名的机器学习专家周志华教授在2017年2月28日发布的一篇论文中,就与联合作者冯霁一起提出了一种创造性的算法,可以形象地称为“深度森林”(gcForest)算法。顾名思义,相对于深度学习强调神经网络的层数,这种算法重新利用了传统的“决策树”算法,但是强调“树”的层次。多层决策树的联合就形成了“森林”,通过精巧的算法设置,在数据规模和计算资源都比较小的情况下,在图像、声音、情感识别等应用上,都取得了不输于深度神经网络的成绩。这种新方法对参数设置不敏感,而且因为基于逻辑清晰的“树”方法,可能比深度神经网络更容易进行理论分析,从而避免人类难以理解机器具体运作逻辑上的“黑箱”问题。

图9-6 多粒度级联森林结构

资料来源://arxiv.org/pdf/1702.08835.pdf

表9-1 在人脸识别上的精确比较
表9-2 在GTZAN数据库中的测试精确度比较

资料来源://arxiv.org/pdf/1702.08835.pdf

据智库“新智元”向周志华教授了解,“深度森林”的方法论意义在于探索深度神经网络以外的算法可能。深度神经网络的有效运作,需要巨大的数据和计算能力,深度森林有可能提供新的选择。当然,深度森林依然向深度神经网络借鉴了关键思想,比如对特征的提取和构建模型的能力。所以,它依然是深度学习的一个新颖分支。

中国科学家在人工智能研究方面有很多世界领先的成果。我们认为,自信心与开放心态将是促进科学进步的重要动力。

如今,各大研究人工智能的科技公司都提倡共享算法代码。其中以谷歌的Tensorflow深度学习开源平台影响最广。但是很多深度学习科学家认为,从生态的角度考虑,应该有多个深度学习代码平台平行竞争才会有利于繁荣发展和平衡,不可垄为一尊。除了Caffe和Mxnet等深度学习开源平台外,百度在2016年9月开放了全新的PaddlePaddle深度学习开源平台,采用新架构,对序列输入、稀疏输入和大规模数据的模型训练有着良好的支持,同时支持GPU运算,支持数据并行和模型并行,仅需少量代码就能训练深度学习模型,大大降低了用户使用深度学习技术的成本。多元的共享平台支持机器学习工作者从不同角度训练和创造种种应用,仿佛生物多样性一样有助于人工智能的提升。