金准数据深度学习技术研究-飞
发布时间: 2023-07-06

1.技术演进

深度学习(Deep Learning),是目前人工智能领域最流行的技术。具体来讲,深度学习模型由一系列相互关联的神经元组成,经训练后得到关联权重,数据通过整个网络便可自动得到更具有语义的特征表示,进一步可以直接用于分类图像和语音,甚至是控制无人机或是无人车。

深度学习试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象,与目前的人脑模型接近,符合人类层次化的组织概念、由简至繁分层抽象的认知过程。深度学习可以模拟人脑从外界环境中学习、理解甚至解决模糊歧义的过程。与浅层学习相比,深度学习最大的不同在于利用简单的神经网络实现更层次化的特征表示,取代人工挑选的复杂特征(即特征工程) 表示,并能够在具体任务上达到更好的效果。

深度学习的概念并不新颖,但直到近年才得到认可。业界普遍认为,是超大规模训练数据、复杂的深层模型和分布式并行训练造就了今天深度学习的繁荣。具体来讲,包含多个隐藏层的神经网络,利用现在的高性能计算机和人工标注的海量数据,通过迭代得到超过浅层模型的效果。深度学习带来了模式识别和机器学习方面的革命。

图表1  神经网络发展时间线

目前的深度学习模型可以分为神经网络和深度模型两条发展路径如下表所列。

图表2   神经网络方面的发展

1943 年McCulloch 和Pitt 设计的人工神经元

1958 年Rosenblatt 提出感知机

1979 年Fukushima 设计最早的卷积神经网络,已经具备了多层卷积和池化,但是训练方法上还存在缺陷

1985 年Hinton 将反向传播引入神经网络训练,发现可以得出带有语义的网络结构

1985 年业界提出认知学问题:人类是否也是类似的依赖神经元连接来进行认知

1989 年Hinton 提出自编码 (Auto Encoder)

1999 年Hinton 等人提出受限玻尔兹曼机

1965 年乌克兰数学家Ivakhnenko 发表深度前向多层感知器

1971 年Ivakhnenko 设计八层网络

1986 年Dechter 将深度学习引入到机器学习领域

2000 年Aizenberg 等将其与人工神经网络结合

在应用方面,第一个成功的例子是1989 年LeCun 利用卷积神经网络结合反向传播训练方法进行手写体识别,后期推广到全美支票识别。然而由于人工智能行业整体的不景气,训练速度和规模受限等问题,包括1997 年Hochreiter 提出的LSTM 等技术的应用不如1995 年Vapnik 提出的支持向量机方法广泛。

21 世纪初,伴随着信息革命的发展,计算机性能大幅提升,大规模并行计算设备如GPU 等的出现,使得深度学习模型的训练过程可以提速千倍,在同等海量数据规模的情况下,其表现超过了支持向量机等浅层模型,并随着数据的增加可获得持续改进,业界对其应用前景的评估日益乐观,开始源源不断地投入深度学习的改进中。

2.深度学习的三个里程碑

任何技术的发展过程,都伴随着一些重要的突破节点,在深度学习技术方面,可划分为模型初步、大规模尝试和遍地开花三个阶段。

2006 年前后,深度模型初见端倪,这个阶段主要的挑战是如何有效训练更大更深层次的神经网络,曾一度因为梯度方法容易造成层次间信息损失而效果受到影响。业界尝试利用逐层预训练的方法(还有一种尝试方法是上文提到的LSTM)来解决该问题,预训练首先通过无监督学习得到一些比较稳定的特征,而后用监督学习稍加调整便可得到较好效果,最早是1992 年Schmidhuber 提出,而后Hinton 等人在2006 年改进为前向反馈。

图表3   Google 大脑计划

2011 年底,大公司逐步开始进行大规模深度学习的设计和部署。“Google 大脑”项目启动,由时任斯坦福大学教授的吴恩达和Google  首席架构师Jeff Dean 主导,专注于发展最先进的神经网络。初期重点是使用大数据集以及海量计算,尽可能拓展计算机的感知和语言理解能力。该项目最终采用了16000 个GPU 搭建并行计算平台,以YouTube 视频中的猫脸作为数据对网络进行训练和识别,引起业界轰动,此后在语音识别和图像识别等领域均有所斩获。

图表4   ImageNet 挑战赛

近年来深度学习获得了非常广泛的关注,其进展的一个直观的体现就是ImageNet 竞赛。在这个竞赛中参赛算法在数千个种类图像和视频的大规模数据上测试检测和分类的正确率快速上升。

图表5    2011 年至2015 年 ImageNet 图片分类结果

近年来,随着GPU 的提速,深层网络的很多训练过程已无需预训练就可直接进行,如2011 年Ciresan 等利用深度卷积神经网络赢得多项文本识别、交通标志识别和医学图像识别等竞赛。2012年之前,竞赛中物体的识别率一直提升得非常缓慢(低于70%)。在2012 年引入深度学习之后,Hinton 等人赢得ILSVRC-2012 ImageNet ,识别率一跃升至80%,现在已超过95%。这标志了人工特征工程正逐步被深度模型所取代。从排名来看,深度学习目前具有压倒性优势,已经取代了传统视觉方法在这一竞赛中的地位。

进一步地,强化学习也重新成为焦点,2016 年Google 子公司DeepMind 研发的基于深度强化学习网络的AlphaGo ,与人类顶尖棋手李世石进行了一场“世纪对决”,最终赢得比赛。AlphaGo突破了传统程序,搭建了两套模仿人类思维的深度学习:价值网络承担棋局态势评估,策略网络选择如何落子。

3.深度学习发展现状

3.1多家巨头力推产业布局

技术的发展离不开产业巨头的推进,深度学习也不例外。Facebook 是最早使用GPU 加速DNN训练的公司之一。深度网络和GPU 在Facebook 人工智能研究院(FAIR)推出的专门用于深度学习训练的计算平台中扮演着重要的作用。Facebook 寄希望以此推动机器智能的发展并帮助人们更好的交流,目前在信息推荐、过滤攻击言论、推荐热门话题、搜索结果排名等等已经使用了大量人工智能和深度学习的技术。在Facebook ,还有许多应用能够从机器学习模型中获利,然而对于很多没有深厚机器学习背景的工程师来说,想要利用这些机器学习基础设施,还是有很大的困难。2014 年末Facebook 发布FBLearner Flow ,试图重新定义自己的机器学习平台,把人工智能与机器学习中最先进的算法以最便利的方式提供给Facebook 的工程(世界八大奇迹是哪些?世界八大奇迹包括埃及的金字塔、奥林匹亚宙斯神像、罗德岛太阳神巨像、巴比伦空中花园、阿尔忒弥斯神庙、摩索拉斯陵墓、亚历山大港灯塔、秦始皇陵兵马俑。)师。这一平台能方便地在不同的产品中重复使用多种算法,并可以延伸到成千上万种模拟的定制试验操中,轻松地对实验进行管理。这一平台提供了创新性的功能,比如从流水线定义和对Python  编码进行自动化平行移用中自动生成用户界面(UI)试验。目前,超过25% 的Facebook 工程开发团队都在使用FBLearner Flow。其未来的改进计划包括效率、速度和自动化等。

上文提到,Google 也在深度学习领域投入了大量力量。以2011 年“Google 大脑”为契机,Google 逐年在多个内部重点项目上如广告系统、YouTube、Gmail 和机器翻译等部署深度学习,为Google 进一步改善产品质量和用户体验提供了强有力的支持。此外,鉴于开源Android 的成功经验,Google 在深度学习模型和工具方面也积极拥抱开源,目前正在大力推动TensorFlow 开源深度学习平台。Google  目前有能力快速搭建和训练基于海量数据的模型,解决真实世界中的实际问题,并在不同的平台(比如移动端、GPU、云端)部署生产模型,相关技术都以云服务API的形式提供。

图表6  Google 产品中深度学习的应用在迅速增长

就国内来讲,百度是较早引入并大规模实践深度学习的典范。2013 年,百度成立深度学习实验室,是百度历史上首个正式成立的前瞻性研究机构,致力于“让计算机像人脑一样智能”的科学研究,并推出“百度大脑”计划,支撑百度相关产品线模型的改进,近年来在搜索技术、自然语言处理、机器翻译、机器学习、数据挖掘、推荐及个性化、语音、多媒体等领域取得了大量成果,并广泛应用于百度PC 和移动端产品当中。

国内另一家使用深度学习技术的典型企业是科大讯飞。科大讯飞从2010 年开展DNN 语音识别研究,2011 年上线首个中文语音识别DNN 系统,2013 年语种识别首创BN-ivec 技术,2016 年将注意力模型神经网络应用于认知智能。

图表7  科大讯飞的深度学习之路

3.2三大领域技术革新

图表8   基于深度学习技术的创业公司

在产业界巨头和学术界精英的不断推动下,基于深度学习的人工智能终于迎来了“春天”,数不清的应用和创业公司出现,试图利用深度模型和垂直领域的积累来掘得第一桶金,主要聚集的领域有图像识别、语音识别和自然语言处理。

图像识别领域

微信