摘要
随着“互联网+”智能信息技术的快速发展,海量的图像与视频数据正在日益数字化驱动的生活空间进行存储和传递,人们迫切希望计算机能够帮助人类快速而准确地处理这些数据,并迅速得到想要的重要信息。显着性检测本质就是让计算机效仿人或灵长类生物在这一瞬间所做的工作,即找出图像中最引人注目和吸引眼球的对象区域,并已经广泛应用于视觉模式识别、语义分割、目标跟踪等领域,有着非常重要的研究价值。本文的主要工作和研究成果如下:
(1)针对现有显着性检测方法鲁棒检测效果较差这一问题,本文利用卷积神经网络和空间变换模块相结合的思路,提出一种新的空间卷积神经网络的显着性检测算法。利用去均值、归一化的预处理方法获取目标候选区。一方面显着性区域与场景的语义有关,设计一个具有三层卷积层的全局模型,获取相应的场景上下文信息;另一方面将空间变换网络看作是一种注意机制(attention)技术,并结合卷积层设计额外的局部模型进行训练,学习图像中比较关注的区域。将空间变换网络输出的局部置信度融入到全局显着信息图,求取特征表达最大值。实验结果表明该算法不仅在同等条件下显着检测的 AUC 值得到了提高,并且生成的显着性图聚焦点突显,鲁棒检测效果得到明显改善。
(2)考虑到上述方法中显着性计算所使用的单一尺度的局限性,在 VGG16网络结构的基础上,本文提出了一种基于多尺度学习的显着性检测 CNN 模型,用于提取图像的低级语义信息和高级语义信息,并将多层信息进行融合来获得多尺度特征。首先,设计一个结合自下而上和自上而下特征信息的 CNN 网络结构,判定图像显着性区域检测的像素大小。然后,将改进的 VGG 结构进行复制,形成三个并行网络流来处理相同输入图像的不同缩放数据。最后,建立一个 CNN 模型来确定三种结果图中每种显着图的输出权重,并利用该组权值进行加权,得到图像显着性区域。实验证明达到了良好的检测效果。
(3)根据上述算法的分析与实现,基于 PyQt5 图形化编程技术,设计了一个图像显着性检测软件。通过多个选定图像的检测结果表明,该软件运行流畅、界面简洁、交互性良好,使得检测流程变得更加简便,大大地提高了检测的实时效率。
关键词:显着性检测;卷积神经网络;全局估计;局部估计;多尺度学习
ABSTRACT
With the fast development of “Internet +” intelligent information technology, huge amounts of images and video data are being stored and transmitted in the living space, which is increasingly digitally driven. There is an urgent hope that computers can help people process these data quickly and accurately, and then quickly get the important information they want. Saliency detection is to let the computer simulate the work of people or primates in this moment, which attempts to locate the most noticeable and eye-attracting object regions in images, has been widely used in such domains as vision and pattern recognition, semantic segmentation, target tracking and so on, and has shown very important research value. In this paper the main work and research results are as follows:(1) Considering that lots of saliency methods suffer from poor robust detection, this paper proposes a new saliency prediction method for global and local estimation using the combination of deep convolutional neural network and spatial transformational neural network. The candidate object areas are conformed via preprocessing methods of the removing mean and normalization. Because the saliency region is related to the semantics of the scene, a three-layer global model with convolution layer is designed to obtain the context information of the scene. On the other hand, the spatial transform network is regarded as a kind of attention technology, and combined with the convolution layer to design an additional local model for training, to learn the region of concern in the image. The output of the spatial transformer network local confidence coefficient is introduced into the global information saliency map to seek the maximum value of the feature expression. The experimental results show that the proposed algorithm improves AUC accuracy under the same condition, generates a saliency map of focus highlighting and achieves impressive robust detection results.
(2) For the above method may not extract the learning features of multiple scales for saliency detection, on the basis of VGG16 network structure, this paper proposes amulti-scaled learning based saliency detection CNN model. The model compositely considers low-level and high-level semantic information of the image, and combines multiple layers of information to obtain multi-scale features. First, a CNN network structure combining bottom-up and top-down feature information is designed to determine the pixel size of image saliency region detection. Then, the improved VGG structure is copied to form three parallel network streams to handle the zoomed-outversion of the same input image. Finally, a multi-scale fusion CNN network is constructed to further determine the weight of the output of each significant map in the three result graphs, and weighted by the group of weights to obtain the image salient area. It is proved that a good detection effect has been achieved.
(3) According to the analysis and realization of the above algorithm and based on the PyQt5 graphical programming technology, this paper design an image salience detection software. The test results of several selected images show that the software run smoothly with simple interface and good interaction, making the saliency detection process easier and greatly improving the real-time efficient of detection.
Key words: saliency detection; convolution neural network; global estimating; local estimating; multiscale learning
目录
1绪论
1.1研究背景与意义
随着计算机智能设备的飞速发展,人们在这个信息化空间中存储和传递了大量的数字图像与视频资源。尤其伴着微信、微博、Facebook等社交网络流量的不断增加,图像迅速成为日常生活中最受欢迎的一种信息传播和共享的重要载体。它比文字更加直接、形象和生动,且所呈现出的内容也更加丰富。与此同时,医学界急需海量医学图像处理方案的支持,用来快速和准确找到人体病变位置,及时有效地制定合理的治疗方案。因此,如何快速、高效地处理图像并获取有价值的线索就显得非常重要。对于怎样有效地描述图像的提示信息,是计算机视觉领域的一个研究焦点。从生理学的角度分析,人类视觉系统在面对所获取的完整信息中,只将注视焦点放在场景中关键的特定目标上,以更有效地处理视觉对象。相反,对于一些不是很感兴趣的或看起来较模糊的自然场景,人类系统对其一般采取忽略不计的策略。这种机制使得人类视觉系统能够将资源集中在场景中最相关的位置上,并将场景中吸引人类注意的感兴趣区域称为显着性区域[1].因此,如何利用计算机模拟人类的这种视觉特性,并将其应用到快速定位、搜索、识别的领域,这种行为称为视觉显着性检测,势必会为人工智能的理解以及进一步处理数字图像提供新的思路和研究途径。由于选择性注意机制的重要理论意义和广泛的研究价值,也为了从大量的图像数据中找到最“引人注目”的内容,研究人员从视觉认知的角度对它进行了大量的研究。
目前,显着性检测模型大致分为两种类型,一种是由数据驱动、独立于任务的自底向上(Bottom-up)的视觉注意模型,一种是受主观意识支配,依赖于任务的自顶向下(Top-down)的视觉注意模型[2].自底向上的模型[3,4]主要在无意识的情况下仅依据图像的基本特征(颜色、亮度、位置),然后进行分析即可得到显着性;自顶向下的模型[5]主要通过学习大量的先验知识进行显着性分析,是一个人类发自内心的“自主”处理过程。现阶段,大部分显着性检测算法都直接根据图像的底层特征值来计算显着性程度,即属于自底向上的模型[6].因此,本文工作重点是借助认知心理学、神经生物学和机器学习等学科己取得的成果,建立符合人类视觉系统特性的显着性模型,并将这些模型应用到具体的计算机视觉任务中,大大地提高检测准确率以使其更符合人的视觉认识要求。视觉显着性方法已经在目标检测与识别[7,8]、图像检索[9,10]、图像分割[11,12]以及图像与视频压缩[13]等领域得到了广泛应用。
1.2国内外研究现状
视觉注意力概念的提出最初用来阐述人眼视觉机制的多种视觉结果,特别的基于理论分析的逐渐发展,越来越多的方法将视觉显着性成功地运用到计算机视觉检测任务中,目的是定位图像中最重要的像素或区域,以吸引人类的视觉注意。基于早期的视觉显着性算法都是使用生物原理或信息论进行建模。Koch和Unman[14,15]于1985年首次提出显着特征图(简称显着图,saliencymap)的概念,是一种带有不同灰度值的二维图像,奠定了该领域算法研究的理论基础。在此基础上,Itti等[3]于1988年提出了基于金字塔计算方式的检测模型。它首次将人眼视觉系统的内在机制,用完整的模型进行表征。提取图像的三类基本特征(亮度、颜色、方向),分别得到各自的高斯金字塔图像,随后利用多尺度特征的中心-周围差异得到三种显着图,并进行不同层次的融合,从而获得显着图。上述方法尽管实现了显着性的检测,取得了从无到有的先例,但是运行效率较低、可视化检测效果一般。
由于模型对人类视觉机制的认识并不深刻,得到的结论大部分是基于实验结果的进一步臆想,显然并不是非常可靠。为了解决这些难题,研究者使用纯数学公式计算显着值,进一步地突破基于中心环绕生物原理和特征集成理论的思维定式,显着性检测精度有了质的提高。2006年,Bruce等[16]基于信息最大化原则来模拟显着值,实现了一种自下而上的注意方法。2007年Hou等[17]通过对输入图像的对数谱进行分析,提取图像在光谱域中的谱残差(SpectralResidual,SR),进而实现了一种新的检测方式。该方法独立于对象的特征、类别和其他形式的背景知识,并具有较好的普适性以及检测原始物体的能力。2008年,Guo等[18]在SR模型的基础之上,提出了一种基于傅立叶变换相位谱快速方法。它对输入图像做傅立叶变换进而提取其相位谱,并仅使用相位谱进行傅里叶逆变换,最后经过高斯平滑滤波器来获得显着区域。同时,Guo在PFT原理之上,提出了基于四元傅里叶变换(PhasespectrumofQuaternionFourierTransform,PQFT)的显着性检测模型。2009年,Achanta等[19]使用颜色和亮度的低层特征来计算显着性,从而提出一种基于频率调谐的显着性检测方法。该方法易于实现,速度快,并输出一张全分辨率显着图。2012年,Gofenman等[20]提出一种新颖的上下文感知的显着性方法,其依据心理学文献中所使用的四个准则进行算法构建,目的是识别注视点或检测目标对象。Shen等[21]提出了一个统一的模型,将传统的低级特征与更高级的指导进行整合,从而检测显着对象。2013年,Peng等[22]提出一种用于显着物体检测的低秩和结构稀疏矩阵(Low-rankandStructuredsparseMatrixDecomposition,LSMD)模型。该模型引入基于树结构稀疏诱导范数正则化的方法对图像结构进行分层描述,进而保证显着对象检测的完整性。近年来,越来越多的显着性方法[23,24-25]利用底层特征的对比度来计算图像的显着值。
其中,对比度结果就是估计图像中不同像素或区域在底层特征(如颜色、纹理、亮度及方向等)上的差异程度。根据对比度计算参考区域的不同,可以将基于对比度的方法分为局部的方法和全局的方法[26].2008年,Achanta等[25]将CIELAB空间中的颜色和亮度特征用于对比度确定,从而获得高质量的可视化效果图。2011年,Liu等[27]把显着性检测作为一个二元标签任务,使用多尺度对比度、中心环绕直方图以及颜色空间分布作为基础特征,并使用学习条件随机场来组合这些特征,从而获得该目标对象的显着区域。基于局部对比度的方法侧重于计算显着区域的边界值,所以需要在整个图像范围内考虑对比度关系。Cheng等[28]利用颜色区域对比度进行显着性计算。它利用彩色空间信息重新分配灰度等级,通过直方图计算丢弃频率较小的颜色特征,用频率高的颜色代替原有颜色,取得了较高的准确度。2012年,Perazzi等[29]利用全局唯一性与空间分布性来判定特征值,并组合这些元素对比度,从而获得可视化效果图。
2013年,Jiang等[30]通过集成三个重要的互补视觉特征(唯一性、聚焦性、物体性),进一步融合并生成显着图。其中,唯一性(Uniqueness)捕捉了外观衍生的视觉对比度;聚焦性(Focusness)显示了突出的区域往往是人们观察的焦点;物体性(Objectness)有利于保证目标对象的完整性。特别的,越来越多的深度学习技术被用来进行显着性检测,准确率得到了很大提高。机器学习本质属于应用统计学,更多地关注于如何利用计算机来估计复杂函数,能够实现从数据中进行学习。重要的是,深度学习[31,32-33](DeepLearning)又是机器学习的一个特定分支,自然具备其同样的特性,进一步地得益于更强大的计算机、更大的数据集和能够训练更深网络的技术,深度学习超越了目前机器学习模型的神经科学观点。其中,机器学习的局限性,由于在很大程度上依赖于用于学习的特性,也被称为浅学习,其特征是预先定义好的。2006年,Hinton等[33]首次提出深度学习这一概念,刺激了神经网络的第三次发展浪潮。相比之下,深层学习方法能够从原始像素数据中学习丰富的特征层次结构。在这之后研究人员提出了各种深度学习方法,主要包括自动编码(Auto-Encoder)[34],稀疏编码(SparseCoding)[35],严格波士曼机(RestrictBoltzmannMachine,RBM)[36],基于深信念网(DeepBeliefNetwork,DBN)提出非监督贪心逐层训练算法[33],并在MNIST数据集上表现超过内核化支持向量机,以此证明深度架构是能够成功的。此后,Lecun等[37]提出的卷积神经网络(ConvolutionNeuralNetworks,CNN)是第一个能使用反向传播进行有效训练的真正多层的学习结构,并提供了一种方法来特化神经网络,使其能够处理具有清楚的网格结构拓扑的数据,以及将这样的模型扩展到非常大的规模。在应用效率上,深度学习要优于传统机器学习,其繁琐的特征工程被各种可训练的特征提取器所替代。特别的,CNN已经被运用在很多视觉比赛中,并且都取得不错的成绩。2012年,AlexKrizhevsky等人[38]等在ImageNet大型视觉识别挑战(ILSVRC)中带来了惊人的表现,使用CNN模型进行自动学习图像特征,也让参与者看到了深度学习所蕴藏的巨大潜力。2013年ClementFarabet等[39]通过学习图像的层级特征进行场景图像的辨识和识别。
2014年,Wen等[40]提出利用双层深度玻尔兹曼机(DBM)判别显着性区域,增强了基于低级特征学习的能力。2015年,Zhao等[41]和Wang等[42]使用CNN来构建模型,进而学习图像数据中的丰富特征信息,都取得了较为理想的实验结果。2016年,Pan等[43]在前人研究基础上提出了基于卷积神经网络的显着性模型SalNet,得到了检测物体中显着区域的大致位置和形状,但是没能够综合思考图像的全局和局部环境对比度,所以算法结构还有待进一步的改进。在设计显着性模型时,重点就是如何获取到有效的特征表示,从而实现图像的显着性检测。幸运地,深度学习提供了这种特征自动感知的能力,所以本研究拟将该方法引入到图像显着性检测中来,并融合现有方法来优化和提高检测算法性能。经过几十年的研究与发展,视觉显着性检测机制的研究已经取得了许多成果,并且基于这些检测模型的有效性已在实际科研当中得到了验证,但是这并不代表关于视觉显着性已经是一个成熟的理论体系。相反,对于背景复杂的处理效果依然不够理想,所以如何建立更加符合人眼视觉产生机制的视觉注意显着性模型,仍然是我们研究的重点方向。
1.3研究内容及拟解决的问题
1.3.1研究目标
传统的显着性检测算法中,研究者们往往需要借助丰富的经验知识以及对训练数据的深入分析,并通过整合各种原始特征的方式,进而获得较为恰当的图像特征。然而,这样的特征提取方式不仅消耗大量的人力与计算机资源,还使得检测结果的精确度也不能得到保证。本文拟采用卷积神经网络作为显着性检测的基础模型,并在此基础上,采用高性能的机器学习方法来辨识图像中的感兴趣区域,实现显着性点的自动检测,采用半监督进行检测及学习算法的优化,进一步提高算法的检测性能,降低检测结果的错误率,进一步地为计算机视觉任务提供高效的前期辅助检测算法。
(1)自动感知和学习图像特征大部分显着性算法中的特征提取都是采取先验的方法,且不能很好的适合数据变化和大数据量的环境。本文则采用卷积神经网络作为基础模型,并借助计算机编程,实现便于分类的无监督的特征自动学习和感知方法,并对其进行特征编码以得到有效的特征表示。
(2)提高图像显着性检测定量评价的精确度由于自然图像中的多种视觉特征极为相似、显着性检测任务的训练样本有限以及模型参数也未根据检测结果进一步优化等影响因素,都将会增加结果中的假检测率,从而影响了最终的定量及定性结果。本文则采用卷积神经网络、空间变换模块以及VGG结构相结合的思路,并借助计算机编程,在最近公开的两个大型的显着性数据库上进行训练、验证以及测试实验,实现了图像显着性检测的定量评价,提高显着性检测的精确度,并对结果进行分析以确定算法的优劣。
(3)增强显着性检测的可操作性借助PyQt5提供的Designer工具设计GUI,使用PythonIDE(Eclipse+Pydev)开发工具,开发设计出了图像显着性检测软件系统。该软件实现选择已经训练好的模型来检测选定图片中的显着点,进而增强显着性检测的可操作性。
1.3.2研究内容
本文依据人眼视觉注意机制,并采用计算机视觉相关原理和深度学习技术对场景图像中人眼关注点的检测进行了深入的研究,并开发出软件系统。因此,针对鲁棒特征提取,本文从提取图像特征对比度、高级与低级语义信息两个角度出发,借助于深度学习技术,提出两种基于深度神经网络的显着性检测方法,并利用PyQt5开发出一个图像显着性检测软件。图1.1展示了研究内容的示意图。
(1)提出了一种基于空间卷积网络模型的图像显着性检测算法针对现有显着性方法鲁棒检测效果较差这一问题,本文提出了一种融合全局与局部信息深度神经网络表示的显着性提取方法,使之能较好的学习图像里的各种特征。首先,使用数据预处理方法获取目标候选区,而不是使用固定的原始数据,并作为模型的输入数据。然后利用CNN收集场景上下文信息,同时鉴于空间变换网络能够有效逼近任意方向上的曲线及边缘,将该模块嵌入CNN网络共同行局部显着性估计。接着将全局场景信息与局部显着信息进行融合,过滤出高显着性特征表达。最后在公共显着性数据库上进行训练和验证,并采用Adam方法对模型进行优化,映射得到图像的显着性检测结果。实验结果表明本文的空间卷积神经网络模型对图像具有较强的特征处理与感知能力,能够实现较好的检测效果。
(2)提出了一种基于多尺度学习的图像显着性检测算法考虑到上述方法中显着性计算所使用的单一尺度的局限性。在VGG16网络构的基础上,本文提出一种多尺度学习的显着性提取模型,提高模型对不同尺度显着区域检测的准确度。该模型将VGG网络改进为一个全卷积神经网络,并进行结构复制形成具有共享参数的三个并行的优化VGG网络,结合自下而上和自上向下特征对注释点的样本数据进行集成学习,进而发掘不同尺度的上下文信息。与传统的显着性融合方式不同,本文针对三种不同尺度的显着图的特点,使用4个卷积层和2个全连接层建立一个CNN网络,进一步地确定三种结果图中每种显着图的输出的权重,并利用该权重将采样后的三个显着图进行加权,能够较好的补充前一种方法的局限性。实现结果表明本文的多尺度学习模型取得一定程度的提取准确率,并且能够有效地检测出不同大小区域目标的人眼关注点。
(3)软件开发实现图像显着性检测根据上述分析,借助图形化编程软件PyQt5提供的Designer工具设计GUI,进一步分离界面布局与功能代码的编写,再利用Pyuic5将文件编译成。py代码,最后在PythonIDE(Eclipse+Pydev)中编码响应事件来完成应用程序的开发。
1.3.3拟解决的关键问题
本文通过分析以上的研究内容,进一步地提出了拟解决的几个关键问题:
(1)全局与局部环境对比特征提取算法研究人们生活的信息空间所形成的图像中通常包含多种视觉特征,为了解决传统的显着性检测方法无法同时计算图像中多种视觉特征所激发的显着性的问题,需要研究将分别对于全局环境对比和局部环境对比提取的深度神经网络模型,以及结合过程中将代表不同视觉特征系数的特征进行有效融合的算法,在增强图像中显着点的同时,抑制背景区域等非关键因素对于检测结果的影响。
(2)多尺度特征的学习与融合算法研究有效地图像特征的表示和提取是整个检测的关键,而上述方法只考虑了输入图像的单一尺度,不能提取多种尺度的学习特征用于显着性检测。为了解决此问题,需要设计包含自上而下和自下而上的信息的网络结构,并对注视点样本数据进行集成学习,以及多种尺度显着图合并过程中进行有效融合的算法,以便挖掘不同尺度的上下文信息,进而获得多尺度特征的学习与融合算法。
(3)用于显着区域检测的网络模型参数优化为了防止模型训练过拟合,因而需要精检测时的分类器具有尽可能低的误检率,上述两种模型是精检测中分类模型的核心算法,因而需要研究能够确保其最优检测性能的优化方法及策略,以获得最优的模型参数,从而确保检测模型具有最佳性能。
1.4研究方法及技术路线
1.4.1研究方法
对于显着性检测算法的研究,本文采取的方法涉及统计学基础、多尺度方向以及深度学习。这些特点也决定了本文的研究方法必须以经典的统计和数学分析为基础,同时借助先进的深度学习和优化算法等分析工具,来攻克拟解决的关键问题。
(1)选择CNN网络作为基础模型。有效地图像特征的表示和提取是整个检测系统的关键,而现有的大部分图像特征提取方法都是采取先验的方法进行提取,且不能很好的适应数据变化和大数据量的环境。CNN是第一个真正意义上的多层结构学习算法,利用卷积(convolution)、池化(pooling)使得参数数目大大减少,并提高了计算效率以及训练性能。特别的,给CNN网络输入其它类似的显着性数据集,其仍然保持着较小的梯度误差,得到一个与预期输出接近的实际结果。正是如此,深度学习模型才是本文任务的首选。
(2)选择GPU和TensorFlow框架。网络结构规模的大小对于神经网络来说至关重要,往往深层的模型结构对于计算机硬件的要求非常高。然而,通用GPU的出现,大大的提高了视觉显着性检测模型的处理速度,使得研究和实现深度神经网络算法变得更加方便。TensorFlow框架拥有高度的灵活性、较强的可移植性、自动求微分等特点,并且有着较多的学习资料,这对于本文代码的编写具有很大的帮助。
(3)选择自适应时刻估计(Adaptivemomentestimation,Adam)算法和随机梯度下降(stochasticgradientdescent,SGD)算法来训练模型。网络模型进行训练时,通常使用SGD、Adam等算法不断优化各层参数,不但加快了求解速度,且降低了超参数对求解过程的影响。具体而言,Adam算法获得适应性梯度算法(AdaptiveGradient,AdaGrad)和均方根传播(RMSProp)算法的优点,对梯度变化的检测可能更加精准,更适用于多模型、多情景的显着性任务。随机梯度下降的核心是,梯度是期望。同时,优化算法不一定能保证在合理的时间内达到一个局部最小值,但它通常能及时地找到代价函数一个很小的值,并且是有用的
(4)选择预训练好的VGG模型作为网络参数的提供者。本文模型实现的过程中需要一些辅助参数,如果选择自己搭建并训练,这会严重增加训练成本。因此,本文选择在大型数据集上预训练好模型,这在视觉显着性检测领域叫做迁移学习。它使用多个核大小为3*3的卷积层代替一个卷积核较大的卷积层,并通过堆叠的方式进行卷积运算,这样不但减少了网络参数,而且增强了网络的拟合能力。
1.4.2研究路线
本文首先分析每部分研究内容,研究问题模型、考虑以什么分析工具完成模型理论框架;其次要考虑模型的普适性和完备性;再次还要研究在模型框架下,增强和检测算法的有效性和实时性等问题,并通过大量的实验验证模型的可靠性和实用性等;最后与其他相关算法进行比较来证明本算法的优势之处。研究路线如图1.2所示。
据此,本文的具体研究方案确定如下:
(1)准备本文研究内容的实现工具。第一,本文选择Tensorflow作为基于显着性检测研究的深度学习框架,相关内容在本文第二章有介绍;第二,本文选择目前流行的两个大型的显着性检测数据库,对于模型的准确率起到了至关重要的作用。
(2)结合空间变换神经网络(SpatialTransformerNetworks,STN)和CNN两种特征学习方法分别对于局部和全局的良好逼近特性,构思设计如图1.2中所示的基于空间卷积网络模型的显着性检测方法。(3)由于显着物体可以有不同的尺度,并且多尺度输入的图像能够综合图像中高级与低级语义信息,所以根据能够学习多尺度特征的VGG网络,将双线性插值与VGG的变换过程相结合,研究多尺度特征系数间的统计特性,设计具有可学习的权值模型,为图像的增强处理提供更多的语义信息,使其更适合于图像的显着性检测。
(4)将准备的训练样本的特征向量作为模型的输入,通过优化算法训练检测模型,为了更好地降低结果中的假鲁棒性,提高模型算法的检测性能,引入深度学习,得到包含更多样本类别及特征信息的新检测模型。(5)最后,借助PyQt5提供的Designer工具来设计GUI,进一步分离界面布局与功能代码的编写,再利用Pyuic5将文件编译成。py代码,最终在PythonIDE
(Eclipse+Pydev)中编码响应事件以完成应用程序的开发。
1.4.3研究创新点
基于显着性检测的任务进行深度分析,本文借助深度学习技术对图像的多种视觉特征进行提取和辨识,获得了两种显着性度量方式:全局和局部特征相结合、多尺度特征学习,以现在流行的公共数据集为实际训练与验证样本数据,以采取客观的评价准则进行定量评价,并给出相应的显着性图。(1)所搭建的模型框架中都结合了迁移学习,显着减少了训练成本。同时网络的设计充分考虑了可利用的显着图数量,采取适当的网络参数作为模型的基础框架。
(2)提出一个用于显着性检测的端对端的空间卷积神经网络模型,在统一的框架中整合全局环境对比信息和本地环境对比信息。其中,利用CNN深度捕捉上下文信息,从而丰富图像的全局特征,用于突出显示显着区域内部的优势;空间变换网络用作一种聚焦注意力(attention)的策略,加在深度卷积网络之前,与CN模型共同进行端对端训练,有助于增强模型对显着区域中局部块(localpatch)的关注(focus)。并行设计不仅增强了计算效率,且不同子模块优势互补提高了检测的准确度。
(3)提出一个用于显着性检测的多尺度学习方法。该方法将VGG16改成一个全卷积网络,并对其进行复制形成具有共享参数的三个并行的优化版VGG网络进而集成自下而上和自上向下的特征对注释点的样本数据来推断显着值。同时,针对三种不同尺度显着图的特点,使用CNN网络学习三种结果图中每种显着图的输出的权重,并利用该权重将采样后的三个显着图进行加权,从而发掘了不同尺度的上下文特征信息。
(4)在算法分析与模拟的基础上,将采用PyQt5技术实现图像显着性检测软件的开发。该软件系统选择已经训练好的模型参数文件,从而检测选定图片中的显着点,使得检测流程变得更加简便,更大程度地增强图像显着性检测的可操作性。
1.5本文的章节安排
本文工作共分为六个章节,如图1.3所示。
详细章节内容如下:
第一章绪论。首先给出了选题背景与意义,总结了国内外相关研究的发展现状和目前的研究进展,并阐述了本文的研究目标、拟解决的关键问题等相关工作,介绍了本文后续的章节内容。
第二章相关研究的理论综述。首先介绍了几种常见的有代表性的显着性方法,如基于生物视觉的、基于纯公式计算的及基于对比度原理的度量方式,解释了神经网络的基础算子,并分析了深度学习中的卷积神经网络,阐述了深度学习的软硬件实现工具。
第三章基于空间卷积网络结构的显着性检测。首先给出了思路分析,并在此算法思路下提出一种融合全局与局部特征神经网络模型表示的图像显着性检测方法。
然后阐述了本实验所使用的显着性预测数据库与定量评价标准,并详细说明了模型的实现过程。
最后在实验数据库做训练与测试工作,并从定性、定量两个角度来对实验结果进行分析。第四章基于多尺度学习的显着性检测。
首先给出本章模型的思路分析,并构建了一种多尺度输入的VGG网络,用于在不同尺度上捕捉显着性目标的语义信息。然后设计了一个多尺度融合的CNN网络来进一步确定三种结果图中每种显着图的输出的权重。最后实现定性与定量的对比实验,并对检测值进行判定。
第五章图像显着性检测软件的设计与实现。首先给出系统开发概述,并对体设计进行分析,进一步的给出实现流程。
第六章总结与展望。总结了本文的研究工作,同时给出了本文所提出的两种显着性检测方法的不足以及有待改进的内容,并对未来的工作进行了展望。
1.6本章小结
本章给出了选题背景与意义,分析了国内外相关研究的发展现状和目前的研究进展,指出相关算法中的优点及不足,并阐述了本文的研究目标、研究内容、研究路线以及创新点等,最后给出本文的章节安排。
【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】
2 相关研究的理论综述
2.1 经典的显着性检测方法
2.1.1 基于生物视觉的方法
2.1.2 基于数学计算的方法
2.1.3 基于对比度的方法
2.2 深度学习与神经网络
2.2.1 神经网络
2.2.2 卷积神经网络
2.3 深度学习的实现工具
2.3.1 深度学习的相关硬件
2.3.2 深度学习开源框架
2.4 本章小结
3 基于空间卷积网络模型的图像显着性检测算法
3.1 引言
3.2 基于空间卷积网络模型的图像显着性检测
3.2.1 数据预处理
3.2.2 基于全局特征信息的学习
3.2.3 空间变换模块的实现
3.2.4 VGG16 网络结构的优化
3.2.5 基于局部特征信息的提取
3.2.6 显着性融合
3.3 实验结果与分析
3.3.1 数据库介绍
3.3.2 评价准则
3.3.3 实验相关细节说明
3.3.4 定量分析
3.3.5 定性分析
3.4 本章小结
4 基于多尺度学习的图像显着性检测算法
4.1 引言
4.2 基于多尺度学习的图像显着性检测
4.2.1 多尺度输入的 VGG 网络
4.2.2 多尺度融合的 CNN 网络
4.2.3 模型训练及实现细节
4.3 实验结果与分析
4.3.1 定量分析
4.3.2 定性分析
4.3.3 对比分析
4.4 本章小结
5 图像显着性检测软件的设计与实现
5.1 软件开发概述
5.2 软件总体设计
5.2.1 软件功能要求
5.2.2 软件功能组成
5.2.3 软件流程设计
5.3 软件实现流程
5.3.1 运行配置
5.3.2 框架界面
5.3.3 软件实现
5.4 本章小结
6结论与展望
6.1结论
在对人工智能研究如火如荼的今天,面对虚拟网络空间提供的多种多样的数据,人们开始思考如何才能使得机器变得更加智能,帮助甚至代替人类处理各种各样的事情。其中,深度学习正是应用于在这样的大环境中脱颖而出的一个研究领域,而视觉显着性的相关探索成为深度学习中的研究热点。视觉显着性检测的有关方法已经很广泛地应用在一些图像处理与分析的领域中,如基于图像显着区域的模式识别、图像分割、图像分类等应用场景。在这些相关应用中,显着性检测作为大部分图像分析技术的预处理方法,其检测结果的准确性往往对后续技术有重要的影响。因此,本文通过对显着性检测的本质进行分析,并借助于深度学习技术,提出了两种基于深度神经网络模型的显着性检测方法,同时利用PyQt5技术开发图像显着性检测软件系统。本文工作总结如下:
(1)针对现有显着性方法鲁棒检测效果较差这一问题,提出了一种融合全局信息与局部信息深度神经网络表示的显着性提取方法。由于显着性区域与场景的语义有关,该方法利用深度卷积神经网络进行全局显着性估计,克服了手工特征带来的影响;用改进的VGG16网络结构来回归出6个仿射变换参数,用于空间变换模块的实现,并将该模块嵌入CNN网络共同进行局部显着性估计,增强了模型对显着性区域中局部块(localpatch)的关注(focus);建立一个简单的CNN网络来进一步地提取已有对比显着图中的高特征值,达到不断提纯(Refine)显着图的目的。本文以端对端的角度来解决显着性检测任务,并采用Adam方法进行模型训练,在很大程度提高了模型收敛速度。实验结果表明,模型在同等条件下取得了较高的准确率,同时鲁棒检测效果也得到了很大的提升。
(2)提出了一种多尺度学习的显着性提取模型考虑到上述方法中显着性计算所使用的单一尺度的局限性,在VGG16网络结构的基础上,提出一种多尺度学习的显着性提取模型,使之能够提高模型对不同大小显着区域检测的鲁棒性。该模型将VGG网络改进为一个全卷积神经网络,并进行结构复制形成具有共享参数的三个并行的优化VGG网络,结合自下而上和自上向下特征对注释点的样本数据进行集成学习,进而发掘不同尺度的上下文信息。与传统的显着性融合方式不同,本章针对三种不同尺度的显着图的特点,使用4个卷积层和2个全连接层建立一个CNN网络,进一步的确定三种结果图中每种显着图的输出的权重,并利用该权重将采样后的三个显着图进行加权,较好的补充了本文算法一的局限性。实现结果表明本文的多尺度学习模型取得一定程度的提取准确率,并且能够有效地检测出不同大小区域目标的人眼关注点。
(3)开发了一个图像显着性检测软件基于上述两种算法的分析与模拟,借助PyQt5提供的Designer工具来设GUI,进一步分离界面布局与功能代码的编写,再利用pyuic5将文件编译成。py代码,最后在pythonIDE(Eclipse+Pydev)中编码响应事件,进而完成应用程序的开发。该软件可以选择已经训练好的模型来检测选定图片中的显着区域,并且界面简洁、可操作性良好、还拥有良好的可扩展性以备后续软件的更新与改进。
6.2展望
(1)尽管本文提出的空间卷积神经网络模型实现了轻量级架构,能够快速的计算显着性值,但是模型结构的层数较为有限,所以还需要进一步加深网络深去挖掘图像里的深层次信息,并引入弱监督学习,与其它类似的显着性数据库一起学习,以提高对特征的学习能力以及网络的泛化性能。
(2)显着性检测作为计算机视觉中的一个前处理步骤,不仅需要具备较高的检测准确度,而且时间消耗也是越少越好。本文提出的多尺度学习模型,计算复杂度较到,消耗大量内存资源,所以在未来有必要进一步研究使用别的简便模型来代替庞大的VGG结构的问题。
(3)本文对图像显着性检测软件进行了初步开发,但没做到显着性算法的离线训练及验证操作,所以还需进一步完善软件系统的功能。
参考文献
【由于硕士论文篇幅较长,此页面不展示全文,如需全文,请点击下方下载全文链接】