·
搜索结果:找到“图像理解”相关结果46805条
排序: 按相关 按相关 按时间降序
  • 【期刊】 一种新的基于人脸表情识别的图像理解模型

    刊名:工业控制计算机 作者:罗梓月 ; 余小清 ; 万旺根 关键词:图像理解 ; 表情识别 ; 深度学习 机构:[1]上海大学通信与信息工程学院 ; [1]上海大学通信与信息工程学院 ; [2]上海大学智慧城市研究院 年份:2018
    摘要:提出了一种新的基于人脸表情识别的图像理解模型。由于传统的图像理解模型更多地关注图像中事物之间的联系而忽略事物的具体细节,对图像的理解不够充分。针对以人为主体的图像,在提取图像特征时加入一个表情识别卷积神经网络,并改进了各层参数。实验证明,与传统方法相比,改进的图像理解模型能够识别出图像中人物的情绪,对图像的理解更加清晰准确。
  • 【期刊】 图像理解技术在交通视频分析中的应用研究

    刊名:电脑编程技巧与维护 作者:郝林倩 ; 黄金凤 关键词:图像理解 ; 目标识别 ; 语义分析 ; 人口统计 ; 密度估计 机构:福建船政交通职业学院信息工程系 ; 福建船政交通职业学院信息工程系 年份:2018
    摘要:图像理解技术是当前计算机研究领域的热点和难点,其根本任务是让计算机正确解释所感知的图像场景以及场景中的内容。对视频图像进行目标识别是该技术在智能交通方面的一个重要应用。分析了一些目标识别的不同研究方法,将目标识别分成人口统计和密度估计两个问题。描述分析了图像理解中各层次的不同研究对象,并按照该思路解决所提的这两个问题。
  • 【期刊】 基于局部视觉感知及语义联想的图像理解模型

    刊名:计算机科学 作者:周海英 ; 穆志纯 关键词:图像理解 ; 视觉感知 ; 语义联想 机构:北京科技大学自动化学院 ; 北京科技大学自动化学院 ; 中北大学电子与计算机科学技术学院 年份:2013
    摘要:在视觉感知获得图像视觉信息的基础上,提出了一种自底向上的视觉搜索与自顶向下的语义判定相联系的模型,该模型使图像区域和图像块与图像语义和图像类别之间建立感知联系,模拟注意焦点的移动,通过动眼扫描和搜索图像区域,对感兴趣的内容进行索引和存储,并在任务事件的驱动下进行联想,使图像理解融入了视觉感知和语义解释两个方面,符合人类的认知规律。
  • 【专利】 一种带有图像理解的智能语音车载交互系统

    作者:蒋雪峰 ; 蒋顺恺 年份:2016
    摘要:本发明公开了一种带有图像理解的智能语音车载交互系统,包括带有图像理解的在线智能语音车载交互系统和离线智能语音车载交互系统,所述带有图像理解的在线智能语音车载交互系统,包括车载移动终端、车载无线网关、车联网云平台和互联网,所述的离线智能语音车载交互系统,包括离线语音接收模块、车辆OBD接口、离线语音识别引擎、离线语音合成引擎、离线语音播放模块和车载移动终端。本发明提供了一种前所未有的辅助驾驶新体验,创新性地运用图像理解、自然语言理解、智能语音和网络通讯等技术,将实时综合路况信息和连接互联网的更多更丰富的用户需求响应以智能语音的形式与用户进行交互。
  • 【论文】 玉米雄穗发育状态自动观测中的图像理解与分析

    作者:陆昊 关键词:玉米雄穗 ; 语义分割 ; 纹理分类 ; 细粒度视觉分类 ; 目标计数 ; 视觉领域适应 机构:华中科技大学 ; 华中科技大学 年份:2018
    摘要:叶片、穗、果实等作物性状反映作物不同时期的发育状态。监测其生长状态对于育种、指导耕种、发育期观测、估产等农事任务具有重要意义。当前的作物性状自动观测手段仅针对盆栽等受限环境下的作物,对于田间作物目前仍主要依赖于人工观测。考虑到实验室中培育出的作物品种最终都需要种植在温室或大田中,田间观测在实际中更加重要。如何为这类传统主要依靠人工完成的田间监测任务带来自动化的解决方案是当前智慧农业发展的迫切需求。由于大部分获取的数据多以图像和视频的形式呈现,计算机视觉因而在帮助机器理解田间对象、场景的过程中扮演着重要角色。为了更好解决田间的视觉问题,研究者需要回归到计算机视觉本身理解田间环境、田间对象究竟带来了怎样的视觉挑战,并思考如何克服这些田间特有的难点。基于以上动机,本文以田间玉米雄穗为研究对象,围绕其生长过程中涉及的若干典型视觉问题,从计算机视觉的角度开展基础研究。首先,针对复杂场景下不同颜色属性对象的自动分割问题,本文提出了基于区域颜色建模的分割算法。通过融合不同粒度的超像素以及构建组合神经网络模型,算法可适用于以颜色作为主要视觉线索的语义分割任务。作物和玉米雄穗联合分割数据集上的实验结果验证了所提方法的有效性、通用性与可扩展性。其次,针对田间不同开花状态的纹理识别问题,本文首次引入了“部分开花”这一概念。本文研究发现不同开花状态的视觉差异反映到特征空间中通常表现为较大的类内差异和较小的类间差异。受最大间隔思想启发,本文提出了一种测度学习方法直接优化特征投影到低维空间后的类内类间欧式距离。在玉米雄穗开花状态数据集上的实验结果证明了提出的方法可有效提高开花状态识别率。再次,针对不同作物品种的细粒度视觉分类问题,本文首次展示了可基于作物穗的视觉特性对品种识别(相比常规基于种子的视觉特性)。在该细粒度视觉分类任务中,不同品种体现出的视觉差异更加细微。为了突出目标的局部差异,本文提出了一种由滤波器引导的卷积响应特征编码与选择机制以提取具有判别力的二值化特征。玉米雄穗品种数据集上的实验结果显示提出的方法可高效准确的对玉米品种完成识别。另外,本文首次考虑了非受限田间环境下以植物为研究对象的目标计数问题。为了克服田间目标表现出的外观、姿态、尺度及物理尺寸等差异,本文基于局部回归的思想,提出直接建立局部图像与局部计数之间的映射关系,并基于深度学习构建了局部计数回归网络模型,以数据驱动的方式学习这种映射关系。在田间玉米雄穗计数数据集上的实验结果验证了该方法显著优于当前技术发展水平。进一步,本文意识到农业背景下的计算机视觉应用存在着一个尴尬现状:受作物自然生长规律所限,农业图像数据的采集代价十分昂贵且耗时,研究人员往往只能通过历年来收集的历史数据建立模型,却需要将模型应用到尚且未知的田间场景中。年份、地域和品种的不确定性带来的内在、外在视觉差异易导致数据分布差异,从而造成模型性能显著下降。本文从领域适应的角度尝试纠正这种分布差异。基于实验中观察到的卷积神经网络特征所呈现出的模式规律,本文提出了一种无显式适应的视觉领域适应方法,可适用于任意以分类为目的视觉领域适应问题。在公共数据集与跨域开花状态识别数据上的实验结果均显示所提方法能以轻量的计算代价取得高质量的适应性能。最后,本文将所提出的相关技术集成到了一个作物发育期自动观测系统中,并展示了该系统在玉米抽穗期和开花期自动检测上的应用。在与国内各地气象站观测员2010至2015年间实地观测的结果对比后发现,该系统能取得与人工观测相当的精度,验证了本文研究内容具有实际应用价值。总之,本文希望通过以上这些围绕玉米雄穗的视觉问题为例,向读者展示田间环境下的各种视觉挑战,因为这些视觉挑战具有普遍性与代表性,会出现于多数田间视觉问题中。因此,计算机视觉是农业自动化过程中的关键技术之一,本文的研究工作以及取得的成果对于农业自动化、智能化有着重要的理论意义以及应用前景。
  • 【论文】 面向精确图像理解的深度学习与视觉注意技术研究

    作者:陈飞 关键词:图像理解 ; 深度学习 ; 深度卷积神经网络 ; 图像检索 ; 图像标注 机构:国防科学技术大学 ; 国防科学技术大学 年份:2016
    摘要:图像理解是对图像处理及其应用的一个重要方面,其主要涉及到对图像中目标的识别、检测等,通过对于图像中所含目标之间的关系进行分析,来理解图像中的内容。在实际应用中图像理解涉及到多个方面,例如目标识别、场景理解、图像中目标定位、大规模图像检索、图像分割和图像标注等。本文主要基于大规模图像检索和图像自动标注来展开相关研究。在计算视觉中,基于深度学习的图像处理成为人工智能领域非常成功的一个突破方向,其具有非常强大的特征表达能力以及学习能力,而且当前智能时代计算能力的迅速提高使得深度神经网络能够在深度和广度上都能进行扩展,来利用大规模的训练数据。在图像检索和图像自动标注这两个方面,都涉及到对图像的内容进行理解。不管是图像的相似性比较还是图像的标注问题,都是针对图像中的某些有效区域,而不是整幅图像来进行处理。本文提出基于细粒度的图像区域处理方法,来解决图像检索和图像标注这两个方面的问题。针对图像检索中的特征提取和哈希学习问题,图像的特征表示至关重要,因为它能够在最后的检索中真正保证检索结果的召回率。本文提出结合Proposal和深度卷积神经网络的框架来进行细粒度进行图像的特征表达,以进一步提高图像检索的性能。该框架的特点是面向没有ground-truth框的多标签图像数据集,首先采取无监督方法的proposal方法来产生可能包含目标的候选框,再利用深度卷积神经网络来提取区域性的图像特征表达,基于这些细粒度特征再进行图像哈希函数的学习。本文通过在三个有代表性的公开数据集上进行验证,通过与已有的方法进行对比,表明这种细粒度方法更能够准确表示图像中的有效信息,明显提高了检索结果的性能。针对图像的自动标注问题,本文提出结合视觉注意机制的循环神经网络来进行图像的标注。现有的大多方法,一种是利用手动提取图像中低层的视觉特征与已有的特征模式进行匹配,然后确定图像中有什么目标,另一种是基于卷积神经网络来进行图像中多种标签的预测。本文提出序列化地处理图像中的局部区域,对其进行准确识别,并通过实验验证了该方法的有效性,并且能明显地提高图像自动标注的结果。本文主要研究深度学习的相关技术,并结合图像理解中的具体问题进行研究,提出了新的方法并通过大量的实验验证了新方法对于解决该问题的有效性。
  • 【论文】 基于嵌入结构性信息视觉特征的图像理解模型研究

    作者:张华 关键词:图像理解 ; 结构性视觉特征 ; 图像检索 ; 图像分类 ; 图像标注 机构:天津大学 ; 天津大学 年份:2015
    摘要:随着互联网技术的发展和移动互联网的兴起,大量的多媒体信息特别是图像被上传到互联网上并且数目仍在不断的增加,这些信息将人们带入了图片大数据时代。为了挖掘海量图像数据中的有效信息及其中所蕴含的经济和社会价值,涉及到与图像相关的诸多技术,图像理解是其中较重要的一环。传统的用于图像理解的方法主要是基于词袋模型,即首先提取图像的底层特征表示,然后构建一个编码词典,最后将图像底层特征依据编码词典进行映射得到图像的直方图特征表示。虽然该方法广泛应用于图像理解的相关方向如图像中的物体识别和图像检索,并取得了一定的效果,但是基于词袋模型的表示方法会将图像中蕴含的结构信息丢失,导致图像特征表示的辨别性和鲁棒性存在一定的局限性。区别于基于词袋模型的图像特征表示方法,本论文提出了一种新的构建图像特征表示的方法,该方法将与图像相关的结构信息融合到图像的特征表示中,以此来提高图像特征表示的辨别性和鲁棒性。本论文提出了三种不同形式的结构信息的嵌入视觉特征表示方法,并将其分别应用于图像理解领域中的图像检索,图像分类和图像语义标注中。第一种方法是在基于轮廓图像的图像检索和分类的应用中,不同于传统的方法直接提取轮廓图像的特征点并构建特征描述符,在本论文中,提出了将轮廓图像所描述的物体的本身所具有的结构对称性嵌入到图像的视觉特征表示中,从而构建出包含物体对称结构的图像视觉特征表示。该特征表示能够有效的提高特征描述符的辨别性和鲁棒性。在实验中,将该嵌入对称结构的视觉特征表示应用于轮廓图像的分类和检索上,实验结果表明该方法能够有效的提高轮廓图像的检索和分类的准确度证明了结构信息嵌入特征表示中的有效性。第二种方法是在基于视觉属性的图像检索的应用中,不同于传统的方法仅考虑视觉属性查询词与其他相关视觉属性之间的共存性,在本论文提出的方法中,首先将视觉属性结构之间的互斥和共存性嵌入到视觉属性的特征表达之中。然后利用该嵌入结构信息的图像特征表示,提出了一种基于特征重建的图像检索框架,该框架能够有效的保留图像的结构特征从而能够有效的提高图像检索的稳定性和鲁棒性。实验结果证明该方法能够有效的降低查询关键词的歧义性,提高图像检索的准确度。第三种方法是在基于弱监督的图像标注的应用中,由于图像中包含有多个物体,因此传统的基于词袋的特征表示方法具有歧义性,进而无法表示图像中不同物体之间的结构关系,最后使得图像标注结果的不准确。本论文提出一种将语义标签的结构相关性信息嵌入到图像特征表示之中的方法,从而克服原始特征表示存在的歧义性。实验结果表明该嵌入语义标签的结构性特征表示能够有效的提高图像特征表示的辨别性和泛化能力,进行能够推动图像标注的查全性和准确率的提升。本论文为了验证视觉特征的结构性在图像理解中的作用,考虑到不同的应用场景下图像特征中嵌入不同层次的结构性信息:底层信息中的物体本身的对称结构,中层特征信息中的视觉属性的相关性结构以及高层物体标签信息之间的语义结构。通过不同的实验结果证明本文所提出的嵌入结构性信息的视觉特征表示能够有效的提高特征表示的辨别性和鲁棒性,同时实验结果也表明了嵌入结构性信息的视觉特征的有效性以及能够对计算机视觉中图像理解方向的发展具有一定的推动作用。
  • 【论文】 基于有监督学习图像理解中的序模型研究

    作者:武丽丽 关键词:排序学习 ; GIST特征 ; 交通拥挤度 ; 人脸美丽指数 ; 个性化排序模型 ; 混合特征 ; 散射卷积网络 机构:燕山大学 ; 燕山大学 年份:2015
    摘要:随着机器学习的广泛应用,通过机器学习解决排序问题已引起很多学者关注。本文在国内外相关研究成果基础上,探讨了一些学习排序的新思路,并为交通拥挤度和人脸美丽度估计提供一种新方法。首先,针对交通场景中拥挤度估计问题,提出基于有监督序学习交通场景拥挤度排序计算模型,利用监督学习思路分别学习交通拥挤度和平均速度两个属性的排序函数。在交通拥挤度排序模型中,首先提取每帧训练图像GIST特征,而对于平均速度排序模型,首先通过帧间差分法提取视频运动信息,然后再提取GIST特征,最后引入改进的Ranking SVM投影模型,学习得到每个属性排序函数。其次,针对美丽指数自动评价问题,为此提出一种个性化人脸美丽指数相对排序模型。首先,根据大量志愿者对训练图像的主观评分进行初步排序,可以得到通用的排序模型,然后,在通用模型基础上结合用户审美进行重排序,就会得到根据用户审美的个性化排序模型。采用GIST与HOG的混合特征类型,与Eigenfaces和Dense-SIFT单个特征类型相比,获得较好的排序结果。再次,针对提取人脸图像的美丽度信息问题,本文提出一种散射卷积网络特征提取方法,该方法能提取图像在弹性形变和平移变化的不变特征,并且对光照不敏感。小波散射变换可以区分有相同傅里叶变换的能量谱。小波散射卷积网络分层次提取图像高频信息,本文将小波散射卷积网络输出的前三层散射能量特征作为人脸美丽指数度量特征。为验证小波散射卷积网络特征提取方法用于人脸美丽指数评价系统的有效性,本文采用相对属性排序算法建立了一个人脸美丽指数排序模型。最后,本文对图像排序算法在解决交通拥挤度问题及美丽指数自动评价问题上进行了研究。在解决交通拥挤度问题上,提出一种有监督序拥挤度排序算法,在解决美丽指数评价问题上对此算法进行了改进,提出一种个性化人脸美丽指数排序模型,并将散射卷积网络用于提取人脸美丽度特征。
  • 【期刊】 基于视频图像理解的中国象棋棋子识别

    刊名:中南民族大学学报:自然科学版 作者:娄联堂 钱磊 段汕 贺兴 关键词:棋子识别 图像理解 先验信息 特征 机构:中南民族大学数学与统计学学院 ; 中南民族大学数学与统计学学院 年份:2014
    摘要:提出了一种基于视频图像理解的中国象棋棋子识别算法.在检测视频图像无变化基础上,检测棋子变化,利用棋子的先验信息及象棋规则排除无法行棋点,再通过当前帧图像与前两步棋子图像特征识别出实际行棋的棋子.该算法避免使用二值化门限,对光照、阴影等外界环境的变化具有良好的适应性.
  • 【期刊】 基于视频图像理解的中国象棋棋子识别

    刊名:中南民族大学学报:自然科学版 作者:娄联堂 钱磊 段汕 贺兴 关键词:棋子识别 图像理解 先验信息 特征 机构:中南民族大学数学与统计学学院 ; 中南民族大学数学与统计学学院 年份:2014
    摘要:提出了一种基于视频图像理解的中国象棋棋子识别算法.在检测视频图像无变化基础上,检测棋子变化,利用棋子的先验信息及象棋规则排除无法行棋点,再通过当前帧图像与前两步棋子图像特征识别出实际行棋的棋子.该算法避免使用二值化门限,对光照、阴影等外界环境的变化具有良好的适应性.
  • 【论文】 基于生物视觉感知机制的图像理解技术研究

    作者:胡德昆 关键词:图像理解 ; 视觉感知 ; 图像分割 ; 目标识别 ; 场景分类 机构:电子科技大学 ; 电子科技大学 年份:2012
    摘要:场景理解是计算机视觉中具有挑战性的难点问题,是相关视觉应用的关键环节。动物能迅速地对所处的场景做出判断并响应,准确获取目标对象的位置和类型,这是目前最先进的计算机视觉系统无法媲美的。本文以认知生理学和心理学的研究成果为基础,从图像理解与认知学的相互关系入手,根据动物视觉感知系统中的重要结构和功能机理研究图像理解的关键技术。 本文首先深入研究了人类视觉的认知生理学结构和视觉感知机制。视网膜是视觉信息的起始点,主要存在三种细胞获取视野中不同的图像特征信息,通过LGN中的对应通道传送至初级视皮层的V1区域。视觉皮层中的腹侧通路用来形成感受和进行对象识别,分别经历了Vl、V2、V3或V4(中颖叶区)、顶叶皮层(OPC)或下颖叶皮层(IT)的视觉信息传递过程;背部通路处理动作和其它的空间信息;各层次之间存在着前向、水平和反馈的交互作用。因此人类的视觉感知系统不仅具有层次型结构特点,还具有侧抑制和反馈的特性,可以实现快速有效的视觉感知。 其次重点研究了基于视皮层感知机制的彩色图像分割模型。提出了一种基于多特征的层次化彩色图像感知分割模型,该方法有效的利用图像的亮度空间分布、细节信息以及颜色空间信息,对图像进行初次分割,并利用BPNN模型对多特征分割结果进行融合选择,得到最终的分割结果。另外,结合Trickle-down视觉理论,研究了结合自底向上和自顶向下的BU&TD彩色图像分割模型,使用特定类特征片段实现了自顶向下的分割,更好的模拟了视觉机制的反馈过程。 此外,本文在对现有生物激励目标识别模型进行深入分析的基础上,提出了生物激励的多特征场景分类模型,模型包括两个阶段的处理过程,首先模拟生物低级视觉区域,并行独立的提取图像的三种属性进行场景分类,然后根据三个分割结果进行二次分类,以提高分类的准确性;结合OFC的预测机制和场景上下文信息,研究了基于生物视觉机制的BU&TD目标识别模型,模型在训练阶段建立特定类目标图像的LSF库和GIST特征库,系统自动学习目标的先验知识和上下文信息,在测试阶段,提取输入图像低频特征、上下文特征分别映射到PHC和OFC做出预测,再结合高频细节特征完成目标的识别过程。 最后对本文的研究特色进行了描述,对本文的研究工作进行了总结,分析了各模型的实验结果,指出了模型的优点和缺点,并对下一步的工作进行了展望。
  • 【论文】 基于机器视觉的室外场景图像理解方法研究

    作者:任柯燕 关键词:室外场景理解 ; 航拍图像 ; 图模型 ; 三维信息 ; 条件随机场 机构:北京邮电大学 ; 北京邮电大学 年份:2012
    摘要:对于工作在非结构化环境中的移动机器人,能够具有良好的场景感知与理解能力是其实现自主导航并自主探索环境的前提条件。由于非结构化环境具有多样性、复杂性、随机性等特点,同时机器人可获得的视觉导航先验信息不稳定,且对非结构化环境中多类物体的辨识技术仍不成熟,因此如何使机器人更好地感知并理解非结构化环境成为近年来机器视觉领域密切关注的具有挑战性的研究热点,本文从以下方面对这一问题展开进一步研究。首先,对非结构化环境中的路标信息从不同于地面水平视角的航拍角度进行识别,使移动机器人获得从地面视角难以获得的稳定路标信息,从而更有效地完成视觉导航。其次,为提高室外非结构化环境中多类物体的识别正确率,辅助机器人更加智能化地工作,在求得最佳图像分割块数后,对室外场景中多类物体的识别方法展开进一步研究。 本文以HSP电动攀爬车为平台,建立室外场景图像理解原型系统。根据机器人在非结构化环境中实现基于视觉的导航与环境探索的特点和要求,对基于阴影的航拍图像建筑物检测算法、结合深度信息和图模型求得最佳图像分割块数的算法以及基于条件随机场的多类物体识别算法展开研究。 论文的主要研究工作如下: 第一,对场景理解在机器人视觉中的研究及应用进行回顾,对本文涉及三项关键技术的国内外研究现状进行详细分析。针对目前基于机器视觉的室外场景理解在导航和多类物体辨识上的不足,提出航拍图像建筑物检测和地面场景物体识别的研究方案。 第二,针对基于阴影的航拍图像建筑物检测在建筑物位置搜索及边界提取的不足,提出在简化的建筑物-阴影模型下检测航拍图像中任意轮廓建筑物的算法。该算法在提取建筑物的阴影后,结合航拍图像的拍摄地点及拍摄时间,参照建筑物-阴影模型,能够快速搜索到建筑物方位及建筑物和阴影边界,省去边界的直线逼近过程并加快边界的提取速度。当确定建筑物的初步位置后,通过对比种子和周围区域的灰度直方图得到最终建筑物区域。因此该算法能够更为快速准确地检测出航拍图像中的建筑物。 第三,针对目前研究中图像分割块数和区域合并阈值是根据经验值人为设定,提出通过深度信息和图模型相结合的三维聚类图模型,来确定最优图像分割块数和区域合并闽值。构造以图像分割块数和区域合并阈值为自变量的三维聚类图模型正确率评估函数,通过分析该函数的极值,得到最优图像分割块数和区域合并阈值的组合。在此基础上,利用三维深度信息对二维平面图模型进行编辑,得到整个场景的三维聚类图模型。 第四,为了识别环境中多类物体,对基于分类器的物体辨识展开研究。分析并提取每类物体有效的图像特征,将不同特征进行融合,通过可变长的样本选择方法来选择训练数据,对不同类型的物体设计对应的分类器,以实现对室外场景图像中主要物体的初步识别。 第五,针对基于中低层特征构造的分类器对物体识别时忽略了物体间的相关性,提出基于多分类器初步识别基础上的条件随机场模型。引入针对每类分类器置信度评分的比例系数,构造条件随机场模型的单节点项函数。在使用初步检测特征的基础上加入三维深度特征,利用相邻超级像素间特征的相关性构造条件随机场模型的相邻节点项函数。最后,通过置信传播实现对室外场景物体的最终识别。 最后,论文以HSP电动攀爬车为平台,设计室外场景理解原型系统,该系统由航拍图像建筑物检测模块和地面场景物体识别模块组成。航拍图像建筑物检测模块通过识别航拍图像中的建筑物,获得全局导航的先验信息;地面场景物体识别模块在对采集到的图像提取深度信息后,得到该场景的三维聚类图模型,最后通过基于多分类器初步识别基础上的条件随机场模型实现场景中物体的最终辨识,以实现局部环境感知。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转