·
搜索结果:找到“文本特征提取”相关结果86577条
排序: 按相关 按相关 按时间降序
  • 【期刊】 维吾尔文Bigram文本特征提取

    刊名:计算机工程与应用 作者:阿力木江·艾沙 ; 库尔班·吾布力 ; 吐尔根·依布拉音 关键词:Bigram文本特征 ; χ2统计量 ; 互信息 ; 维吾尔语 机构:新疆大学网络与信息技术中心 ; 新疆大学网络与信息技术中心 ; 新疆多语种信息技术重点实验室 ; 新疆大学信息科学与工程学院 年份:2015
    摘要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。
  • 【期刊】 文本特征提取方法研究综述

    刊名:软件导刊 作者:徐冠华 ; 赵景秀 ; 杨红亚 ; 刘爽 关键词:特征提取 ; 距离测度 ; 信息测度 机构:曲阜师范大学信息科学与工程学院 ; 曲阜师范大学信息科学与工程学院 年份:2018
    摘要:特征提取是文本挖掘、信息检索、自然语言处理(NLP)、文本情感分析、网络舆情分析等领域的研究热点。特征提取作为文本挖掘系统的主要因素,文本特征提取性能是文本分类结果的重要性度量。从两方面对特征选择算法进行总结,分析国内外对常用特征提取算法的改进和创新,最后针对影响特征提取的因素,指出在实际应用中应考虑的问题。
  • 【期刊】 一种改进的文本特征提取算法

    刊名:西安邮电大学学报 作者:马力 ; 刘惠福 关键词:文本分类 ; 特征提取 ; 潜在狄利克雷 ; 支持向量机 机构:西安邮电大学计算机学院 ; 西安邮电大学计算机学院 年份:2015
    摘要:针对特征提取忽略特征项语义问题,提出一种基于潜在狄利克雷分配模型(LDA)改进的特征提取算法。该算法基于文档的潜在主题分布,将文档转换为隐含主题与主题下的单词分布按特定比例组成的集合,通过一定的概率选中某个主题,并从该主题下以一定的概率选中某个词语来生成一篇文档。同时,针对LDA算法"平等"对待所有特征项的情况,对LDA模型进行高斯加权。实验结果表明,该算法相比TF-IDF算法、信息增益法,能够提取更多的有效特征,使得分类准确率有所提高。
  • 【论文】 基于语义的中文文本特征提取方法研究

    作者:于群 关键词:特征提取 ; 文本语义网络 ; K-核分解 ; 语义相关度 机构:哈尔滨工程大学 ; 哈尔滨工程大学 年份:2017
    摘要:随着科技的发展,人们可以获得的信息量正在以几何倍数爆炸增长,这些信息大多以文本形式在网络上流传。面对这样一个信息量爆炸的时代,当务之急便是快速有效地从这些海量的数据中捕捉到我们的目标信息。而文本分类技术作为一种有效的文本信息数据挖掘方法,其意义在于将文本依据其主题内容进行明确分类,提高用户筛选出目标信息的时效性。特征提取作为文本分类的关键环节,其主要作用是对文本的特征空间进行降维,从中选择出包含文本主题内容最为丰富的特征词,选取的特征词集合将作为确定文本类别的有效保障。传统的特征提取方法大都依据简单的数理统计思想,并且认为特征词之间是相互独立的,所以忽略了文本的结构和语义对于特征词选取的重要性,进而导致了语义因素无法在提取特征词的过程中发挥作用,从而影响文本分类的准确性。针对传统的中文文本特征词提取过程中存在的语义缺失问题,本文提出一种基于语义的中文文本特征提取方法。该方法首先将预处理后的特征词集合表示为加权语义网络结构,将特征词作为网络节点,将句子中跨度小于等于2的词语连接成边,边的权值的计算方法采用基于维基百科知识库的语义关联度计算方法;其次,为了有效提取出文本语义网络中包含文本主题信息最丰富的特征词,本文提出一种基于K-核分解的特征词中心性划分算法,该方法依据节点的中心性将文本加权语义网络划分为若干层,层级越高则表示层内节点的中心性越;最后,根据特征维数的需要,按照层级由高到底的顺序选出前n个关键词作为最终提取的特征词。最后,为了验证本文所提出的基于语义的中文文本特征提取方法的可行性和有效性,将本文提出的方法和当前应用较为广泛的特征提取方法进行对比实验,实验结果证明本文提出的特征提取方法在不同特征维数下都具有较强的稳定性,并且在查全率、查准率和F1值三个评价指标上都比传统方法有所提升,从而证明了本文提出的方法的有效性。
  • 【专利】 基于关键词频率的文本特征提取方法

    作者:张俤 年份:2016
    摘要:本发明提供了一种基于关键词频率的文本特征提取方法,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。本发明提出了一种基于关键词频率的文本特征提取方法,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
  • 【期刊】 文本特征提取研究现状分析与展望

    刊名:科技创新与品牌 作者:鹿鹏 ; 庄敏 ; 龙刚 ; 林宋伟 关键词:文本挖掘 ; 文本特征表示 ; 特征提取 ; 模式识别 机构:江苏保千里视像科技集团股份有限公司 ; 江苏保千里视像科技集团股份有限公司 年份:2017
    摘要:文本挖掘作为一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学等多个领域,近年来基于文本挖掘技术的商业应用开发已成为热点.文本特征表示与提取文本挖掘的首要基本问题,得到了研究者的广泛重视.近年来,该领域已经有许多重要的研究成果.本文对近年来文本特征表示与提取的研究成果进行综述,展望未来文本特征表示与提取技术可能的研究热点.
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:现代电子技术 作者:赵勤鲁 ; 蔡晓东 ; 李波 ; 吕璐 关键词:文本特征提取 ; LSTM-Attention ; 注意力机制 ; 文本分类 ; 神经网络 ; softmax 机构:[1]桂林电子科技大学信息与通信学院 ; [1]桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,elp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:《现代电子技术》 作者:赵勤鲁 ; 蔡晓东 ; 李波 ; 吕璐 关键词:文本特征提取 ; LSTM-Attention ; 注意力机制 ; 文本分类 ; 神经网络 ; softmax 机构:桂林电子科技大学信息与通信学院 ; 桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,elp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【期刊】 中文专利文本特征提取方法研究

    刊名:福建电脑 作者:段灵修 ; 林俊 ; 黄达臻 ; 黄志华 关键词:Chi ; LSI ; 文本分类 ; 特征提取 机构:福州大学数学与计算机科学学院 ; 福州大学数学与计算机科学学院 ; 福建省知识产权信息公共服务中心 年份:2011
    摘要:本文提出了一种针对中文专利文本特征提取方法。首先使用Chi-CIG对特征进行第一次降维,再使用潜在语义标引对特征项进行第二次降维操作。使得文本特征维数大为减少的同时,又尽可能多的保存信息。
  • 【期刊】 基于概念关系的文本特征提取方法

    刊名:计算机与数字工程 作者:文必龙 ; 李乃峰 ; 任秀英 ; 冯翔 ; 吕鹏全 关键词:文本特征 ; 词频统计 ; 本体概念相似度 ; 共现特征 机构:东北石油大学计算机与信息技术学院 ; 东北石油大学计算机与信息技术学院 年份:2014
    摘要:针对基于词频统计的TD-IDF文本特征提取方法缺乏对文本中概念关系处理,而使提取到的文本特征具有概念冗余、特征不明确等问题,提出基于本体概念相似度的词频统计方法。利用文本元素之间的语义相似度调整特征元素的词频,突出特征元素的语义贡献、消除特征冗余,增强特征集合元素的特征独立性。最后结合文本概念的共现特性,对可能出现某些重要特征元素因词频统计而被忽略的问题进行处理,从而准确、高效地提取文本特征。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:现代电子技术 作者:赵勤鲁;蔡晓东;李波;吕璐; 关键词:LSTM-Attention;;注意力机制;;文本分类;;神经网络;;文本特征提取;;softmax 机构:桂林电子科技大学信息与通信学院 ; 桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【期刊】 基于N-Gram文本特征提取的改进算法

    刊名:现代计算机(专业版) 作者:余小军 ; 刘峰 ; 张春 关键词:文本特征提取 ; N-Gram ; 权重过滤 ; 词性分析 ; TFIDF 机构:北京交通大学计算机与信息技术学院 ; 北京交通大学计算机与信息技术学院 年份:2012
    摘要:提出一种改进的N-Gram文本特征提取算法。该算法将词性分析与权重过滤引入到N-Gram特征向量提取的过程,有效地解决N-Gram适用差、特征向量冗余大、与文本属性无关等问题。实验结果表明,该特征提取算法能够更加准确地描述文本特征,能较好地适用于文本特征处理、Web文本数据挖掘等中文信息处理领域。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转