·
搜索结果:找到“文本特征提取”相关结果90463条
排序: 按相关 按相关 按时间降序
  • 【期刊】 维吾尔文Bigram文本特征提取

    刊名:计算机工程与应用 作者:阿力木江·艾沙 ; 库尔班·吾布力 ; 吐尔根·依布拉音 关键词:Bigram文本特征 ; χ2统计量 ; 互信息 ; 维吾尔语 机构:新疆大学网络与信息技术中心 ; 新疆大学网络与信息技术中心 ; 新疆多语种信息技术重点实验室 ; 新疆大学信息科学与工程学院 年份:2015
    摘要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。在维吾尔文文本分类中,对于单词特征不能更好地表征文本内容特征的问题,在分析了维吾尔文Bigram对文本分类作用的基础上,构造了一个新的统计量CHIMI,并在此基础上提出了一种维吾尔语Bigram特征提取算法。将抽取到的Bigram作为文本特征,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征文本分类相比,Bigram作为文本特征能够提高维吾尔文文本分类的准确率和召回率并且通过实验验证了该算法的有效性。
  • 【期刊】 文本特征提取方法研究综述

    刊名:软件导刊 作者:徐冠华 ; 赵景秀 ; 杨红亚 ; 刘爽 关键词:特征提取 ; 距离测度 ; 信息测度 机构:曲阜师范大学信息科学与工程学院 ; 曲阜师范大学信息科学与工程学院 年份:2018
    摘要:特征提取是文本挖掘、信息检索、自然语言处理(NLP)、文本情感分析、网络舆情分析等领域的研究热点。特征提取作为文本挖掘系统的主要因素,文本特征提取性能是文本分类结果的重要性度量。从两方面对特征选择算法进行总结,分析国内外对常用特征提取算法的改进和创新,最后针对影响特征提取的因素,指出在实际应用中应考虑的问题。
  • 【专利】 一种文本特征提取系统和方法

    作者:陶彩霞 ; 谢晓军 ; 陈康 ; 张青 ; 高智衡 ; 陈翀 ; 关迎晖 ; 刘春 ; 向勇 ; 吴旭 年份:2014
    摘要:本发明公开了一种文本特征提取系统和方法。该方法包括:将已分好m个类别的文档内容进行分词处理得到多个特征词;计算文档的词频参数,所述参数包括每个类别的文档数量Ni、包含各个特征词的文档数量Nt、总文档数Ntotal和每个类别中包含各个特征词的文档数Ni,t;根据词频参数并行计算每个特征词属于各个类别的特征值;对每个特征词的m个类别的特征值进行并行累加计算;根据累加计算后的特征值的大小进行排序,并根据排序结果对应的特征词进行文本特征提取。本发明通过并行运算能够提高海量文本特征的提取速度、效率高。
  • 【期刊】 一种改进的文本特征提取算法

    刊名:西安邮电大学学报 作者:马力 ; 刘惠福 关键词:文本分类 ; 特征提取 ; 潜在狄利克雷 ; 支持向量机 机构:西安邮电大学计算机学院 ; 西安邮电大学计算机学院 年份:2015
    摘要:针对特征提取忽略特征项语义问题,提出一种基于潜在狄利克雷分配模型(LDA)改进的特征提取算法。该算法基于文档的潜在主题分布,将文档转换为隐含主题与主题下的单词分布按特定比例组成的集合,通过一定的概率选中某个主题,并从该主题下以一定的概率选中某个词语来生成一篇文档。同时,针对LDA算法"平等"对待所有特征项的情况,对LDA模型进行高斯加权。实验结果表明,该算法相比TF-IDF算法、信息增益法,能够提取更多的有效特征,使得分类准确率有所提高。
  • 【论文】 基于语义的中文文本特征提取方法研究

    作者:于群 关键词:特征提取 ; 文本语义网络 ; K-核分解 ; 语义相关度 机构:哈尔滨工程大学 ; 哈尔滨工程大学 年份:2017
    摘要:随着科技的发展,人们可以获得的信息量正在以几何倍数爆炸增长,这些信息大多以文本形式在网络上流传。面对这样一个信息量爆炸的时代,当务之急便是快速有效地从这些海量的数据中捕捉到我们的目标信息。而文本分类技术作为一种有效的文本信息数据挖掘方法,其意义在于将文本依据其主题内容进行明确分类,提高用户筛选出目标信息的时效性。特征提取作为文本分类的关键环节,其主要作用是对文本的特征空间进行降维,从中选择出包含文本主题内容最为丰富的特征词,选取的特征词集合将作为确定文本类别的有效保障。传统的特征提取方法大都依据简单的数理统计思想,并且认为特征词之间是相互独立的,所以忽略了文本的结构和语义对于特征词选取的重要性,进而导致了语义因素无法在提取特征词的过程中发挥作用,从而影响文本分类的准确性。针对传统的中文文本特征词提取过程中存在的语义缺失问题,本文提出一种基于语义的中文文本特征提取方法。该方法首先将预处理后的特征词集合表示为加权语义网络结构,将特征词作为网络节点,将句子中跨度小于等于2的词语连接成边,边的权值的计算方法采用基于维基百科知识库的语义关联度计算方法;其次,为了有效提取出文本语义网络中包含文本主题信息最丰富的特征词,本文提出一种基于K-核分解的特征词中心性划分算法,该方法依据节点的中心性将文本加权语义网络划分为若干层,层级越高则表示层内节点的中心性越;最后,根据特征维数的需要,按照层级由高到底的顺序选出前n个关键词作为最终提取的特征词。最后,为了验证本文所提出的基于语义的中文文本特征提取方法的可行性和有效性,将本文提出的方法和当前应用较为广泛的特征提取方法进行对比实验,实验结果证明本文提出的特征提取方法在不同特征维数下都具有较强的稳定性,并且在查全率、查准率和F1值三个评价指标上都比传统方法有所提升,从而证明了本文提出的方法的有效性。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:现代电子技术 作者:赵勤鲁 ; 蔡晓东 ; 李波 ; 吕璐 关键词:文本特征提取 ; LSTM-Attention ; 注意力机制 ; 文本分类 ; 神经网络 ; softmax 机构:[1]桂林电子科技大学信息与通信学院 ; [1]桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,elp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:《现代电子技术》 作者:赵勤鲁 ; 蔡晓东 ; 李波 ; 吕璐 关键词:文本特征提取 ; LSTM-Attention ; 注意力机制 ; 文本分类 ; 神经网络 ; softmax 机构:桂林电子科技大学信息与通信学院 ; 桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,elp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:现代电子技术 作者:赵勤鲁 ; 蔡晓东 ; 李波 ; 吕璐 关键词:文本特征提取 ; LSTM-Attention ; 注意力机制 ; 文本分类 ; 神经网络 ; softmax 机构:桂林电子科技大学 ; 桂林电子科技大学 ; 信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法.首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类.实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高.将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率.
  • 【期刊】 文本特征提取研究现状分析与展望

    刊名:科技创新与品牌 作者:鹿鹏 ; 庄敏 ; 龙刚 ; 林宋伟 关键词:文本挖掘 ; 文本特征表示 ; 特征提取 ; 模式识别 机构:江苏保千里视像科技集团股份有限公司 ; 江苏保千里视像科技集团股份有限公司 年份:2017
    摘要:文本挖掘作为一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学等多个领域,近年来基于文本挖掘技术的商业应用开发已成为热点.文本特征表示与提取文本挖掘的首要基本问题,得到了研究者的广泛重视.近年来,该领域已经有许多重要的研究成果.本文对近年来文本特征表示与提取的研究成果进行综述,展望未来文本特征表示与提取技术可能的研究热点.
  • 【专利】 基于关键词频率的文本特征提取方法

    作者:张俤 年份:2016
    摘要:本发明提供了一种基于关键词频率的文本特征提取方法,循环读取用户搜索文本中的词条,以预定义类簇集合、各个类簇中的文本和每个词条在类簇的词频为初始条件,对搜索文本进行分词和索引;然后在训练集内每个类簇文本中,统计特征词词频高于阈值的数量;在各个类簇中计算词条特征值,存储在网页特征集合中;将网页特征值作为关键词排序并建立索引;用待分析网页的整句特征值在已有的网页库中进行索引,检索到候选网页;对候选网页与待分析网页执行相似度计算,根据计算结果决定是否将待分析网页推荐至用户。本发明提出了一种基于关键词频率的文本特征提取方法,快速挖掘到有价值的信息,提升搜索引擎的用户体验。
  • 【期刊】 基于LSTM-Attention神经网络的文本特征提取方法

    刊名:现代电子技术 作者:赵勤鲁;蔡晓东;李波;吕璐; 关键词:LSTM-Attention;;注意力机制;;文本分类;;神经网络;;文本特征提取;;softmax 机构:桂林电子科技大学信息与通信学院 ; 桂林电子科技大学信息与通信学院 年份:2018
    摘要:针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。
  • 【专利】 一种多维度短文本特征提取方法及系统

    作者:李成华 ; 刘丽君 年份:2016
    摘要:一种多维度短文本特征提取方法,其包括如下步骤:S1、对短文本进行预处理;将短文本中信息划分为表情符号信息、文本信息、语音信息;S2、分类对短文本中各种信息进行处理并得到统一的文本信息集;S3、将统一的文本信息集中中文短文本采用分词工具进行分词处理,然后利用正则匹配与字符串替换来过滤掉无效字符、连续空格、大小写混用噪音信息;对于英文短文本采用词干提取工具进行预处理;S4、通过向量空间模型表示文本表示模型;通过选择算法来获取输入的短文本特征。本发明还提供一种多维度短文本特征提取系统。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转