·
搜索结果:找到“文本”相关结果179246条
排序: 按相关 按相关 按时间降序
  • 【专利】 一种增强文本特征表示的短文本主题挖掘方法

    作者:杨群 ; 雷维华 ; 王佳文 年份:2017
    摘要:本发明为一种增强文本特征表示的短文本主题挖掘方法,提供一种在短文本进行高效主题建模的方法,属于数据挖掘中的文本挖掘领域。本发明首先将模式挖掘算法引入到文本的特征空间构建中,使用频繁模式挖掘算法在真个语料库级别上挖掘能表征文本特征的频繁模式,然后提出一种基于模式集合的特征表示方法(PSTR)。该表示法克服了基于词袋假设的一元表示的语义间隔问题,以及在短文本的主题挖掘中该表示方法会遭遇的共现模式不足问题。基于在新的模式空间中的表示,提出一种主题同一性指定的建模方法(PSTR‑LDA),在同主题推论阶段中,表示文本特征的模式中的构成词会共享同一个主题指定,该假设更加真实的反应了表示文本的模式间的主题。实施例的结果表明本发明比起其模型,能挖掘更加一致和解释性更好的主题。
  • 【专利】 一种基于图片文本点击量的相近文本的合并方法

    作者:俞俊 ; 谭敏 ; 吴炜晨 年份:2017
    摘要:本发明公开了一种基于图片文本点击量的相近文本的合并方法。本发明包括以下步骤:步骤1:提取查询文本的图像点击特征;步骤2:基于图像相似度矩阵构建点击传播模型,更新点击特征向量,包括:相似度矩阵计算和点击传播模型的构建;步骤3:构建基于热门查询的文本字典;基于查询文本的总的图像点击数,选择点击量相对较高的构成字典;步骤4:基于步骤(3)得到的文本字典,对任意的查询文本利用稀疏编码为其归类。本发明通过改进图像的点击特征向量来提高细粒度分类识别率。
  • 【专利】 一种同主题文本集合中多文本摘要获取方法

    作者:徐小龙 ; 杨春春 ; 段卫华 ; 张洁 ; 朱洁 ; 刘茜萍 年份:2018
    摘要:本发明涉及一种同主题文本集合中多文本摘要获取方法,首先通过对文本进行预处理,包括分词,停用词处理,特征选择,降维等;下一步,利用处理之后的特征词构造空间向量模型,生成距离矩阵;然后在聚类方法中加入样本密度排序的方法,以中心向量为圆心,用向量空间中特征值距离的平均值为半径构造圆,根据圆内排序好的文本内容相似度生成的样本密度来自动确定初始聚类中心,从而自动发现文档集合中的潜在对应的子主题集合的数量;生成对应的子主题集之后,方法对已聚类的子主题文本进行有监督的训练,对句子进行评分,标记,从不同的子主题中抽取中心句作为多文本的摘要,最后,方法输出摘要的内容;提高了多文本摘要的质量。
  • 【专利】 一种具备情感的中文文本人声合成方法

    作者:沈傲东 ; 俞豪敏 ; 孔佑勇 ; 吴剑锋 ; 董涵 ; 舒华忠 ; 王坤 年份:2017
    摘要:本发明公开一种具备情感的中文文本人声合成方法,主要包括,(1)构建情感语料库;(2)基于波形拼接的带情感语音合成。建立语料库的主要步骤为:(11)分词并获取词语的词性;(12)语音切分,基于语音数据特征与文本语料获取对应分词的音频数据;(13)情感分析,基于文本分词与音频特征获取词语、短句和整句的情感特征值。基于波形拼接的带情感语音合成步骤为:(21)分词和情感分析,对待合成文本进行分词和情感分析,获取待合成文本内的词语词性、句型和情感特征;(32)选取最优语料,基于文本特征值匹配出最优语料集;(23)语音合成,波形拼接,从语料集中提取出词语音频序列集,将音频拼接合成输出最终语音。本发明合成输出具有情感特征的真人声语音。
  • 【专利】 一种基于Web的藏文文本自动摘要生成方法

    作者:胥桂仙 年份:2017
    摘要:本发明涉及一种基于Web的藏文文本自动摘要生成方法,包括以下步骤:通过主题词表去匹配文章原文中的句子,并对句子的权重进行计算;根据句子权重进行排序,选取文章句子总数的百分比作为摘要句;将提取的句子按照句子在原文中的顺序进行重新排序,将句子进行拼接生成摘要。本发明提出了本发明提出了采取摘录式方式进行自动摘要生成方法,是选择一定数量的最能代表文本主题思想的句子组成摘要,有效的方便人们获取藏文信息,同时提高了人们获取信息的效率。
  • 【专利】 一种基于首字母序列的中文文本校对方法

    作者:刘宏哲 ; 袁家政 ; 薛建明 ; 黄美玲 年份:2017
    摘要:本发明公开一种基于首字母序列的中文文本的校对方法,首先语音输入一段音频,然后通过语音识别技术将语音数据转换成文本数据,紧接着提取这句文本中每个字的拼音首字母组成一串字母序列,然后将生成的首字母序列与存放在首字母序列库中的内容一一进行比较,当提取的序列是库中序列的子序列时,校对后的文本为库中的序列对应的中文文本;当提取的序列与库中序列的长度相等时,比较二者之间不同字母的个数,若小于一定的阈值,那么校对后的文本为库中序列对应的中文文本;其他的情况,则不对文本进行校对,视为正确文本。本发明对基于小型知识库的语音问答系统的识别文本有不错的校对效果,并且具有易于实现的优点。
  • 【专利】 一种可交互中文文本语音合成系统及方法

    作者:李青 年份:2016
    摘要:本发明特别涉及一种可交互中文文本语音合成系统及方法。该可交互中文文本语音合成系统,包括文本输入模块,规则输入模块,中文朗读模块和退出系统模块,所述中文朗读模块包括发音子模块,调节语速子模块,暂停子模块和停止子模块。该可交互中文文本语音合成系统及方法,为语音合成系统预留接口,用户能够自主设定规则,按照用户的偏好进行朗读,同时系统不断的修正原始语音合成规则,完善系统自身,能够避免原始语音规则设计的缺陷,实现文本内容的在语气的转折和单词的连接上的自然和表现问句和祈使句的升降调,保证语音合成后的自然和流畅。
  • 【专利】 一种基于MPI的ML‑KNN多标签中文文本分类方法

    作者:王进 ; 晏世凯 ; 邵帅 ; 李颖 ; 欧阳卫华 ; 胡峰 ; 李智星 ; 邓欣 ; 陈乔松 ; 雷大江 年份:2017
    摘要:本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。
  • 【专利】 基于多隐层极限学习机的中文文本分类方法

    作者:庞皓明 ; 冀俊忠 年份:2017
    摘要:本发明公开了基于多隐层极限学习机的中文文本分类方法,将正则化极限学习机模型应用到中文文本分类问题中,使用多隐层极限学习机模型对文本进行分类。使用复旦大学中文语料库作为文本分类的训练集和测试集;对文本数据进行预处理等操作,包括:统一编码方式、切词和去除停用词、符号、数字等;使用空间向量模型对文本进行表示,将数据集转换成文本矩阵;使用多隐层极限学习机对文本进行分类,其中包括文本降维、特征映射和文本分类。文本降维:将高维文本数据转换成可以进行计算的低维文本数据。使用多隐层极限学习机的多隐层结果对文本的特征进行映射,进行高层特征表示。使用多隐层极限学习机中的正则化极限学习机对文本进行分类。
  • 【专利】 一种自然场景图像中中文文本整体识别方法

    作者:高学 ; 刘衍平 年份:2018
    摘要:本发明公开了一种自然场景图像中中文文本整体识别方法,首先获取训练样本集,对深度卷积网络、编码用多层双向递归网络、解码用多层双向递归网络以及CTC模型依次连接构成的神经网络进行训练;将测试样本输入到训练后的深度卷积网络中,获取到测试样本的各特征序列帧;然后将测试样本的各特征序列帧输入到训练后的编码用多层双向递归网络中,得到测试样本的各编码序列帧;再将测试样本的各编码序列帧输入至训练后的解码用多层双向递归网络中,得到测试样本各帧图像中每个常用汉字为该帧图像中汉字的概率结果;最后进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明方法提高了自然场景图像中中文文本整体识别的准确率。
  • 【专利】 基于智能眼镜的视障辅助中文文本阅读系统

    作者:高学 ; 饶钦程 年份:2016
    摘要:本发明提供基于智能眼镜的视障辅助中文文本阅读系统,系统包括高清摄像头、扬声器、蓝牙、安卓手机、头戴式微型显示屏、条状电脑处理器、高性能大容量电池、太阳能电池等。安卓手机包括App控制模块、图像文字识别模块、语言传输模块、蓝牙传输模块等。本发明不仅可以实现对文档中字符的识别,还能对自然场景文本进行定位、识别。该系统具有定位与识别精度高、成本低廉、鲁棒性好、自动化程度高等特点,可广泛服务于视力欠佳者,为其提供在阅读及生活上的帮助。
  • 【专利】 一种基于文本阅读器的文本显示方法和装置

    作者:解辉 ; 陈晓波 ; 王洪岳 年份:2016
    摘要:本发明实施例公开了一种基于文本阅读器的文本显示方法和装置;本发明实施例在接收到文本显示请求后,可以根据该请求中携带的操作信息,从需要显示的文本文件中,获取与文本阅读器的页面大小相应的文本内容,以作为当前文本,然后,对该当前文本进行富文本格式化,并根据操作信息在文本阅读器中对格式化后文本进行显示;该方案可以大大减少文件的载入时间,提高处理效率,改善显示效果。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转