·
搜索结果:找到“中文分词”相关结果83819条
排序: 按相关 按相关 按时间降序
  • 【专利】 一种针对中医药症状句子的中文分词方法

    作者:姜晓红 ; 毛宇 ; 付钊 ; 杜定益 ; 陈广 ; 吴朝晖 年份:2017
    摘要:本发明公开了一种针对中医药症状句子的中文分词方法,该分词方法首先通过分割词库、频繁词库做预筛选,然后利用正向条件概率和逆向条件概率做进一步分析,对于依旧不能确定的情况,再综合相对位置给出最后的结果。本发明分词方法有效地针对了中医药症状领域的特殊性,克服了传统中文分词方法不适用于中医药领域的缺点,在分词的准确率和召回率上均有较大的提高。
  • 【专利】 一种中文分词网店商品搜索系统的设计

    作者:不公告发明人 年份:2016
    摘要:本系统是一个对网店商品的原始数据进行加工处理,集成一个存储所有商品信息的词条字典的系统,本系统通过结合全切分算法,以此实现对输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合,使中文分词网店商品搜索系统完美化、自动化,减少了用户在搜索过程中不必要的麻烦。
  • 【期刊】 基于分组hash与变长匹配的中文分词技术

    刊名:计算机时代 作者:杨光豹 ; 杨丰赫 ; 毛贵军 关键词:中文分词 ; 正则表达式 ; 散列 ; 时间复杂度 机构:浙江广播电视大学青田学院 ; 浙江广播电视大学青田学院 年份:2019
    摘要:中文分词是海量中文信息处理的基础任务,分词的准确性与分词速度是最为重要的。但是现有技术在分词时,准确性与分词速度却是无法调和的。为了提高中文分词的速度,同时又不因缩短初始字符串长度造成准确性降低,提出使用正则表达式进行变长字符串的截取与对词库进行分组散列的技术。通过理论分析,该技术在时间复杂度上从原来的o(n*n)下降到o(n),在精确度上又以句子长度作为动态变化的初始字符串长度,从而避免长词的丢失,保证了分词的准确性不受损失。
  • 【专利】 一种基于专业词汇的中文分词方法及计算设备

    作者:吕洪波 年份:2018
    摘要:本发明公开了一种基于专业词汇的中文分词方法,该方法适于在计算设备中执行,包括:通过逐条读入词条来构造具有预定结构的词典,其中词典中将首字相同的词条按照Unicode码升序排列,并建立多个第一数组用于存储首字相同的词条,且在每个第一数组中建立至少一个第二数组,用于存储词条内容及标识位,标识位用于标识词条是否属于专业词汇;利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词;根据每个待确定分词对应的标识位对该待确定分词设置分词权重;以及根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果。本发明一并公开了用于执行该方法的计算设备。
  • 【专利】 一种兴趣点POI名称的中文分词方法及装置

    作者:史川 年份:2015
    摘要:本发明提供一种兴趣点POI名称的中文分词方法及装置,所述方法包括:获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从预定POI名称总样本的POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频;对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。通过该POI名称的中文分词方法及装置解决了POI名称分词时某一单字出现的切分歧义的问题,使切分结果更合理,保证了分词的准确性。
  • 【期刊】 一种基于字的多模型中文分词方法

    刊名:沈阳航空航天大学学报 作者:张少阳 ; 王裴岩 ; 蔡东风 关键词:字标注 ; 多模型 ; 特征向量化 机构:沈阳航空航天大学 ; 沈阳航空航天大学 ; 人机智能研究中心 年份:2017
    摘要:字标注的分词方法是当前中文分词领域中一种较为有效的分词方法.但由于中文汉字本身带有语义信息,不同的字在不同语境中其含义与作用不同,导致与上下文的相关性不同,每个字的构词规律存在差异.针对这一问题,提出了一种多模型的分词方法.该方法对每个字单独建立模型,能够有效区分每个特征对不同待切分字的影响,从而学习出每个字的特殊构词规律.由于向量化的特征表示能够有效地解决特征稀疏问题,采用特征向量化来表示输入特征.实验结果表明,该方法是一种有效的中文分词方法,很好地区分出了同类特征对于不同字的作用程度,充分体现了每个字的构词规律.
  • 【期刊】 中文分词在大数据时代医学领域的应用

    刊名:《电子技术与软件工程》 作者:牟馨忆 关键词:中文分词 ; 自然语言处理 ; 医学信息 机构:对外经济贸易大学 ; 对外经济贸易大学 年份:2018
    摘要:近年来自然语言处理技术不断发展,在生活的方方面面为人们提供了便利。而中文分词是自然语言处理的重要组成部分,是文本处理的基础。在这个数据已经渗透到每一个角落的时代里,中文分词与数据挖掘技术在医学领域应用越来越广泛。从抑郁症预防干预,到电子病历数据挖掘,再到药物研究,中文分词的应用使医学更加先进、方便、快捷。
  • 【期刊】 基于中文分词的主观题自动评分算法研究

    刊名:河北北方学院学报(自然科学版) 作者:宋雪亚 ; 王传安 关键词:中文分词 ; 自动评分 ; 文本相似度 机构:安徽科技学院 ; 安徽科技学院 年份:2017
    摘要:目的 为了对在线考试系统中主观题进行更合理的评分,提出一种基于中文分词的算法对主观题进行评分.方法 对中文分词进行了详细介绍,并对已有的算法进行研究和改进,利用基于中文分词技术并结合文本相似度对主观题进行自动评分,从文本串长度相似度、文本串词形相似度和文本串词序相似度,再结合影响因子,形成最终的综合相似度.结果 通过综合考虑考试科目的特征,合理的设置3个相对影响因子的值,对试卷通过4个实验进行测试,试卷题目分别为4个Office简答题,标准答案控制在100字内,每个实验回收电子试卷50份,与使用原算法的实验结果进行比对.实验测试表明,优化后的算法准确率有了很大提高.结论 优化后的算法准确率有明显提高,在词形相似度较高的情况下评分效果与原算法差距不大,依然有改进的空间.
  • 【期刊】 一种适用于移动搜索的中文分词算法

    刊名:西安邮电大学学报 作者:贺菲菲 ; 贺炎 ; 齐静娜 关键词:中文分词 ; 词典机制 ; 词分类信息 机构:中兴通讯股份有限公司西安研发中心 ; 中兴通讯股份有限公司西安研发中心 ; 西安邮电大学计算机学院 年份:2015
    摘要:针对现有中文分词算法无法为移动搜索提供用户兴趣偏好信息的现状,提出一种改进的正向最大匹配中文分词算法。该算法基于逐字二分的分词词典机制,添加词分类信息,在词典中存储了每个词条的分类信息,分词时采用改进的次字区位码哈希非均匀分段机制进行正向最大匹配分词。实验结果表明,与逐字二分法相比,改进的分词算法其存储空间增加了13%,但时间效率提高了20%左右,且分词后可同时提取出词条的分类信息。
  • 【期刊】 一种基于词频歧义消解的通用中文分词

    刊名:广西师范大学学报(自然科学版) 作者:彭琦 ; 朱新华 ; 陈意山 关键词:中文分词 ; 词频 ; 歧义消解 机构:广西师范大学网络中心 ; 广西师范大学网络中心 ; 广西师范大学计算机科学与信息工程学院 ; 广西师范大学漓江学院 年份:2016
    摘要:歧义是在基于词典的分词方法中常见的问题,以往的基于词典的分词方法往往使用双向最大匹配法获得分词结果后,通过使用上下文信息来进行歧义消解,但是对于没有上下文信息的单独语料无法进行歧义消解。本文提出一种通用的基于词频的歧义消解法,该方法是与上下文无关的,能够消解没有上下文信息的语料切分后产生的歧义,扩大了歧义消解的应用范围,简化了歧义消解的处理过程。实验表明:文本方法与传统基于词典的分词算法相比,具有更强的适用性及更高的可用性。
  • 【期刊】 适用于医疗卫生领域的中文分词方法研究

    刊名:新疆师范大学学报(自然科学版) 作者:于清 ; 陈永杰 ; 丁岩 关键词:中文分词 ; 医疗 ; 语料库 机构:新疆大学 ; 新疆大学 ; 信息科学与工程学院 年份:2017
    摘要:目前中文分词技术已经比较成熟,但是应用于医疗卫生专业领域,出现准确率、召回率、F-值均下降等问题.文章在自建2.5万句汉语医疗卫生用语语料库基础上,实验基于词典的自动分词方法、基于统计的自动分词方法、词典与统计相结合的分词方法,并通过对各种分词方法测评比较,探索适合于医疗领域的分词方法,这对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务意义重大.
  • 【期刊】 基于双向长短时记忆模型的中文分词方法

    刊名:华南理工大学学报(自然科学版) 作者:张洪刚 ; 李焕 关键词:中文分词 ; 深度学习 ; 神经网络 ; 双向长短时记忆 机构:北京邮电大学 ; 北京邮电大学 ; 信息与通信工程学院 年份:2017
    摘要:中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCityU)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转