·
搜索结果:找到“数据清洗”相关结果2619条
排序: 按相关 按相关 按时间降序
  • 【期刊】 一种基于非监控学习的数据清洗算法

    刊名:黑龙江科学 作者:李景民 关键词:数据清洗 ; 非监控学习 ; 数据库 ; 数据转换 机构:吉林工商学院 ; 吉林工商学院 年份:2016
    摘要:在数据库的应用中经常会出现数据的"相似重复记录"问题,笔者提出一种基于非监控学习的数据清洗算法。这种算法主要采用了基于非监控学习的方法,在学习过程中能够结合需要增添新的聚类,去除错误聚类,进而能够避免出现死神经元问题,经实验数据证明可以有效地实体识别。
  • 【期刊】 煤矿综采设备运行状态大数据清洗建模

    刊名:工矿自动化 作者:马宏伟 ; 吴少杰 ; 曹现刚 ; 徐博远 ; 张鑫媛 关键词:数据清洗 ; 综采设备 ; 设备运行状态 ; 大数据 ; MapReduce 机构:西安科技大学机械工程学院 ; 西安科技大学机械工程学院 年份:2018
    摘要:针对煤矿综采设备运行状态数据量大、数据存在噪声和缺失值等问题,建立了一种基于MapReduce的煤矿综采设备运行状态大数据清洗模型。该模型采用双MapReduce协同工作:通过第1个MapReduce对数据中的噪声点和缺失值进行修正,输出多个清洗后的数据文件;通过第2个MapReduce对多个清洗后的数据文件按采集时间及日期进行排序,并合并成单个数据文件输出。实验结果表明,该模型能有效剔除噪声数据和补全缺失数据,具有较好的数据清洗效果。
  • 【期刊】 海空目标航迹数据清洗方法和流程研究

    刊名:网络空间安全 作者:刘帅 ; 杨松 ; 常歌 ; 董亚卓 关键词:数据清洗 ; 海空目标航迹数据 ; 算法 机构:中国人民解放军海军91655部队 ; 中国人民解放军海军91655部队 ; 中国人民解放军海军92196部队 ; 中国人民解放军海军91655部队 年份:2017
    摘要:论文针对海空目标航迹数据的内容与特点,面向海空目标探测效能评估需求,提出了海空目标航迹数据清洗方法和流程,包括数据格式规范化处理、数据筛选、去离群点和航迹插值等.试验证明,论文提出的数据清洗算法能够优化数据格式,剔除原始数据中的错误、无效数据,增加样本数量,从而为后续开展海空探测效能评估做好数据准备.
  • 【期刊】 一种用于中文数据清洗的近邻排序算法

    刊名:《计算机应用与软件》 作者:张培根 ; 黄树成 关键词:数据清洗 ; 重复值清洗 ; 近邻排序算法 ; 编辑距离 机构:江苏科技大学计算机学院 ; 江苏科技大学计算机学院 年份:2018
    摘要:为了解决传统近邻排序算法(SNM)在中文重复值数据清洗中的不足,提出基于中文分词和同义词检查的重复值清洗算法。传统SNM算法主要适用于英文,英文和中文存在以下两种明显差异:英文语义和时态基于单词;中文语义基于词语,时态基于语义。以上两种差异造成了英文重复值清洗的算法SNM不能很好地应用于中文重复值清洗中。算法的基本思路是:引入编辑距离来计算近似度;采用中文分词和同义词检查的方式优化编辑距离相似度算法,改进后的算法可以对中文语句或者字段进行有效重复值清洗的工作。通过对供应商商品库存数据集的实验,结果证明该算法不但可以提高效率,而且能有效地清洗重复字段,很好地实现了中文数据清洗
  • 【期刊】 基于自适应滑动窗口的RFID漏读数据清洗算法

    刊名:电子科技 作者:褚天 ; 潘金满 ; 杜磊 关键词:数据清洗 ; RFID ; 漏读 ; 滑动窗口 ; 标签运动 机构:军事交通学院研究生管理大队 ; 军事交通学院研究生管理大队 ; 军事交通学院基础部 年份:2016
    摘要:RFID标签数据漏读问题普遍存在于RFID系统的应用中,为确保RFID数据的准确性,必须对原始数据进行清洗。针对当前最有效的滑动窗口清洗算法SMURF中存在的标签动态性检测的缺陷,文中在提出的改进算法中引入了标签概率运动模型进行判定,算法能准确检测到标签动态变化,并在窗口大小设置上更为合理。实验结果表明,文中所提出的算法比SMURF算法产生的平均错误数减少51%,性能更加优越。
  • 【期刊】 基于用户的协同过滤推荐系统的数据清洗研究

    刊名:福建电脑 作者:徐彬 ; 杜卫锋 ; 滕姿 关键词:数据清洗 ; 一致性 ; 无效值 ; 缺失值 ; 协同过滤 机构:嘉兴学院数理与信息工程学院 ; 嘉兴学院数理与信息工程学院 年份:2017
    摘要:数据清洗是发现并纠正数据文件中可识别错误的最后一道程序,包括检查数据的一致性,处理无效值和缺失值等。本文通过对一个从相关网站上下载的原始数据源的清洗展现了数据清洗的过程,通过数据清洗,原始数据的数据质量得到了很大的提高,为下一步在此数据集上开展基于用户的协同过滤推荐算法研究打下了坚实的基础。
  • 【期刊】 基于置信等效边界模型的风功率数据清洗方法

    刊名:电力系统自动化 作者:胡阳 ; 乔依林 关键词:数据清洗 ; 风功率数据 ; Copula理论 ; 不确定性 ; Hermite插值 机构:华北电力大学控制与计算机工程学院 ; 华北电力大学控制与计算机工程学院 年份:2018
    摘要:针对风电运行数据中存在的大量异常数据,结合风机运行过程与数据不确定性统计提出了一种基于置信等效边界模型的风功率数据清洗方法.首先,基于风机运行机理及运行策略提出了风速、风轮转速和功率三维关联性关系,依照风速对异常数据进行分段精细化剔除;在此基础上,结合Copula理论分运行区间建立了风速条件下风机输出功率的条件概率分布,进而求得功率在一定置信度水平下的等效边界模型,可直接用于异常数据识别剔除,提高有效数据占比;然后,采用分段三次Hermite插值法重构缺失数据,得到完整风速、功率有效数据;最后,定义置信度带宽比等数据清洗质量评价指标,采用k折交叉验证置信等效边界模型性能.选取某型号风机实际运行数据进行实例分析,结果显示清洗后数据具有更高的置信度带宽比、更适中的偏度及更高的峰度,进而表明有效数据占比大大增加且分布更加集中,表明了所提方法的有效性和合理性.
  • 【期刊】 数据清洗技术在DICOM格式医学图像质控中的应用

    刊名:中国医疗设备 作者:郝烨 ; 唐桥红 ; 李佳戈 ; 王浩 ; 孟祥峰 ; 任海萍 关键词:数据清洗 ; 数字图像通讯协议 ; 医学图像 ; 质量控制 机构:中国食品药品检定研究院光机电室 ; 中国食品药品检定研究院光机电室 年份:2018
    摘要:随着信息技术和互联网行业的发展,全球进入大数据时代,数据的开发、挖掘和分析应用越来越广泛,对数据的质量要求也越来越高。目前,国内外的专家学者对医疗领域人工智能产品都进行了很多研发,人工智能产品的研发需要依托海量的医学临床数据。为了保证这类产品的质量,必须从源头进行必要的筛选和清洗,以保障数据质量,支持后续的产品研发与验证过程。本文对DICOM格式的数据清洗问题进行分析,开发了对原始数据进行清洗和审核的流程,在实践中进行了测试,证明能够有效地发现数据缺陷,为今后开展医学人工智能专用数据集的质控工作起到借鉴作用。
  • 【期刊】 基于置信等效边界模型的风功率数据清洗方法

    刊名:电力系统自动化 作者:胡阳 ; 乔依林 关键词:数据清洗 ; 风功率数据 ; Copula理论 ; 不确定性 ; Hermite插值 机构:华北电力大学控制与计算机工程学院 ; 华北电力大学控制与计算机工程学院 年份:2018
    摘要:针对风电运行数据中存在的大量异常数据,结合风机运行过程与数据不确定性统计提出了一种基于置信等效边界模型的风功率数据清洗方法。首先,基于风机运行机理及运行策略提出了风速、风轮转速和功率三维关联性关系,依照风速对异常数据进行分段精细化剔除;在此基础上,结合Copula理论分运行区间建立了风速条件下风机输出功率的条件概率分布,进而求得功率在一定置信度水平下的等效边界模型,可直接用于异常数据识别剔除,提高有效数据占比;然后,采用分段三次Hermite插值法重构缺失数据,得到完整风速、功率有效数据;最后,定义置信度带宽比等数据清洗质量评价指标,采用k折交叉验证置信等效边界模型性能。选取某型号风机实际运行数据进行实例分析,结果显示清洗后数据具有更高的置信度带宽比、更适中的偏度及更高的峰度,进而表明有效数据占比大大增加且分布更加集中,表明了所提方法的有效性和合理性。
  • 【论文】 专利数据清洗及可视化模块设计与实现

    作者:王田雨 关键词:数据清洗 ; 专利 ; AdaBoost ; 分类 ; 可视化 机构:河北工程大学 ; 河北工程大学 年份:2017
    摘要:随着我国科技的发展,在各个行业都涉及到了数据分析并实现可视化的热点问题。目前该领域理论和应用研究在不断地深入。对于专利信息服务平台,通常在功能上比较简单化,但是海量的数据资源逐渐扩大,对数据进行加工的时候需要计算机辅助人工操作计算,从而使我们在数据分析过程中对于数据清洗的问题更加重视。本课题在数据挖掘的基础下对专利信息分析的方法体系进行研究,对专利文本信息进行数据加工、了解涉及到的算法、专利分析基本框架以及数据可视化展示进行研究总结,从而达到技术上的支持。针对专利权人以及发明人的数据信息进行清洗,在专利分析中具有独特的价值,对数据信息进行更有效的分类处理能够体现信息内部看不到的数据信息,使信息更简明,对后期的分析及可视化工作做了良好的铺垫。同时也提高了数据清洗的效率,降低了数据清洗的成本。为了完成对专利权人及发明人的清洗工作,本文运用了AdaBoost算法对其进行重新分类,将更多的小分类结合成一个更有用的大分类体系。对数据清洗的方法给予了新的思想,也对相近的数据类型的清洗任务给予了有用的参照。最后对数据进行表述,利用可视化技术呈现视觉模型,对图形的展示加以分析。
  • 【期刊】 R语言在全国取水许可台账数据清洗中的应用

    刊名:《电脑编程技巧与维护》 作者:何贵成 ; 张华 ; 万毅 关键词:数据清洗 ; R语言 ; 取水台账 ; 异常值 机构:华北电力大学可再生能源学院 ; 华北电力大学可再生能源学院 ; 水利部水资源管理中心 年份:2016
    摘要:全国取水许可台账是由人工在网上填报,有漏填、错填和数据不符合逻辑等问题。使用R语言,以全国取水许可台账数据为例,进行字段空值检测、业务逻辑错误检测和年取水总量的异常值检测等数据清洗工作。
  • 【期刊】 基于电信运营商固网DPI系统的大数据清洗方案

    刊名:电信工程技术与标准化 作者:肖明坤 ; 王吉顺 关键词:数据清洗 ; 大数据 ; DPI系统 机构:江苏省邮电规划设计院有限责任公司 ; 江苏省邮电规划设计院有限责任公司 年份:2016
    摘要:本文提出了一种针对电信运营商固网http信息的清洗方案,经过现网试点部署验证可到80%以上的清洗率,大大节省了存储空间和网络传输带宽,对运营商开展固网大数据业务具有重要的借鉴意义。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转