·
搜索结果:找到“Web信息采集”相关结果53989条
排序: 按相关 按相关 按时间降序
  • 【期刊】 面向主题的web信息采集系统的设计与实现

    刊名:信息与电脑(理论版) 作者:彭嫚 机构:贵州师范大学机械与电气工程学院 ; 贵州师范大学机械与电气工程学院 年份:2014
    摘要:提出了一个基于Agent技术的数据采集系统,介绍了它的设计思想和工作流程,根据系统的需求分析,建立了一套基于人才招聘用户自定义的信息目录分类体系,详细阐述了整个系统关键部分的实现过程。通过对系统的测试表明,该数据采集系统具有良好的可靠性和应用性,可以为企业使用,提高效益。
  • 【期刊】 基于MongoDB的Web信息采集系统应用研究

    刊名:湖南邮电职业技术学院学报 作者:孙美卫 关键词:日志分析 机构:泉州经贸职业技术学院 ; 泉州经贸职业技术学院 年份:2017
    摘要:在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题.文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试.测试结果表明:在挖掘Web日志数据的情况下,能将数据中的主要访问模式进行系统化更新,从而为网站的结构模式采集提供有效信息.
  • 【论文】 分布式JS解析在web信息采集系统中的研究与应用

    作者:郑学通 关键词:信息采集 ; JavaScript 脚本解析 ; Hadoop 调度算法 ; 和声搜索算法 机构:河北工业大学 ; 河北工业大学 年份:2015
    摘要:随着互联网技术的飞速发展,网络在人们生活当中的应用范围越来越广泛。一方面,由互联网产生的海量数据中包含了许多有利用价值的信息,这就对web信息采集提出了需求;另一方面,越来越多的新技术被运用于互联网领域,其中动态网页技术,尤其是动态脚本技术的运用,很大程度地提升了网页的功能性、美观性以及用户使用时的体验,但由于原有的网页信息采集系统不能够对脚本进行解析,所以无法实现对动态网页信息采集。针对此问题,本文设计实现了一个基于分布式计算的网页脚本提取解析系统,并将其与原有信息采集系统相结合,从而实现了信息采集系统对动态网页信息准确、高效的采集。首先,通过对JavaScript脚本语言和常用解析引擎的研究分析,设计了脚本提取解析的流程,主要包括脚本程序的提取和解析环境的构建。其次,将JavaScript脚本提取解析与Hadoop分布式计算相结合,通过对现有Hadoop调度算法的研究分析,结合脚本提取解析系统实际运行所处的异构集群环境,设计了异构集群环境下基于和声搜索的调度算法。再次,为了将脚本提取解析系统与原有信息采集系统相结合,以原有的Nutch系统的文件存储结构为基础,设计了系统整体文件结构和数据存储格式。最后,完成了系统的MapReduce编程实现,并在实际的Hadoop平台上进行了测试。通过对测试结果的分析,验证了整合脚本提取解析系统之后的信息采集系统能够对动态网页进行信息采集,并且采用基于和声搜索的调度算法在异构集群环境中提高了脚本提取解析任务的执行效率。可见本文提出的方案实现了信息采集系统对动态网页信息准确、高效的采集,为信息采集相关领域提供了一种技术改进思路。
  • 【论文】 基于信任的Web信息采集的研究与实现

    作者:杨志倩 关键词:P2P ; 网络 ; 信任模型 ; 全局信誉 ; 电子商务 ; Web信息采集 机构:东华大学 ; 东华大学 年份:2013
    摘要:随着网民数量急剧增长,中国网民的购物比例也在持续快速上升。C2C电子商务技术发展迅速,但由于其自身拓扑结构的开放性、动态性以及不确定性等特点,使其交易的安全问题也变得越来越突出。由于P2P环境下的节点之间的交易与C2C电子商务交易系统中节点的交易具有相似性。因此,本课题将信任相似性应用到电子商务交易中来分析研究电子商务交易的安全性问题,设计并实现了一个基于信任的Web信息采集系统。 本文主要从以下几个方面进行研究:首先,设计了基于信任的Web信息采集系统进行信息采集;然后,提出了基于信任相似性的全局信誉的计算方法;最后,进行了实验仿真,使用开源软件Nutch进行Web信息采集,并将采集到的数据应用于由Netlogo搭建的仿真环境进行实验仿真。实验结果表明,该模型可以有效地显示节点的真实信誉情况,通过信任机制的传递和传播筛选信息使结果信息更加真实、安全可靠,在一定程度上提高了成功交易的可能性,降低了恶意欺骗行为发生的概率,模型具有一定的有效性,在C2C电子商务中有利于买方获得关于卖方信誉的真实信息。
  • 【论文】 增量式Web信息采集与信息提取系统的研究与实现

    作者:李莎莎 关键词:增量采集 ; Web信息采集 ; 信息抽取 机构:武汉理工大学 ; 武汉理工大学 年份:2011
    摘要:随着网络的迅猛发展,人们越来越依赖从网络上获取信息。网络信息资源的保存寿命通常只有几十天,随着时间的推移,大量旧的网络信息资源正在被新的网络信息淹没。如何更迅速更准确地从互联网上采集有用的信息成为研究的热点。大规模的非增量式采集技术已经发展很成熟。为了避免因重复搜集未变化的网页而带来时间上的浪费,增量采集技术应运而生。为了提高更新采集的效率和信息抽取的抽准率,本文主要针对增量更新的Web信息采集及基于隐马尔夫模型的信息提取进行了研究。 本文分析了Web信息采集系统的研究背景、研究意义、发展现状以及其面临的各种困难和挑战,阐述了信息采集系统的工作原理和网络爬虫的工作流程,在研究信息采集系统以及信息抽取的核心技术的基础上结合增量信息采集系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案,构建了一个性能良好,具有可扩展性的增量信息采集及信息提取系统。该系统包括如下几个模块:页面采集、页面解析、URL去重、页面去重和更新检测。论文的主要工作以及创新如下: 1.引入了目录型网页,提高了发现新网页的效率,采用FWKNN算法有效地识别了目录型网页。 2.针对MD5算法过于苛刻的问题,本文采取基于网页框架和规则的方法先对网页去噪后,再对网页正文计算得出唯一的MD5值。此方法在一定程度上提高了网页相似性分析的准确率。 3.在预测网页的变化频率方面,通过分析泊松模型存在的缺点,引入了更新频率计算窗口,提出内容分析和网页隶属分析,避免了建立模型前需要大量的训练数据,能更准确地预测网页变化频率。 4.在研究隐马尔可夫模型的基础上,改进了基于HMM的信息抽取方法,对含有固定格式的信息项采用正则表达式处理,并对未知观测值概率进行了平滑处理。实验表明该方法获得了更好的抽取效果。 最后,通过改进的Web增量采集及信息提取系统的实验,分析了运行的数据,证明系统已成功达到了预期的目标。
  • 【论文】 基于多用户的Web信息采集系统的设计与实现

    作者:李烁 关键词:Web信息采集 ; 多用户 ; XPATH 机构:西安电子科技大学 ; 西安电子科技大学 年份:2010
    摘要:Web信息的急速增长给信息的提取和有效使用带来了巨大挑战,特别是对于众多的企业用户,如何从大量的网站页面中把需要的有用信息提取出来是它们迫切需要解决的问题。本课题是针对这些企业用户开发的基于多用户的Web信息采集系统,它实现了可视化的采集规则设置界面,并以C/S方式把用户的采集任务放在远程服务器上运行,从而减轻了用户在采集规则设置和采集任务维护方面的负担。 本课题系统包括客户端和服务器端两部分组成,服务器端包括采集服务器和中心服务器。用户通过客户端进行采集项目设置并把采集项目上传至中心服务器,中心服务器把采集任务分配给采集服务器进行信息采集,采集服务器在采集完成后把采集结果通过Email、Ftp等方式发送给用户。 本课题系统构架采用C/S结构和B/S结构相结合的方式,主要使用Python程序语言开发,在客户端使用Javascript和DOM技术实现了采集项目设置的可视化,使用XML-RPC协议同服务器进行通信。在采集服务器端使用Html51ib对页面进行清理,以XPATH的方式对页面信息进行采集、提取,实现了对各类页面(包括一些非标准和HTML5页面)的页面清理、信息提取功能。在中心服务器端使用数据库结合多进程的方式完成采集任务的分发和控制,并利用Django框架完成了一个Web界面的后台管理模块为管理员提供用户账号、采集任务的管理功能。同时在服务器端配置了Cacti对服务器系统状态进行监控,以确保系统的稳定性和可靠性。 本课题系统采集规则设置完全可视化,不需要编写脚本,操作简单;采集任务在远程服务器上运行,不需要用户自己维护,可以为用户提供稳定的、持续的信息采集服务。目前系统已完成测试和试运行,试用效果良好,能够为用户提供稳定的采集服务,同时在易用性和运行成本方面与同类软件相比具有优势,适合进行大规模市场推广。
  • 【期刊】 基于网页分块自定义信息提取的Web信息采集器设计

    刊名:广东科技 作者:苏炜 ; 李正权 ; 黎有 关键词:信息采集 ; 信息提取 ; XPath定位 ; 信息降噪 ; 结构化存储 机构:广东省计算中心 ; 广东省计算中心 年份:2010
    摘要:通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。
  • 【论文】 面向药品安全领域的Web信息采集研究与应用

    作者:刁维康 关键词:药品流通监控 ; 问题药品信息 ; WebCrawler ; 链接筛选 ; 信息抽取 机构:重庆大学 ; 重庆大学 年份:2010
    摘要:近年来,药品安全突发事件频繁发生,中国连续出现了“齐二药”、“欣弗”等药品安全事件,这些事件暴露出药品监管工作中存在的一些不足。随着经济的发展、经营条件的放开,药品经营企业的数量日益增加,传统的监管模式已无法适应动态监管和主动监管的需要。为此我们设计开发了药品流通监控系统,为药品监督局的药品监管工作提供有力的支撑,提供详细全面的药品流通信息和问题药品信息。 本文从药品流通监控系统的关键子系统:问题药品信息采集子系统开发中所遇到的问题出发,研究了问题药品信息的来源的特征和内容结构,并针对Web信息采集所要使用的WebCrawler的爬行策略和Web信息抽取策略进行了研究,讨论了最适合本系统的WebCrawler中的爬行策略:基于模式匹配的链接筛选策略,并详细介绍了这种链接筛选策略所要采用的多模式特征匹配算法Wu_Manber94;讨论了基于DOM解析的Web表格信息抽取策略,并对表格信息抽取策略中的表格定位、数据表格发现、表格数据抽取3个关键问题进行了研究。在需求分析、总体设计和链接筛选策略和内容抽取策略探讨的基础上,对系统进行了总体设计和详细设计,并成功将基于模式匹配的链接筛选策略和基于DOM的Web表格信息抽取策略运用到系统实现中。
  • 【期刊】 基于XML的Web信息采集系统设计与实现

    刊名:齐齐哈尔大学学报(自然科学版) 作者:王磊 关键词:抽取规则 机构:蚌埠学院计算机工程学院 ; 蚌埠学院计算机工程学院 年份:2017
    摘要:设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入MySQL数据库中.通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性.实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求.
  • 【论文】 Web信息采集和统计技术的研究与实现

    作者:林镇灿 关键词:信息采集 ; 信息抽取 ; 信息集成 ; 数据统计 ; 数据缺失 机构:华南理工大学 ; 华南理工大学 年份:2010
    摘要: 近年来,随着Web技术的快速发展,Internet上的资源日趋丰富。为了帮助人们在浩如烟海的互联网中获取有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速的发展。本文是建立在一个农产品信息定向搜索系统的基础上,对数据采集和数据统计领域进行研究。分析当前数据采集和数据统计面临的主要问题,为该系统设计并实现了信息采集模块和数据统计模块。提高了信息检索的准确率,新增了获取相关信息统计量和统计图的功能。 由于Web信息的多样性和异构性,促进了人们对于信息采集的需求。信息采集包括信息抽取和信息集成。本文分析了当今信息采集主要面临的问题。针对系统的特点,提出一种基于模板的信息抽取方案,一种基于全局数据结构的信息集成方案,解决了多数据源信息采集的问题,为用户提供了统一的全局搜索接口。 垂直搜索的目的在于为用户提供某一行业或某种主题的相关信息,然而大部分从Web采集信息都是简单的描述性信息。对于某行业的从业人员或研究人员,这种描述性信息未必能满足他们的需要,更多时候他们还需要一些具有统计意义的数据。本文分析了数据统计过程中可能出现的数据重复和数据缺失等问题。根据用户的需要,为系统设计并实现了数据统计功能模块。该模块让用户获取农产品信息的七个重要统计量和两种统计图,还可以通过设置品种、地域、时间三个条件来控制统计数据的范围。
  • 【论文】 基于聚焦爬虫的web信息采集技术研究

    作者:姜博 关键词:垂直搜索引擎 ; 聚焦爬虫 ; 主题相关度 ; tunnel ; TPR 机构:北方工业大学 ; 北方工业大学 年份:2011
    摘要:随着Internet和WWW (World Wide Web)的迅速发展,Web信息呈现指数级的增长,用户在这个庞大的信息库中查找需要的信息越来越力不从心。针对这样的问题,在Web信息检索领域出现了针对主题的聚焦爬虫技术。聚焦爬虫是主题搜索的基础和核心,并且随着逐步的发展和技术应用的深化,目前逐渐的应用在个性化信息采集、链接有效性分析、网站结构分析、用户浏览兴趣挖掘等各种实践和研究中。基于聚焦爬虫的主题Web信息采集研究具有广泛的现实意义。 研究了搜索引擎系统和网络爬虫的基本原理、工作流程,着重研究了聚焦爬虫的特点、页面主题分析、基于链接结构和内容的搜索策略算法等。在关键技术的实现中,对已采集页面进行主题相关性判定,提取主题特征,通过基于向量空间模型的网页主题相关度判定算法计算页面的主题相关度,提高了主题信息采集的准确率;对待抓取URL进行主题相关性预测,利用主题页面分布特性和扩展元数据进行URL的主题相关度计算,考虑了主题页面的tunnel特性,提高了主题信息采集的召回率;引入链接结构分析算法PageRank,提出了综合相关度和重要度的URL综合价值计算方法TPR (Topical PageRank)。 最后通过实验测试了信息采集的技术指标,验证了技术改进的有效性。
  • 【论文】 基于WEB信息采集的分布式网络爬虫搜索引擎的研究

    作者:李春生 关键词:搜索引擎 ; 网络爬虫 ; 分布式系统 机构:吉林大学 ; 吉林大学 年份:2009
    摘要: 随着网络技术的发展,Web上的信息海量增加,人们对信息的需求也不断加大,使得专门负责Web信息采集的网络爬虫技术面临着巨大的挑战。单机的网络爬虫在很多情况下已经难当重任,分布式网络爬虫以其单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息面向用户的需求。 分布式系统研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计并描述了一个分布式网络爬虫的结构,其中包括硬件的构架和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。 然后本文描述了分布式系统的关键技术的解决方法。系统采用了二级哈希映射算法使分布式系统能高效的进行任务分割,使用消息通信使节点协同工作,用非阻塞套接字在节点间传递URL。最终实现了一个具备健壮性、可扩展性、可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。
上一页 1 2 3 4 5 6 7 8 9 10 下一页 跳转