Web信息采集和统计技术的研究与实现

被引量 : 0次 | 上传用户:siaonn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web技术的快速发展,Internet上的资源日趋丰富。为了帮助人们在浩如烟海的互联网中获取有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速的发展。本文是建立在一个农产品信息定向搜索系统的基础上,对数据采集和数据统计领域进行研究。分析当前数据采集和数据统计面临的主要问题,为该系统设计并实现了信息采集模块和数据统计模块。提高了信息检索的准确率,新增了获取相关信息统计量和统计图的功能。由于Web信息的多样性和异构性,促进了人们对于信息采集的需求。信息采集包括信息抽取和信息集成。本文分析了当今信息采集主要面临的问题。针对系统的特点,提出一种基于模板的信息抽取方案,一种基于全局数据结构的信息集成方案,解决了多数据源信息采集的问题,为用户提供了统一的全局搜索接口。垂直搜索的目的在于为用户提供某一行业或某种主题的相关信息,然而大部分从Web上采集的信息都是简单的描述性信息。对于某行业的从业人员或研究人员,这种描述性信息未必能满足他们的需要,更多时候他们还需要一些具有统计意义的数据。本文分析了数据统计过程中可能出现的数据重复和数据缺失等问题。根据用户的需要,为系统设计并实现了数据统计功能模块。该模块让用户获取农产品信息的七个重要统计量和两种统计图,还可以通过设置品种、地域、时间三个条件来控制统计数据的范围。
其他文献
目前中国有中国移动、中国联通两张GSM网络,总用户数达到7亿,是全世界最大的移动通信网络。尽管当前中国发放了WCDMA、CDMA2000、TD-SCDMA三张3G牌照,但在相当长一段时间内GS
电机维修实训教学的改革,是国家级高职高专教学改革试点专业实践教学的成果。文章介绍了高职院校电机维修实训教学存在的问题及改革的过程,并建立了严格的考核标准,对高职自
<正>日前,北京市民政局在京举办了心理健康工作研究会。研讨会由市民政局工会牵头,有基层工会代表发言、有专家学者献策、有主管部门诠释。研讨会从理论和实践的层面对民政行
我作为南京地方史的长期研究者和《中国大百科全书》参与者的老一代研究人员,能够亲眼目睹4年前我建议启动的《南京百科全书》顺利诞生,感到非常高兴和倍感欣慰。我曾经有幸参
<正>一、问题来源氢化物的稳定性是试卷中经常考查的题目,通常考查同周期或同主族元素的对应氢化物的稳定性。一般规律是,同周期从左到右,对应元素的非金属性逐渐增强,氢化物
传闻证据规则是当事人主义诉讼模式的重要特色,是英美证据法的核心和灵魂。传闻证据规则,是指除非法律另有规定,传闻证据不得采纳。历经数百年的发展演变,传闻证据规则已成为
<正>一、问题的提出在互联网上有一个碱金属与水反应实验的视频:国外一组研究人员在空旷的室外进行碱金属单质锂、钠、钾、铷、铯与水反应的实验。具体的现象是:锂与水平稳反
风能是一种清洁能源,它的优势是可再生,因此,许多国家都将其作为可持续发展战略中的一部分。虽说风能使用不会对环境造成污染,但是风电的成本仍然高于其他常规的能源,无法与
海洋工程领域对可大线能量焊接且低温韧性优良的厚钢板需求迫切。宝钢通过微合金化技术及调质工艺,开发出了满足大线能量焊接的E550级海洋工程用钢。通过冶炼、轧制、调质试
随着科技进步和医学模式的转变,传统的教学模式制约着教学质量的提高,我国医学教育改革迫在眉睫。医学院校作为培养我国医师后备队伍的摇篮,本科教学阶段要培养具有全面素质