公开信息搜集方法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:jianfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网是一个基于TCP/IP协议连接各国、各机构成千上万计算机网络的通信网,集各种信息资源于一体,海量的信息源令传统载体望尘莫及。由于政府、机构、企业和个人都可以在网上发布信息,因此它成为无所不有的庞杂信息源。目前,在因特网上仅数据库就有上百万种,其他信息更是难以计数,这些资源在数量和增长速度上是其他任何环境下的信息资源所无法比拟的。随着计算机技术的发展和因特网的普及,Web数据变得越来越重要。在公开信息搜集领域,因特网正成为一个新的公开信息搜集对象,但由于因特网数据及应用的特殊性,使得传统的公开信息搜集方法不能直接应用于这个新对象,而以数据挖掘为基础发展起来的Web挖掘是解决此矛盾的一种新方法,将其引入到公开信息的搜集中正是本文研究的目的和意义所在。论文分析和总结了因特网信息的特点及当前常用的公开信息搜集方法,在此基础上,通过对Web内容挖掘、使用挖掘、结构挖掘方法及其在公开信息搜集中的应用研究,充分证明了Web挖掘方法可以有效地提高公开信息搜集的质量和效率。首先,在Web内容挖掘中,针对Web文本的特征,对其挖掘流程进行了详细的阐述,研究了文本挖掘过程中的特征提取算法,重点分析了传统TFIDF算法,指出了传统TFIDF算法没有考虑词条在文本内分布情况的不足,并在此基础上提出了加权TFIDF改进算法,通过实验验证了改进后的算法可以有效地提高文本的查准率和查全率;在Web使用挖掘中,论文研究了Web使用挖掘的预处理过程,以实验验证了其有效性,并在经过预处理的日志数据之上通过实验使用类Apriori算法发现了用户浏览网页的频繁模式;在Web结构挖掘中,研究了Page-Rank算法和HITS算法的原理,并对其在公开信息搜集应用中的可行性进行了分析。最后在全文总结中,对Web挖掘在公开信息搜集中的应用前景进行展望并给出了下一步的研究方向。
其他文献
目的:探讨艾灸联合西药对慢性溃疡性结肠炎临床疗效。方法:回顾性分析147例慢性溃疡性结肠炎患者的临床资料,艾灸联合西药治疗的75例患者为观察组,单纯服用西药治疗的72例患
渭河风情线是天水市麦积区主要的城市景观之一,改善了城市生态环境,维护城市生态平衡,并且展示了城市的历史文脉,应用不同生态习性的植物创造不同的生态环境,以实现植物的多
【正】甬政办发[2014]228号各县(市)区人民政府,市直及部省属驻甬各单位:为进一步做好普通高等学校毕业生(以下简称高校毕业生)就业创业工作,鼓励优秀毕业生来甬就业创业,确
回族既是我国第四大民族,也是西部地区的主要少数民族之一,尤其甘、青、宁两省一区是回族最为集中的分布地区,将近占全国回族40%的人口布在这里。贫困即物质性贫困与文化贫困
近些年来,城市供暖逐渐成为广大城市居民关注的热点问题,日益引起整个社会的关注。从产品属性来看,城市供暖属于准公共物品,具有公益服务性,理论上应该由政府提供,同时,城市
介绍海南省大乐大桥用超声波透射法检测钻孔桩混凝土灌注质量的方法 ,并根据检测结果对桩身混凝土有质量缺陷的桩进行了处理