公开信息搜集方法研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：jianfei

【摘要】

：

因特网是一个基于TCP/IP协议连接各国、各机构成千上万计算机网络的通信网,集各种信息资源于一体,海量的信息源令传统载体望尘莫及。由于政府、机构、企业和个人都可以在网上

【作者】

：

徐志成

【出处】

：

电子科技大学

【发表日期】

：

2011年期

【关键词】

：

公开信息 Web内容挖掘 Web结构挖掘 Web使用挖掘 TFIDF算法类Apriori算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网是一个基于TCP/IP协议连接各国、各机构成千上万计算机网络的通信网,集各种信息资源于一体,海量的信息源令传统载体望尘莫及。由于政府、机构、企业和个人都可以在网上发布信息,因此它成为无所不有的庞杂信息源。目前,在因特网上仅数据库就有上百万种,其他信息更是难以计数,这些资源在数量和增长速度上是其他任何环境下的信息资源所无法比拟的。随着计算机技术的发展和因特网的普及,Web数据变得越来越重要。在公开信息搜集领域,因特网正成为一个新的公开信息搜集对象,但由于因特网数据及应用的特殊性,使得传统的公开信息搜集方法不能直接应用于这个新对象,而以数据挖掘为基础发展起来的Web挖掘是解决此矛盾的一种新方法,将其引入到公开信息的搜集中正是本文研究的目的和意义所在。论文分析和总结了因特网信息的特点及当前常用的公开信息搜集方法,在此基础上,通过对Web内容挖掘、使用挖掘、结构挖掘方法及其在公开信息搜集中的应用研究,充分证明了Web挖掘方法可以有效地提高公开信息搜集的质量和效率。首先,在Web内容挖掘中,针对Web文本的特征,对其挖掘流程进行了详细的阐述,研究了文本挖掘过程中的特征提取算法,重点分析了传统TFIDF算法,指出了传统TFIDF算法没有考虑词条在文本内分布情况的不足,并在此基础上提出了加权TFIDF改进算法,通过实验验证了改进后的算法可以有效地提高文本的查准率和查全率;在Web使用挖掘中,论文研究了Web使用挖掘的预处理过程,以实验验证了其有效性,并在经过预处理的日志数据之上通过实验使用类Apriori算法发现了用户浏览网页的频繁模式;在Web结构挖掘中,研究了Page-Rank算法和HITS算法的原理,并对其在公开信息搜集应用中的可行性进行了分析。最后在全文总结中,对Web挖掘在公开信息搜集中的应用前景进行展望并给出了下一步的研究方向。

其他文献

艾灸联合西药治疗慢性溃疡性结肠炎疗效观察

目的:探讨艾灸联合西药对慢性溃疡性结肠炎临床疗效。方法:回顾性分析147例慢性溃疡性结肠炎患者的临床资料,艾灸联合西药治疗的75例患者为观察组,单纯服用西药治疗的72例患

期刊

艾灸慢性溃疡性结肠炎肠黏膜病变Baron评分中医证候组织病理学炎症介质作用机制

浅析天水渭河风情线植物景观设计及配置

渭河风情线是天水市麦积区主要的城市景观之一,改善了城市生态环境,维护城市生态平衡,并且展示了城市的历史文脉,应用不同生态习性的植物创造不同的生态环境,以实现植物的多

期刊

天水渭河植物景观绿化

光辉的历程──纪念中共浙江省委成立70周年

期刊