论文部分内容阅读
因特网是一个基于TCP/IP协议连接各国、各机构成千上万计算机网络的通信网,集各种信息资源于一体,海量的信息源令传统载体望尘莫及。由于政府、机构、企业和个人都可以在网上发布信息,因此它成为无所不有的庞杂信息源。目前,在因特网上仅数据库就有上百万种,其他信息更是难以计数,这些资源在数量和增长速度上是其他任何环境下的信息资源所无法比拟的。随着计算机技术的发展和因特网的普及,Web数据变得越来越重要。在公开信息搜集领域,因特网正成为一个新的公开信息搜集对象,但由于因特网数据及应用的特殊性,使得传统的公开信息搜集方法不能直接应用于这个新对象,而以数据挖掘为基础发展起来的Web挖掘是解决此矛盾的一种新方法,将其引入到公开信息的搜集中正是本文研究的目的和意义所在。论文分析和总结了因特网信息的特点及当前常用的公开信息搜集方法,在此基础上,通过对Web内容挖掘、使用挖掘、结构挖掘方法及其在公开信息搜集中的应用研究,充分证明了Web挖掘方法可以有效地提高公开信息搜集的质量和效率。首先,在Web内容挖掘中,针对Web文本的特征,对其挖掘流程进行了详细的阐述,研究了文本挖掘过程中的特征提取算法,重点分析了传统TFIDF算法,指出了传统TFIDF算法没有考虑词条在文本内分布情况的不足,并在此基础上提出了加权TFIDF改进算法,通过实验验证了改进后的算法可以有效地提高文本的查准率和查全率;在Web使用挖掘中,论文研究了Web使用挖掘的预处理过程,以实验验证了其有效性,并在经过预处理的日志数据之上通过实验使用类Apriori算法发现了用户浏览网页的频繁模式;在Web结构挖掘中,研究了Page-Rank算法和HITS算法的原理,并对其在公开信息搜集应用中的可行性进行了分析。最后在全文总结中,对Web挖掘在公开信息搜集中的应用前景进行展望并给出了下一步的研究方向。