【摘 要】
:
随着网络上电子文档呈指数级增长,人们迫切需要能利用计算机自动地处理这些文档,主要包括文档的自动分类、聚类和摘要。本文的侧重点是文档聚类。文档聚类的一般过程包括文本
论文部分内容阅读
随着网络上电子文档呈指数级增长,人们迫切需要能利用计算机自动地处理这些文档,主要包括文档的自动分类、聚类和摘要。本文的侧重点是文档聚类。文档聚类的一般过程包括文本表示、聚类算法和聚类结果评价。其中,文本表示和聚类算法是一个聚类工具最重要的两个方面。在文本表示方面,向量空间模型占据统治地位。由于文本的半结构化特征,向量空间模型作为本文表示的缺点也是显而易见的。近来,复杂网络作为一门研究复杂性的工具引起了研究人员的广泛关注。文本作为人们的书面语言,也具有复杂性的特点。本文从复杂网络的角度探讨了汉语语言网的统计性质,希望从中能获得关于文本表示的新的发现。本文从一个最大的人民日报语料库出发,构造了两个不同的网络(CLN1和CLN2)。对于这两个网络,一个节点代表语料库里面的一个词。对于CLN1,如果两个节点对应的词在语料库的一个句子里是相邻的,则这两个节点之间形成一条边;对于CLN2,如果两个节点对应的词处于同一个句子里,则这两个节点之间有一条边。本文通过实验论证了这两个网络都展现了小世界效应、度分布无尺度结构、层次结构和负相关性。我们希望这些结果能为寻求新的文本表示模型带来新的线索。在聚类算法方面,本文关注在半监督条件下的文本聚类。在实际应用中,关于文档集的一些先验知识是知道的,比如某两个文档应该是归为一类的。这种先验知识可以用来在聚类过程中起到约束作用。这种利用了用户先验知识的聚类方法叫做半监督聚类。K-means是个常用且有效的聚类方法。本文把这种先验知识通过数学表达的方式与K-means的基于矩阵迹的目标函数结合起来,得到的新的目标函数可以通过矩阵特征值分解的方法进行优化。实验表明,本文提出的算法大大优于同类的几个方法。
其他文献
随着计算机网络的持续快速发展,各种网络应用需求不断涌现,造成网络数据流量的激增。网络拥塞问题变得越来越严重,网络拥塞控制也一直是网络研究的关键热点问题之一。目前,TC
电磁散射问题是计算电磁学的主要研究方向之一,而对具有复杂形状电大尺寸的目标的电磁散射问题的研究具有重要的科学研究价值。电磁散射计算领域有很多计算方法,基于积分方程的矩量法就是其中一种比较受欢迎的方法。矩量法是基于电磁场积分方程的数值方法,但由于矩量法的全局性,矩量法所产生的矩阵多为稠密矩阵,而随着计算机技术的不断发展,研究矩量法的快速算法也成为了一个热点。本文以基于GPU的加速计算框架为基础,对矩
由于近年来机动车的保有量不断提高,随之而来的交通拥塞和道路交通安全问题越来越得到人们的重视。为了减少道路拥塞并降低道路安全问题的发生率,车联网应运而生。在车联网研
随着数码科技发展越来越迅速,人们对于拍摄数字照片并进行后处理的兴趣也逐渐增加。图像修复作为一个应用价值极高的后处理功能,将来势必成为图像处理工具的插件之一。然而,
计算机网络的高速发展和网络新应用的不断涌现给网络安全带来了很大的冲击,网络安全成为新的信息安全的热点;安全协议作为计算机网络安全体系的重要组成部分,也就变得越来越
校园网身份认证系统是数字化校园中十分关键的部分。现在许多校园多个校区的情况使得校园网划分为多个域,用户的跨域身份认证成为身份认证系统必须解决的问题。无线局域网由
近年来,随着Internet和Intranet/Extranet的快速发展,Web应用被广泛应用到各个领域,Web应用的开发效率及质量要求不断提高,开发工作的难度不断增加。如何快速有效的开发出Web应用
随着多媒体技术以及互联网应用的迅速发展,多媒体数据量特别是视频数据量呈现爆炸式地增长,找到一种行之有效的视频检索方法越来越成为一种必须。高效的视频检索技术能够极大
网上阅卷是一种为提高阅卷自动化、智能化和共享化而兴起的应用,它通过互联网将阅卷客户端和服务器端连接在一起,数据的传输在互联网上进行。因此,研究和开发一种能够保护网
组播通信与单播通信类似,也面临着互联网上潜在的安全问题。有关研究结果给出,结合单播系统中新一代安全标准IPSec,提出了组播安全的相应解决方法,并讨论了安全组播和IPSec的