【摘 要】
:
随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将
论文部分内容阅读
随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将非结构化的文本信息转化为结构化的词-文档矩阵,然后进行聚类处理。由于自然语言中多义词、同义词等不确定性因素的存在,而向量空间模型只是词面上的匹配,所以利用向量空间模型进行文本聚类,质量欠佳。为了弥补单纯的向量空间模型的这一不足,研究人员开始探索一种智能型的解决方法,即潜在语义分析法。潜在语义分析(LSA),它可以看作是一种扩展的向量空间模型。在利用向量空间模型将数据集里的文本表示成词-文档矩阵之后,LSA通过截断奇异值分解(TSVD),建立低维的词语对文档的潜在语义空间,然后在低维的语义空间中应用k-平均算法来对文本进行聚类。本文主要研究基于潜在语义分析的中文文本聚类的效果,对可能产生影响的因素进行分析。因为截断奇异值分解在过滤“噪声”的同时,也会舍弃一部分的弱势特征。为了减弱LSA对弱势主题的忽略,本文提出一个基于词替代思想的潜在语义分析改进模型。在进行文本聚类时,常用的算法是k-平均聚类算法,k-平均聚类算法时间和空间复杂度较小,易于实现;但k-平均算法在随机选取初始类中心时存在不足,而且不适用于发现大小差别很大的分区,对噪声和孤立点很敏感。本文针对这几点不足,将文本模拟成数据点,借鉴分子间的相互作用力模型,对k-平均聚类算法进行改进,并利用云模型来确定孤立点。最后,本文利用改进的LSA,提出基于用户潜在兴趣的多层次文本聚类模型。实验表明,改进的LSA模型能够更好的解决同义词、多义词问题,并且大大减弱对弱势特征的忽略;改进的k-平均算法聚类效果有很明显的提高,能更好的应用到文本处理中;而基于用户潜在兴趣的文本聚类模型,能够较好的为用户提供服务。
其他文献
“报文”是互联网用IP协议进行传输的基本单位,也是被动测量“感知”网络的基本单位,因此被动测量所获得的原始信息是报文流,通常称为“IPTRACE”。早期相关的研究工作直接面向T
我国高校的信息化过程一般经历两个阶段,第一阶段:各业务部门独立地开发应用系统,这些应用系统在一定程度上提高了校园信息化程度。但是这些系统由于技术平台、开发环境的差异,彼
随着医学影像诊断技术的发展,大量的医学图像数据随之产生。通常意义上的胸部影像学的主要研究对象就是肺部,它一般通过建立肺窗来观察相应肺部影像,而计算机断层图像(CT)则
工作流管理技术是实现企业业务过程重组、过程管理与过程自动化的核心技术。作为工作流技术的软件载体,工作流管理系统WfMS(Workflow ManagementSystem)的主要目标是通过调用有关信息资源与人力资源来协调业务流程中的各个环节,使之按照一定的顺序执行,从而达到业务过程自动化的目的。目前的工作流管理系统在可适应性和灵活性方面还有很大的不足,本文针对Synchroflow工作流管理系统提
随着PDA等智能终端的不断普及和互联网的飞速发展,利用手机或PDA等智能终端浏览网页、上网购物越来越成为引领现代人生活的时代潮流,人们在充分享受着互联网所带来的方便和高
近年来,随着科学技术日新月异的发展,计算机向着高性能、微型化方向发展的速度也越来越快。半导体技术的提高和嵌入式技术的应用,使得传统意义上的计算机已缩小至板级、芯片
1990年12月25日Web上线,1993年3月15日图形浏览器诞生,人们由此开始彻底改变了网上查阅信息、获取资料的习惯,Web已经成为人们获取信息的一条重要途径。由于Web页面的日益增加,获
软件测试在整个软件开发过程中占有非常重要的地位,是保证软件质量、提高软件可靠性的关键。随着软件设计技术的发展、软件规模的增加、软件开发周期的缩短、软件测试工作量
随着数据库技术的迅速发展及其广泛应用,在数据库中积累的数据量越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够在已有的大量数据的基础上进行科学研究、商业决