基于模糊聚类算法的文本挖掘

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:coolzhaonan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息技术不断发展,各种形式的信息大量涌现,其中文本形式的数据量特别庞大。人们希望快速、准确而全面的获取信息的同时,必须面临在巨大的信息资源中找寻有价值信息的难题。数据挖掘和自然语言处理技术为解决这个问题提供了新的支撑技术。   文本挖掘是计算机技术中一个较为崭新的领域,其主要是通过分析大量的文本信息来提取隐含的、未知的、非平凡的以及有潜在应用价值的知识和其他利益。本文主要研究讨论了聚类分析在文本处理中的运用,通过改进逆向最大匹配分词,文本特征表示,模糊聚类来得到一个好的文本聚类集。本文的主要研究内容概括如下:   由于中文不同于英文等西文语言,中文在字、词之间没有明显的切分标记,在文本结构化表示之前,必须对文本进行分词处理,本文着重分析了逆向最大匹配分词方法,并结合基于散列(Hash)函数的反向分词词典,对逆向最大匹配分方法进行相应的优化,在减少匹配词典次数和缩小匹配范围的同时,发挥了逆向最大匹配分词方法简单易于实现的优点,并且到达“长词优先”的目的,减少了分词歧义。   FCM(Fuzzy C-Means)聚类算法,本文结合隶属度加权和平均信息熵技术,有效解决了FCM算法对孤立点敏感和模糊聚类数目选取困难的问题,并且很好的运用于文本挖掘。   最后,我们对文本分词和文本聚类算法进行了实际操作,在分词和文本聚类实验中得到了较好的结果。
其他文献
目前对于虚拟社区的研究主要有两个方向:一个是无场景支持的用户交流平台;另外一个是有场景支持的,通常提供用户绚丽的社区场景漫游。这两个方向都有其缺点,首先,无场景支持
随着各领域信息化建设的不断发展,许多政府部门或企业都开发和使用了一些独立的信息系统。在数据量和业务需求不断增加的同时,旧的信息系统会面临升级、替换的问题,而旧系统所积
随着计算机软硬件技术的不断进步,嵌入式系统得到快速发展,并广泛应用于工业控制、信息家电、通信设备、智能仪器仪表等领域。同时,系统的复杂性不断增加,导致嵌入式系统软件的规
系统、软件及程序在运行过程中,都有可能由于缓冲区溢出的问题导致程序行为异常。恶意用户利用服务程序中的缓冲区溢出漏洞,攻击目标信息系统,破坏、修改、窃取信息系统中的敏感
学位
随着Internet的快速发展,网络安全问题日益突出,防火墙技术成为保障网络信息传输安全的有效手段。但传统的防火墙系统难以高效地过滤内容信息,易成为整个网络的性能瓶颈。因
从采用IRC协议的“egg drop bot”到高度模块化的AgoBot,僵尸程序从最初的网络聊天室辅助软件,逐渐成为威胁网络安全的主流恶意软件之一。在僵尸网络的攻防博弈中,IRC协议被H
面对传统的数据挖掘研究,以可视化的形式对数据挖掘的研究有其独特的优势。利用可视化技术可以使用户更好地了解数据挖掘的全部过程,包括从数据预处理的可视化展示,到数据挖掘过
学位
路由协议是无线传感器网络研究的重点之一,其主要的设计目标是降低节点能量消耗,延长网络的生命周期。本论文首先介绍了无线传感器网络的体系结构、关键技术及应用前景,然后介绍
关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文
P2P网络是一种分布式网络,它不依赖于某个中心服务器来提供服务,任意两个计算机节点都可以是服务的提供者也可以是服务的请求者。相比C/S模式,P2P网络具有容错性好,鲁棒性强,