基于模糊聚类算法的文本挖掘

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户：coolzhaonan

【摘要】

：

当今信息技术不断发展，各种形式的信息大量涌现，其中文本形式的数据量特别庞大。人们希望快速、准确而全面的获取信息的同时，必须面临在巨大的信息资源中找寻有价值信息的难题。

【作者】

：

谢磊

【机构】

：

桂林理工大学

【出处】

：

桂林理工大学

【发表日期】

：

2010年期

【关键词】

：

文本聚类反向分词词典逆向最大匹配分词方法特征表示模糊聚类算法文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今信息技术不断发展，各种形式的信息大量涌现，其中文本形式的数据量特别庞大。人们希望快速、准确而全面的获取信息的同时，必须面临在巨大的信息资源中找寻有价值信息的难题。数据挖掘和自然语言处理技术为解决这个问题提供了新的支撑技术。　　文本挖掘是计算机技术中一个较为崭新的领域，其主要是通过分析大量的文本信息来提取隐含的、未知的、非平凡的以及有潜在应用价值的知识和其他利益。本文主要研究讨论了聚类分析在文本处理中的运用，通过改进逆向最大匹配分词，文本特征表示，模糊聚类来得到一个好的文本聚类集。本文的主要研究内容概括如下：　　由于中文不同于英文等西文语言，中文在字、词之间没有明显的切分标记，在文本结构化表示之前，必须对文本进行分词处理，本文着重分析了逆向最大匹配分词方法，并结合基于散列(Hash)函数的反向分词词典，对逆向最大匹配分方法进行相应的优化，在减少匹配词典次数和缩小匹配范围的同时，发挥了逆向最大匹配分词方法简单易于实现的优点，并且到达“长词优先”的目的，减少了分词歧义。　　 FCM(Fuzzy C-Means)聚类算法，本文结合隶属度加权和平均信息熵技术，有效解决了FCM算法对孤立点敏感和模糊聚类数目选取困难的问题，并且很好的运用于文本挖掘。　　最后，我们对文本分词和文本聚类算法进行了实际操作，在分词和文本聚类实验中得到了较好的结果。

其他文献

基于web2.0的三维虚拟社区的构建

目前对于虚拟社区的研究主要有两个方向:一个是无场景支持的用户交流平台;另外一个是有场景支持的,通常提供用户绚丽的社区场景漫游。这两个方向都有其缺点,首先,无场景支持

学位

Web2.0WebGISWeb3DAJAX场景渲染

基于XML和中间件的异构数据库数据迁移的研究与应用

随着各领域信息化建设的不断发展，许多政府部门或企业都开发和使用了一些独立的信息系统。在数据量和业务需求不断增加的同时，旧的信息系统会面临升级、替换的问题，而旧系统所积

学位

异构数据库中间件数据迁移劳动保险金保工程

嵌入式系统软件实时性测试方法研究

随着计算机软硬件技术的不断进步，嵌入式系统得到快速发展，并广泛应用于工业控制、信息家电、通信设备、智能仪器仪表等领域。同时，系统的复杂性不断增加，导致嵌入式系统软件的规

学位

嵌入式系统软件软件测试实时性测试通信机制

Linux下缓冲区溢出检测的形式化方法研究

系统、软件及程序在运行过程中，都有可能由于缓冲区溢出的问题导致程序行为异常。恶意用户利用服务程序中的缓冲区溢出漏洞，攻击目标信息系统，破坏、修改、窃取信息系统中的敏感

学位

网络层内容过滤防火墙系统的研究

随着Internet的快速发展,网络安全问题日益突出,防火墙技术成为保障网络信息传输安全的有效手段。但传统的防火墙系统难以高效地过滤内容信息,易成为整个网络的性能瓶颈。因

学位

分层过滤内容过滤时延分析排队论

基于流量分析的僵尸网络检测技术研究与实现

从采用IRC协议的“egg drop bot”到高度模块化的AgoBot,僵尸程序从最初的网络聊天室辅助软件,逐渐成为威胁网络安全的主流恶意软件之一。在僵尸网络的攻防博弈中,IRC协议被H

学位

僵尸网络流量分析时空相关性

基于数据挖掘系统的可视化技术研究

面对传统的数据挖掘研究，以可视化的形式对数据挖掘的研究有其独特的优势。利用可视化技术可以使用户更好地了解数据挖掘的全部过程，包括从数据预处理的可视化展示，到数据挖掘过

学位

无线传感器网络路由协议研究及仿真

路由协议是无线传感器网络研究的重点之一，其主要的设计目标是降低节点能量消耗，延长网络的生命周期。本论文首先介绍了无线传感器网络的体系结构、关键技术及应用前景，然后介绍

学位

无线传感器网络路由协议体系结构双簇首机制

基于统计的多文档关键短语和文摘抽取研究

关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文

学位

信息抽取关键短语多文档文摘共聚类术语自然语言处理

对等网络环境下信任模型的研究

P2P网络是一种分布式网络,它不依赖于某个中心服务器来提供服务,任意两个计算机节点都可以是服务的提供者也可以是服务的请求者。相比C/S模式,P2P网络具有容错性好,鲁棒性强,

学位

对等网络信任模型局部声望推荐声望时间衰减惩罚因子

基于模糊聚类算法的文本挖掘

其他学术论文