一种基于模糊聚类的汉语文本自动分类方法

来源 :计算机应用与软件 | 被引量 : 7次 | 上传用户:lostlovestefan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何快速地整理海量信息 ,对不同的文本进行有效分类 ,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法 ,较好地解决了信息的实时分类问题 ,在实践中收到了良好的效果。由于汉语文本的特殊性 ,在分类器训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,因此分类算法采用模糊c -原型算法。实验表明 ,该方法综合效果较好 ,可以实现文本的快速分类。
其他文献
本文研究了图像在小波变换下的部分特性,对利用小波分析中的多尺度分析进行图像分割的方法进行了探讨。通过对目标众多的图像分割进行研究,提出了一种既能够将背景和目标分割开来,又能够将不同大小的目标区分开来的方法。
目前国内高速宽带网尚未普及,西部地区尤其如此。互联网上虽然有影视剪辑广播,但拨号上网很难获得满意的实时点播效果。然而在一些企事业单位和学校的局域网上,文件实际下载速率却可以达到几百Kbps到1Mbps左右,使采用流媒体技术实现影视点播成为可能。本文即探讨在局域网上采用流媒体技术,以RM和ASF文件格式实现影视点播的方法,并给出了具体示例和调用影视数据库的代码。
二值图像分析中 ,区域的周长是一重要的几何性质 ,用基于象素的方法计算 ,效率较低 ,利用二值图像的四叉树表示基于图像块作计算 ,可极大地提高运行效率 ,例如H .Samet方法 ,但它对内部有孔的图像计算不准[1 ] 。本文方法在边界跟踪的基础上计算周长 ,因而可以避免这个问题 ,文章最后对这三种方法计算结果进行了对比 ,实验结果表明本文方法计算准确、速度快
文档图像理解中最重要的部分是逻辑结构的提取。目前的研究主要集中在页面的布局分析上,少数对文档逻辑结构的研究只是针对单页文档或页面关系简单的多页文档。建筑标书的特殊性在于其层次式的逻辑组成结构没有明确的索引信息标识。本文提出了一种利用页面间引用关系获取文档逻辑结构的方法。该方法采用修正的树形结构表示文档的逻辑结构,逻辑树的创建过程就是逻辑结构的获取过程,而且有利于更高层的语义处理及还原输出。该方法已