【摘 要】
:
随着Internet的飞速发展,对网页文本数据的组织和检索技术,已成为当今国际上研究热点之一。文本聚类作为一种对大规模文本信息进行有效组织、导航、检索和概括汇总的基础、关
论文部分内容阅读
随着Internet的飞速发展,对网页文本数据的组织和检索技术,已成为当今国际上研究热点之一。文本聚类作为一种对大规模文本信息进行有效组织、导航、检索和概括汇总的基础、关键技术而日益受到关注,其主要目的是以无监督指导的方式根据文本的内在关系将内容近似的文本分成不同的类。文本聚类技术和网络搜索引擎服务相结合,已经成为文本挖掘领域的一个热点研究课题。但是,把文本聚类技术应用于中文Web文档,与中文搜索引擎服务相结合的研究仍然比较匮乏。针对这一实际问题,根据四川省科技厅青年软件创新课题“基于Web的数据挖掘服务系统-MinerOnWeb”,对中文Web文档的文本聚类技术进行研究。本课题的核心研究之一——基于短语匹配的中文Web文档聚类方法,是为了弥补传统的文本表示模型应用于中文文档不足而发展出来的一种新方法。传统的中文文本聚类方法需要对高维向量进行处理,有对中文文本需要进行分词处理等困难。本文提出的一种新的文本聚类方法,采用一种称为文档索引图的结构来构建中文文本表示模型。在这种模型之上,可以利用文本当中任意匹配的短语来定义文本之间的近似程度,避免了对中文文本进行分词以及处理高维向量等问题。再利用增量的聚类算法,可以将文本按照主题进行聚类处理,将主题相近的文档聚合在一起。本课题实现了基于短语匹配的中文Web文档聚类方法,并将其作为中文搜索引擎结果聚类子系统实现于MinerOnWeb系统中。MinerOnWeb系统是一个基于Web应用的数据挖掘服务系统,提供多种在线的数据挖掘服务。利用我们的中文搜索引擎结果聚类子系统,可以对中文搜索引擎返回的搜索结果进行聚类处理,并将搜索结果按主题进行展示。
其他文献
大规模场景建模是当前计算机虚拟现实领域研究的热门课题,并且是涉及到诸多学科的复杂问题。通过虚拟仿真建模技术实现对建筑场景的还原,对传统古建筑的宣传、保护和传承具有
近年来,自动人脸识别(Automatic Face Recognition, AFR)越来越受到研究者的关注,成为图像处理、模式识别与计算机视觉研究中的热点问题。同时,它作为一种最能平衡各方利弊及
从运动恢复形状(Structure From Motion)是通过序列图像获取场景深度信息的一种技术,它是计算机视觉研究领域内的前沿课题之一,具有重要的理论意义和广泛的应用前景。 本
作业排序与作业计划是服务业、运输、科研以及各种企业生产中普遍遇到的问题。工厂里几台机器出了故障,在现有的维修能力下,如何安排这几台机器的修理顺序,使总体损失最小,这
数字信息时代的到来使人们可以很方便的获取到大量的视频数据,如何对这些数据进行高效检索成为一个急需解决的问题。基于内容的视频检索(Content Based Video Retrieval, CBV
基于构件的软件开发(Component-Based Software Development,简称CBSD)是在一定构件模型的支持下,复用构件库中的一个或多个软件构件,通过组合构件来构造应用软件系统的开发
随着全球经济的发展,许多从事大型复杂产品开发与制造的企业为了提高产品的竞争力和市场响应能力,逐渐以动态联盟方式将相关企业结成联盟,采用项目管理的理念进行产品生产的
作战文书的理解是C3I系统中的一项重要工作,目前普遍采用的是基于“模板”和基于“自然语言处理”两种方式,存在着适应性差、不能很好表示特定领域语义关系。本文着重探讨了
在当今的互联网络世界中,TCP/IP协议簇是计算机通信的事实标准。TCP/IP体系是基于层次体系结构的。采用层次体系结构,其出发点在于简化协议设计的复杂性。层具有封装性、隐蔽
监控系统在社会生活中应用广泛,包括电力、电信、能源、交通、环保等领域,产生了巨大的社会经济效益。同时,出现了一批成功的监控解决方案。这些解决方案既有其作为监控系统