WCM:一种基于单词相关度的文档聚类新方法

来源 :第二十一届中国数据库学术会议 | 被引量 : 0次 | 上传用户：st_daivd

【摘要】

：

【作者】

：

伍赛杨冬青韩近强张铭王文清冯英

【机构】

：

北京大学信息与科学技术学院,北京,100871 北京大学图书馆中国高等教育文献保障系统管理中心,北

【出处】

：

第二十一届中国数据库学术会议

【发表日期】

：

2004年5期

【关键词】

：

单词相关度文档分类聚类分析搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文提出了一种基于单词相关度的聚类方法WCM(Document Clustering Method Based onWord Relation)。总体的思想首先充分利用单词之间的相关度分类夹确定词的分类，然后计算每个文档向量和各个类之间的距离将其归入一个或者多个类别中。该算法在“网上科研服务原型系统”项目中加以实现。在该系统中本文实现了一个基于SDARTS协议的元搜索器，搜索器退回的结果使用WCM进行分类显示，大大方便了使用者的查询。本文第2节简单介绍相关的研究，第3节介绍单词相关度模型，第4节介绍基于单词相关度的聚类WCM,第5节介绍文档分类，第6节为实验情况简介，最后是总结和展望。

其他文献

贝叶斯网络分类器的知识提取方法研究

本文在原有贝叶斯网络分类器的基础上构造判定树，从而将贝叶斯网络分类器中蕴含的分类判定知识更直观地呈现给用户。将此方法应用于银行信用卡资信评估的分类分析，成功地获得了有指导意义的信息。进一步的工作包括研究构造判定树的其它的属性选择标准.更高效的剪枝策略，以及充分利用这种树的判定结果的非确定性提取更多有意义的知识如概率分类规则等的方法。

会议

信息增益判定树贝叶斯网络分类器知识提取

基于滑动窗口语义的聚集计算方法

本文针对滑动窗口聚集查询问题,提出了一种基于滑动窗口语义的聚集计算方法--链树(linked-tree)算法，该算法把滑动窗口逻辑分层,记录层次内数据统计信息,具有很高的执行速度；同时,所需的内存量不与窗口大小直接相关,可以大大节省内存；此外,基于该算法的查询共享策略,可使类似的聚集操作共享相同的链树结构,进一步提高了查询处理速度并节省内存资源。

会议

聚集计算滑动窗口跳数查询共享链树算法

空间数据库的混合查询优化策略

在空间查询优化中，确定空间操作在查询计划中的顺序位置是核心的间题。针对含有多个空间操作以及非空间操作的混合空间查询，本文提出了混合查询的优化策略。该策略对空间操作的过滤和精练步骤在优化阶段就进行逻辑分离，并分别进行空间过滤和精炼操作代价分析，将启发式规则和动态编程相结合来选择更为合理的空间查询执行计划.这样不仅解决了利用空间索引和降低空间操作计算代价之间的矛盾，还使用了基于代价的分析方法为混合查询

会议

空间数据库混合查询启发式规则动态编程

文档类型定义(DTD)的对象化模型

本文给出DTD文档的两种对象化模型，这两种对象化模型的主要创新特点包括:引人逻辑节点来表示元素之间的逻辑关系;把属性作为子元素加人到对象化模型中，使属性不必进行特殊处理;元素或属性的元数据单独建模，与元素节点或属性节点分开，使元素或属性的元数据能够反复使用。

会议

DTD文档对象化模型逻辑节点

基于分布式数据仓库集成与多维数据查询方法研究

随着企业业务的发展与信息的膨胀，数据仓库的规模不断扩张，数据访问呈现更广的地域分布性，提高数据仓库在Web环境下的数据访问性能是本文所讨论的内容。通过DW-DS结构来构建Web数据仓库，能够更好地发挥数据仓库对企业的信息支持能力.

会议

数据仓库数据访问数据查询集成结构Web技术

基于RDF模式的存储方法研究

利用关系数据库来存储和管理RDF数据是一种有效的方法.本文在分析总结了RDF模式和ER模型联系的基础上,提出了一种基于RDF模式的RDF数据存储方法.本文在第3节给出了该方法的具体实现步骤,在第4节通过一个实验具体分析讨论了该方法的可行性和优点.

会议

数据库RDF模式数据存储

XML数据流的过滤与查询技术

当前XML流查询处理中还存在许多待解决的间题:如XPath查询的优化，流数据的动态验证，复杂XPath的支持，如何连接多个文档的查询而得到最终的结果。如何降低处理器的时空复杂度等。本文综述了当前国际上对这类问题的研究成果，总结它们存在的不足，指明进一步的研究方向。

会议

XML数据流查询处理过滤技术XPath查询流处理技术

基于概率模型的移动对象数据库预测性区域查询处理

本文提出了一种基于概率模型的预测性区域查询和支持该查询处理的索引结构TPMR-Tree，查询结果中不仅包含满足查询的移动对象,还包含它们满足查询的概率，为了评价查询结果的质量,提出了两个标准:准确性和效率，同时,还提出了估计查询结果质量的概率模型。

会议

移动对象数据库区域查询概率模型

质量驱动的频繁组合服务选择

Web服务是一种新型的可以通过Web来调用的软件组件.根据业务流程组合不同的Web服务可以实现复杂的业务流程,促进不同类型应用的集成,支持企业内部和企业之间的相互协作.本文研究的目的是在Web服务系统中增加质量管理的功能,从而在服务执行时根据用户的质量要求实现质量驱动的组合Web服务选择.为此,首先提出了一个支持组合Web服务的系统结构,它扩展了基本的Web服务架构,增加了对组合服务的组织和管理功

会议

Web服务服务质量模型频繁组合服务系统结构

基于FP-Tree的多重最小支持度关联规则挖掘算法

本文通过扩展传统的关联规则模型，为每一数据项赋给不同的最小支持度，成功地解决了用单一的最小支持度挖掘关联规则不能完全反应在数据库中不同的数据项出现的颇度与性质的问题.基于该模型，本文提出了一种快速的基于FP-Tree支持多重最小支持度的关联规则发现算法，将其应用在了农业专家系统开发平台中，对已有的农业数据库中对其进行了应用。实践表明.本文提出的算法是灵活的和高效的，它能发现稀少数据项蕴涵的规则的同

会议

数据挖掘关联规则最小支持度农业数据库频繁模式树

WCM:一种基于单词相关度的文档聚类新方法

与本文相关的学术论文