基于关联规则的Web文档聚类算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:starseekerwjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度,提出了一种Web文档的聚类算法,该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档,再以文档事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;间距离和类风连接强度阈值合并,拆分类,最终实现档聚类,实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值。
其他文献
超文本是一种非结构化的文档.它虽然不支持跨页查询和全文检索,但却是Internet上信息组织与存储的重要方式.提出了一种将超文本转换为结构化数据库的算法.分析了超文本结构化
通过对卫Ⅲ项目农村健康教育对策研究5年规划的实施,研究点村家庭卫生状况,人群健康知识与行为改变等情况,经终期评估取得较满意的结果;提出了以依靠农村自身力量的内援民生干预和
<正> 乙胺碘呋酮是一苯呋喃衍生物,具有抗交感作用,60年代临床应用于治疗冠心病心绞痛,70年代才用于治疗各种心律失常。我们用乙胺碘呋酮治疗其他抗心律失常药物无效的肺心病
<正> 1 热能和各种营养素的满足程度 目前,我国评定某个人群所摄取的热能和各种营养素的满足程度,是以中国营养学会1988年10月修订的《推荐的每日膳食中营养素供给量》(Recom
在安徽省繁昌与铜陵两县进行为期4周的住院病人调查中,共访问了777名住院病人,男性占56.6%,年龄主要分布在20~40岁,以农民为主,多是初、高中文化程度的自费病人;85.76%的住院病
针对多样本文语转换系统中的语音合成实时性问题,提出了对合成系统语音库的改进策略和语音单元之间相似度的计算方法,在此基础上设计并实现了查找语音单元的地址映射算法.实
多Hoist调度在许多制造过程的设计与控制中是一个关键问题.当Hoist数与工作台数很大时, 求解调度问题非常困难.建立了多Hoist调度问题的数学模型,并利用模拟退火算法提出了一
目的分析ERCC1、RRM1表达对非小细胞肺癌实施个体化治疗的疗效影响。方法选择2007年6月到2012年6月期间在我院接受化疗的150名非小细胞肺癌患者作为研究对象,根据化疗方案不
目的观察电子支气管镜(EBS)治疗手术后急性肺不张的临床疗效。方法治疗组28例,通过运用局部支气管冲洗、吸取和清除气道内分泌物、痰痂、血块,钳取坏死组织,清除呼吸道阻塞物。对
目的 探讨血清巨噬细胞移动抑制因子在儿童哮喘防治中的意义.方法 选取随访的缓解期哮喘患儿87例,健康对照组30例,检测巨噬细胞移动抑制因子(MIF)、嗜酸性粒细胞阳离子蛋白(ECP)