聚类在内容适配中的研究

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:thskaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前内容适配不够准确、智能,为解决此问题,把语义网的一些思路用于内容适配中,提出根据公共Ontology跟本地Ontology连接来指导适配,从而提供更个性化、更智能的服务,而Ontology实例的相似度计算可以成为适配的依据.针对应用采用不同的权值,计算出来的相似度不同,得到的聚集也不同,这样可以针对不同的需求来进行聚集,从而指导适配,使适配更贴近人们的主观质量要求,也具有更好的语义解释.据此提出一种新的聚类缓存替换算法ACR,通过结合Ontology的相似度和缓存对象缓存价值的定义和计算,来完成适配中多版本缓存的替换,并与目前常用的缓存算法LRU,FIFO进行比较,结果表明ACR算法比LRU,FIFO等替换算法有着更好的命中率,并能针对应用优化。
其他文献
文本聚类是利用聚类技术对大量的文本数据进行分析,把内容相似的文本放在同一个集合.针对基于k-means特征加权算法用于文本子空间聚类的性能进行了一系列的实验研究与分析,并验证得出该算法具有可伸缩性与快速收敛性.文本子空间聚类算法的提出是针对文本数据的两大特点:高维与稀疏性.该算法基于传统的k-means聚类方法,将特征加权加入到k-means迭代的过程中.在聚类文本的同时,对文本集所包含的单词(特
问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能.通过对比分析问题分类与文本分类的异同以及问句内部结构与问题类型之间的关系,提出了一种新的基于贝叶斯理论的问题分类计算模型.通过对比实验,证明在计算模型中增加特征项扩展可以有效地减小问句较短和标注语料库较小对统计结果的影响,而基于疑问词的2-gram组合,较好地利用了问句结构特征,提高了问题分类的精确度。
k-均值是著名的聚类算法,被广泛应用在诸多领域.经过多年发展,原始的MacQueenk-均值算法已经衍生出多种变形,构成了k-均值算法家族.首先回顾k-均值家族重要成员:k-均值(k-means)、k-模(k-modes)、k-原型(k-prototypes)算法和它们的模糊版本,然后提出两个新成员--变量自动加权的k-均值算法,并讨论它们在子空间聚类中的应用.文本数据的实验结果表明,变量自动加权
减少算法参数对聚类效果的影响,是聚类分析技术需要解决的一大难题.提出与离群点识别方法相结合以弥补聚类技术不足的新思路.在提出基于公共近邻的离群点概念之后,给出一种借助离群点信息自动停止聚类过程的聚类算法,该算法只需一个参数,参数的恰当取值范围可以依据识别离群点的情况确定.算法兼具处理类别属性和数值属性数据的能力.在分析过新算法一些特点后,用6个数据集测试新算法的效果,并与多种聚类算法进行对比,实验
在复杂气识别中,单纯使用神经网络存在因输入信息空间维数较大而使网络结构复杂、训练时间长,以及因冗余属性使网络拟合精度不高等缺点,为此提出一种简化的进化神经网络方法,主要包括基于粒度相似度的连续属性离散化算法;基于粗糙集的属性约简算法;基于粒子群进化计算的网络学习训练算法;以及基于黄金分割的隐含层节点数的优选等步骤.通过长庆复杂气层的实际应用表明,这种简化的进化神经网络方法不仅满足识别系统的精度要求
提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-SVM)的"部分对部分"问题分解方法,再对这些两类问题进一步分解.这种方法的特点是能将大规模、训练样本极不平衡的两类问题分解成用户希望的任意大小的相对平衡的两类问题,并能容易地实现并列学习.对读卖新闻日文数据集和路透社英文数据集进
约束关联规则挖掘是数据挖掘的重要课题之一,由于能够利用约束条件削减搜索空间,提高挖掘效率,因而受到广泛关注.为更灵活地表达用户的兴趣所在,提出规则格式约束的概念,并以Direct算法为基础,实现了一种基于规则格式约束的关联规则挖掘算法MRCAR.算法首先利用Direct算法挖掘满足规则格式约束条件的频繁项集,然后利用规则格式约束条件限制无关规则的产生.减少了侯选项集和关联规则的产生数目,提高了算法
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间的方法,采用基于决策树的强化学习模型,将传感输入空间离散化处理来构造一棵状态分类树,以便变分辨率地划分输入状态空间,并利用决策树来逼近值函数.提出的方法结合了基于短期记忆学习和统计推断方法的优点,仿真结果表明,该方法能够生成有效的状态表达和更快地进行学习。
针对具体应用设计效果更优的分类器一直是模式识别领域重要的研究内容.对于不同分类器效果的评价,目前的主要途径是建立在识别率的比较上.识别率具有简洁直观的优点,但其受测试集的影响较大,且用其指导更优分类器的设计的能力较弱.基于信息论中有关互传信息量的理论,提出了分类器的可分性度量方法,并提出了模式空间多分辨率分析的概念以及其与分类器可分性度量之间的关系,进而提出了以提高分类器分类能力为目标的模型捆绑方
XML文档压缩处理是XML数据管理研究领域的一个热点问题,已有的研究工作均以XML文档为基本处理单元,而没有考虑因文档间存在相似性所造成的数据冗余.聚类方法是XML文档分类的有效手段,提出了一种XML文档紧凑结构构造算法和相似度计算方法,通过局部迭代调优的k-means聚类算法(XCC)对XML文档集进行聚类,并在此基础上给出了XML文档压缩存储策略.实验结果表明,这一方法具有很好的性能,能够满足