基于约束的序列模式挖掘及其应用研究

来源 :上海交通大学 | 被引量 : 3次 | 上传用户：ya4516623

【摘要】

：

序列模式挖掘就是从给定序列数据库中发现频繁的子序列作为模式。它是数据挖掘领域的重要分支,具有广泛的应用场景,例如序列分类和预测,识别Web日志中的访问模式,生物序列分

【作者】

：

张劲松

【出处】

：

上海交通大学

【发表日期】

：

2015年01期

【关键词】

：

序列模式挖掘闭合序列模式序列生成器邻接序列模式定义序列模式生物序列分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

序列模式挖掘就是从给定序列数据库中发现频繁的子序列作为模式。它是数据挖掘领域的重要分支,具有广泛的应用场景,例如序列分类和预测,识别Web日志中的访问模式,生物序列分析以及自然语言分析。研究者们对序列模式挖掘有着深入的研究,主要包括一般序列模式挖掘、精简序列模式挖掘和兴趣度序列模式挖掘。闭合序列模式挖掘和序列生成器挖掘是两种最重要的序列模式挖掘方法,这是由于它们生成的模式是一般序列模式的精简且无损的表示,因此成为序列模式挖掘研究中的热点问题。然而,现有的闭合序列模式挖掘和序列生成器挖掘算法,当使用的最小支持度较小或给定的序列数据库较稠密时,会产生指数级的模式,其中含有大量的冗余模式。由于生成的结果集容量过大而无法有效用于序列分析和预测。这已成为精简序列模式挖掘的难点问题。此外,算法中剪枝、生成和维护等过程使得这些算法具有高昂的时间和空间代价。本文致力于研究更精简但不丢失信息的序列模式挖掘算法。为解决上述问题,探索了将邻接约束与闭合约束结合来进行更精简且无损的序列模式挖掘,即闭合邻接序列模式挖掘和邻接序列生成器挖掘。同时提出一个基于相似度的FIND-S算法,称之为FIND-SS,来执行定义序列模式挖掘。此外,所获得的定义序列模式用于本体学习模型中的概念提取。如下给出本文的主要工作内容。1.提出CCSpan算法执行闭合邻接序列模式挖掘。CCSpan采用片段增长的方法来生成潜在的序列模式,运用三种剪枝策略来有效减少算法的搜索空间。通过上闭合约束(Upper-closed constraint)来生成完整的闭合邻接序列模式集合。2.探索了序列模式中等价类的属性,提出邻接序列生成器挖掘算法,即Con Sgen算法。基于CCSpan算法的片段增长方法和剪枝技术,得到一个具有邻接属性的序列模式集合。该集合可划分为一系列的等价类,然后从每个等价类中识别出具有下闭合约束(Lower-closed constraint)属性的序列模式作为邻接序列生成器。3.提出基于相似度的FIND-S算法,称之为FIND-SS算法。Find-SS采用“越相似优先级越高”的方法来泛化序列数据库中的每对序列。同时,上界假设(Upper Bound Hypotheses)用于算法的搜索过程,产生一系列的目标假设(Target concept)。FIND-SS能够处理含噪声的序列数据,并且不需要任何种子模式来挖掘定义序列模式。4.设计出基于定义序列模式的概念提取方法来改进本体学习系统性能。首先运用定义序列模式在给定语料上提取定义句子,然后在结合少量的词法特征从定义句子中发现概念(被定义项)。此外,设计了一种面向服务的本体学习架构以适应云环境下的本体学习。5.使用了多种类型的数据库,包括稀疏的、稠密的、真实的、合成的数据库,对上述算法进行多维实验评估,验证了所提出算法的有效性、高效性和可扩展性。

其他文献

为何要用“必须”来要求军队干部

世界一流军队在任何时候都不能回避应对安全挑战的现实课题，只有军队高级干部个个按照“六个必须”的要求．持续用力打磨自己，才能卓有成效地以上率下。

期刊

战斗力标准

Fisher判别分析法区分MRI中乳腺病灶性质的研究

目的基于磁共振成像(MRI)指标建立乳腺病灶性质的Fisher判别函数,为MRI诊断乳腺病灶性质提供理论依据。方法对临床触诊乳腺肿块、可疑乳腺肿块,或超声检查、钼靶照相发现病灶

期刊

乳腺肿瘤磁共振成像鉴别诊断Fisher判别

以突出特色建镇走综合发展之路——关于小汤山镇规划建设的调研报告

小汤山镇位于北京市昌平县境内,距天安门２５公里,是北京城区北中轴延长线上的重镇之一。镇域总面积３７．１平方公里,城镇规划区面积１０平方公里,下辖１０个行政村,一个居委会。全镇总人口２万,其

期刊

小城镇建设小汤山镇城市规划法延长线城镇规划区居委会第三产业控制性详细规划基础设施建设康复疗养小城镇规划北京市总体规划昌平县发展之路

基于生产实践对热风炉高风温技术的几点思考

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

热风炉高风温拱顶温度风温

核心坍缩型超新星的相关物理过程及爆发机制的研究

学位

电子俘获β衰变强磁场电荷屏蔽超新星核合成

肠道外感染嗜水气单胞菌的临床相关因素及治疗对策分析

目的分析肠道外嗜水气单胞菌的感染情况、相关因素及其耐药性,为临床防治嗜水气单胞菌感染提供依据。方法回顾性分析2009年1月-2016年12月112例患者肠道外分离的嗜水气单胞菌

期刊

肠道外嗜水气单胞菌易感因素耐药性

试析医疗损害举证责任分配规则的理解与适用

随着《侵权责任法》的出台,医疗侵权损害赔偿责任在法律上有了新的规定,明确了在医疗纠纷中适用过错责任及附条件的推定过错原则。本文对《侵权责任法》相关规定的理解及在适

期刊

医疗损害赔偿归责原则举证责任medical damage compensation principle of responsibility imputat

神奇的海马

长久以来,长着奇特外表、神秘而又充满传奇色彩的海马一直激发着人们的想象力.在古希腊传说中,海马是波塞冬王的车夫,而在中国,海马被看作是爱的符号.它们高昂着骏马一般雄赳

期刊

海马想象力古希腊蜥蜴动物雄性

基于约束的序列模式挖掘及其应用研究

其他学术论文