无重叠(δ,γ)-近似模式匹配

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:watta515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
具有间隙约束的模式匹配能够用来计算模式的支持度,是序列模式挖掘的重点与基础,在生物信息检索、市场营销、时间序列预测等领域具有重要的意义。模式匹配包括精确模式匹配和近似模式匹配,在现实生活中,相对精确模式匹配,近似模式匹配允许存在一定的数据噪音,更具一般意义。具有间隙约束的模式匹配往往建立在各种约束条件下,其中无重叠约束在精简计算的同时,保留了有价值信息,具有更强的表达能力。无重叠约束允许任何两个出现能够多次使用序列中的同一个字符,但不能在相同位置使用。目前,无重叠条件下的近似模式匹配采用的是Hamming距离,但Hamming距离无法度量子序列与模式之间的局部近似度,导致匹配的结果存在大的偏差。为此,本文采用(δ,γ)-距离,研究一种局部距离不超过δ且整体距离不超过γ的无重叠近似模式匹配。本文的主要研究内容如下:1、本文提出了无重叠(δ,γ)-近似模式匹配(Non-overlapping Delta and gamma approximate Pattern matching,NDP)问题,并给出问题的相关定义。2、构建了一种高效的求解算法(local approximation Nettree for NDP,Net NDP)。该算法首先将NDP问题转化为一棵局部近似网树;然后提出了最小树根距离(Minimal Root Distance,MRD)的概念,用来表示结点到达树根层的最短γ-距离,通过MRD,不仅能够判断是否存在满足整体约束的树根路径,而且能够预先删除无效的结点和双亲关系,避免无效访问,提高了时间效率;最后,该算法通过MRD寻找最右(δ,γ)-近似出现,得到最大无重叠(δ,γ)-近似出现集。3、理论上分析了Net NDP算法的空间复杂度为O(n*m*W),时间复杂度为O(n*m2*W),其中,n是序列S的长度,m是模式P的长度,W为最大的间隙长度。4、在真实蛋白质数据集中,通过设置阈值为0,验证了Net NDP算法的正确性;通过对比运行时间和求解质量,验证了Net NDP算法的有效性。在真实的时间序列数据集上,证明了(δ,γ)-距离比Hamming距离具有更好的匹配效果。
其他文献
近年来,风电作为一种绿色能源受到世界各国的青睐,随着风电机组装机容量的增加,风电机组所暴露出的多种故障问题不容忽视,对于其中的叶片故障问题,如果不能及时发现、维修,不仅会降低风电机组的发电效率,还可能引发严重事故。本文针对风机叶片的故障诊断问题,主要研究内容如下:一、对基于声频信号和振动信号的故障诊断国内外研究现状进行总结分析,选取梅尔倒谱系数法(MFCC)和原型聚类作为本文研究风机叶片声音信号特
近年来,随着住宅不断产业化,钢管混凝土结构得到了广泛的应用。作为关键部位的梁柱节点连接形式较为复杂、施工容错性小,在一定程度上限制了该结构形式的发展。为推广钢管混凝土结构的应用,有必要研究一种装配方便、施工容错性大的节点形式。为此本文拟通过上焊下栓的方式进行钢管混凝土柱与工字型钢梁的连接,并进行上焊下栓节点的抗震试验和有限元分析,为该类型节点的结构设计提供充分的参考依据。本文提出一种带外肋环板的隔
近年来,不断发展的脑成像技术为理解大脑特定区域与其功能提供了很大的帮助。多模态脑影像分析方法利用不同脑影像数据提供的多种信息,能够帮助医生分析脑疾病的病变机理。目前多模态脑影像分析还面临一定的困难,如多模态脑影像数据样本量少,脑影像的特征维度高、数据异构等问题,找出与疾病相关的特征,提高脑疾病诊断的准确率是目前多模态脑影像数据分析的重点。现有的脑影像分析方法通常只利用一种脑影像数据,或者将多种脑影
永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)的功率密度高且工作效率高,优点显著易于控制。因此在工业生产,新能源汽车等方面以及伺服控制系统等方向都大量使用,PMSM的控制已经成为众多学者的研究热点。目前PMSM控制系统已经比较成熟,然而在很多场合,控制系统需要对系统外可能存在的干扰、负载的变化以及电机本身参数的变化等具有适应修正能力。当电机在实际运行
随着互联网科技的迅猛发展,网民数量和上网时长日益增加,特别是“互联网+”战略的推进,互联网已日益成为公众日常工作、生活、学习不可或缺的平台和助手,深刻地改变着人们的生活方式、行为方式和价值观念,随之产生了蕴含着丰富信息的用户网络行为数据。分析网络用户行为可以深入挖掘用户的行为偏好和性格特征,不仅对社会学、安全领域等有着理论价值,而且对于网络信息、动态监控和威胁预警等应用具有实际意义。现阶段,针对网
近年来,随着神经网络的不断发展,以深度学习为基础的各类目标检测算法应运而生,并广泛应用于行人检测、目标追踪和无人驾驶等领域。YOLO目标检测算法因其检测速度快而成为实时目标检测技术中的研究热点。而目标检测所应用的公共场所监控画面、医疗影像结果以及防空预警中的红外摄像等,普遍为黑白图像,为了突出黑白图像中的检测目标,对图像着色技术也有很强的应用需求。本文针对YOLO目标检测算法和着色技术进行研究,主
知识推理作为完善知识图谱的重要手段,在构建知识图谱过程中发挥了关键作用。中文领域的知识图谱普遍存在数据稀疏、质量参差不齐等问题。同时,由于中文文本的特点会导致知识推理容易受分词错误的影响,并且现有可用的中文领域训练集较少,给中文知识推理模型训练造成了一定的影响。目前,知识推理模型多是基于神经网络、分布式知识表示学习和逻辑规则的方法。这些模型在提取特征构造特征向量的过程中存在着明显的信息损失,导致提
由于人口密集,负荷类型复杂,城市配电网的用电压力越来越大,而且随着城市化进程不断加快,环境污染的问题日益严峻,新能源发电技术得到大力发展,将分布式电源接入到城市配电网已是大势所趋。然而,分布式电源自身出力的随机性势必会对配电网平稳运行造成影响,增加整个系统运行的风险。因此,本文综合考虑了分布式电源出力的相关性和城市配电网负荷类型的多样性,以概率潮流计算为核心技术手段,实现了考虑分布式电源接入的城市
“湖冰物候”是用于描述湖冰覆盖季节性循环的术语,包含冻结期、解冻期以及冰盖持续期,是冰冻圈关键变量之一。遥感技术的发展为湖冰物候的提取提供了新的手段。但是当前对于小型湖泊的湖冰物候数据集仍然缺乏,并且TB级数据量对湖冰物候的提取提出了新的挑战。目前,主要利用光学遥感数据和被动微波遥感数据对湖冰物候进行监测,两种监测手段各有优势与不足。光学遥感数据会受到云和极夜的影响,虽然分辨率较高,可以对大量湖泊
随着高分子合成材料需求的扩大,抑制高分子材料老化的添加剂也迅速发展。其中,受阻酚光稳定剂在商用稳定剂中性能表现更为优异。光稳定剂2908,即3,5-二叔丁基-4-羟基苯甲酸正十六酯为其典型代表。光稳定剂2908通过捕获自由基,具有抗氧化活性,可对高分子材料提供有效保护;具有毒性低、挥发性低和相容性较佳等优点;光稳定剂2908对烯烃有明显效果,尤其适用于有颜色且不透明制品;在使用时,与抗氧剂和受阻胺