基于大规模语料划分的频繁模式查找算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户：yun603

【摘要】

：

频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料，提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划

【作者】

：

丁溪源黄河燕张海军王树梅

【机构】

：

南京理工大学计算机科学与技术学院,北京理工大学计算机科学技术学院,中国科学院计算机语言信息工程研究中心

【出处】

：

计算机科学

【发表日期】

：

2012年3期

【关键词】

：

频繁模式重复串语料划分子串归并 Frequent pattern Repeats Corpus partition Sub-string reductio

【基金项目】

：

本文受国家863计划重点项目（2006AA010109）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料，提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合，通过逐条扫描集合数据，搜索出最大化最长公共前缀区间（MLCPI）来完成查找。另外在此基础上提出逐层归并算法，实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存，因此资源消耗较少；各集合间频繁模式查找互不干扰，可采用并行处理加快运行速度。使用4．61G纯文本语料进行了试验，结果表明其内存消耗小于30M，查找速度最快达1．08

其他文献

夕阳灿烂——记内蒙古阿荣旗离休老干部、台属王继卿

"能使他人幸福,能为党多做工作,是我的最大快乐,也是我的一生追求".这是一位年逾古稀老人的人生奋斗目标.为达这一目标,他以平凡的脚步,在离休后平凡的道路上留下了一串串闪

期刊

人物介绍内蒙古阿荣旗离休干部王继卿“关心下一代委员会”校外教育校外辅导员

基于遗传算法的网络资源配置优化

随着新一代网络的结构复杂化和应用多样化,如何进一步提高实时业务的服务质量,是急需解决的重要问题之一,而合理配置和优化网络资源是解决该问题的有效方法。针对多业务网络,

期刊

多业务网络资源配置优化遗传算法Multiservice network Optimization of allocation of network re

IB QoS的带宽分配机制研究

InfiniBand（简称IB）网络的质量服务策略（简称IB QoS）能有效地分离和控制在IB网络上并发传输的不同应用负载的带宽,从而为基于InfiniBand网络互连的高性能计算（简称HPC）平台和数据中

期刊

INFINIBAND网络质量服务虚通道带宽分配优先级权值InfiniBand network Quality of service Virtual

基于信息量与信息熵的元搜索引擎排序算法研究

元搜索引擎集合了多个成员搜索引擎的结果，将结果进行一定的处理后再将处理后的结果返回给用户。其中对结果的重新排序直接影响到元搜索引擎的性能。基于通信领域上的信息量与

期刊

元搜索引擎排序算法信息关联度IRD信息量信息熵CombMulMeta search mngine Ranking algorithm Info

多层云建模方法的研究及应用

分析了目前复杂大系统建模方法存在的优缺点,旨在研究一种适用于我国行政递阶管理机制的建模方法。这种方法能够很好地解决系统问题中的不确定性,尤其是人为主观造成的模糊性

期刊

多层状态空间模型云模型不确定性复杂大系统Multi-layer state space model Cloud model Uncertainty

一种抗图像模糊的快速景象匹配算法

针对各种原因引起的实测图退化情形,将模糊不变矩引入景象匹配中。为了解决匹配过程中计算量大的问题,从简化匹配特征的计算及优化搜索策略两方面采取措施。在模糊不变矩计算方面,通过预先建立21个和表矩阵,提出了一种适用于匹配过程的矩特征高效求解算法;在搜索策略方面,考虑到模糊不变矩特征对图像分辨率的敏感性,提出在原分辨率基准图上采用遗传算法进行搜索匹配。实验结果表明,在实测图出现模糊及受噪声干扰情况下,所

期刊

景象匹配图像退化模糊不变矩遗传算法Scene matching Image degraded Blur-invariant moments Gen

基于区间标度的群体ANP决策方法

ANP法是一种关于复杂决策问题的有效求解方法。针对传统ANP理论存在＂元素相对重要性表达问题＂和＂群决策问题＂的两大固有缺陷,运用＂区间标度＂代替＂点估计＂,采用C-OWA算子集结群体偏好,

期刊

群体ANP决策方法区间标度Group extension analysis network processDecision methodInterva

基于大规模语料划分的频繁模式查找算法

其他学术论文