大规模语料的频繁模式快速发现算法

来源 :2007年全国网络与信息安全技术研讨会 | 被引量 : 0次 | 上传用户:z445786864
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6G,单机平均每秒处理文本语料3.28M。
其他文献
在已有风险评估模型的基础上,针对电信网的拓扑结构,本文提出一种新的定量与定性相结合的风险评估方法,可以通过分析电信网中某一节点的风险,进而估算出整个电信系统所面临的
为了自动地从大量低级的入侵检测告警信息中构建出更高层次的攻击场景,并在一定程度上预测即将发生的攻击,提出了一种基于权能转换模型的实时告警信息相关性分析的方法。通过
网络监测体系是下一代互联网信息安全体系的重要组成部分。资源协同技术通过分配或规划有限的分布式资源以使效益最高。本文设计了分布式网络监测方式,给出了资源协同的监测
会议
本文提出了一种面向网络数据实时处理系统特性的、采用线程局部内存区和全局内存区结构的、以内存堆为单位进行组织的多线程内存管理技术MCmalloc。MCmalloc解决了在多线程环
1492年,著名航海家、意大利人哥仑布,为了寻找到印度的新航路,带了三艘西班牙船,越过烟波浩渺的大西洋到达了美洲。哥仑布最先到达的,是西印度群岛的圣萨尔瓦多岛。到达的时
本文提出了服务生存性的概念,并在系统冗余前提下,提出动态配置原子组件来增强系统生存性方法;根据中心极限定理以及系统运行历史数据,获取原子组件生存性变化曲线,并结合系
会议
北京医学院附屬人民医院病案室,是今年一月间中央卫生部举行的授奖大会上受到奖励的五个先进医疗单位之一。病案室的同志們創造性地建立了一套科学管理病案的方法,为提高医
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以网络热点信息挖掘等应用提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了
会议
本文提出了一种基于内容分析的作弊评论识别方法,该方法充分利用了作弊评论的多种重要特征。在Blog作弊评论识别的初步实验中,识别准确率达到93%,显示了该方法的有效性。和其
大花蕙兰是洋兰中健壮易养的兰花。耐寒性强,一般家庭即使无加温条件也能栽培。而且,大花蕙兰花期长,只要抓住栽培要点,就能让它很好地开出花朵,因而广受欢迎。大花蕙兰有大