基于滑动窗口的流数据频繁模式挖掘算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:xiaokeai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文采用一种基于滑动窗口的流数据频繁模式算法DSFP-SW(Data Stream FrequentPattem based-on Sliding window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗口,利用改进的频繁模式挖掘算法,计算每个基本窗口的临界频繁项集。以前缀树(DSFP-SW-tree)来存储每个基本窗口的临界频繁项集,结合剪枝算法,快速挖掘滑动窗口中所有频繁模式。实验采用IBM数据发生器产生合成数据,证明了该算法的有效性。
其他文献
本文提出一种利用浅层语义信息的英文阅读理解答案句抽取方法,首先将问题和所有候选句的语义角色标注结果表示成树状结构,用树kemel的方法计算问题和每个候选句之间的语义结构
研究了一种基于E-Chunk的问句分析方法,设计了应用该方法时的各种语义知识及其表示,用Xml文档来管理领域知识,在这种知识库上设计了一种答案抽取的方法。在此基础上,开发了领域问
面向移动终端的自动摘要技术,对摘要本身提出了更严格的字数要求。本文设计了一个面向中文新闻领域的移动摘要系统,提取新闻网页中的最大重复串作为文档的关键词集合,利用编辑距
随着互联网的发展,信息的更新越来越快,从而导致内容的动态演化性越来越明显。为了从不断更新的动态内容中生成文摘,本文提出了一种具有时序偏向的多文档文摘方法——动态文摘。
大规模开放式问答系统过于偏重于知识的广度,在面向课程教学的问答系统则对问题回答的针对性和准确性要求相关较高。在教与学的过程中,面向课程教学的具有智能化的中文问答系统
本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划
会议
Web采集程序是web应用的重要组成部分。GatherCore包含了采集程序所需的核心工具,如:采集工具、链接提取工具等。该工具集运行稳定,有较高的速度,能够支撑很多应用,如我们已经和正
亲爱的读者《读书》杂志创刊以来,已经一年多了。为了改进工作,提高质量,迫切希望您对我们的工作提出意见。我们特别想知道您对下面这几个问题有些什么看法: Dear reader
本文提出一种基于N元文法和封闭词的词类标记的数学模型,该模型以二元Markov模型为基础,以封闭词词性的预确定有效地降低了应用Markov模型进行词类标记时算法的复杂度。实验证