面向互联网的话题发现技术研究

来源 :2007年全国网络与信息安全技术研讨会 | 被引量 : 0次 | 上传用户:shao402248950
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题发现与跟踪(Topic Detection and Tracking, TDT)是一项由国际公开评测驱动的研究,旨在依据事件对语音和文本信息进行分析和组织。自1996年启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。大部话题发现与跟踪研究着眼于TDT评测的需要,以提高在TDT语料上的精度为目标,在面对实际数据时效果难以令人满意。本文将各种常用的聚类方法和比较策略组合起来形成四种实验方案,并针对四种实验方案在处理实际数据的表现进行比较分析。实验结果证明在面向实验数据时,带缓冲的改进single-pass方法和average-link的组合能取得较好的精度:分治聚类方法的引入则可以大幅度减少时间消耗。
其他文献
僵尸网络已经成为网络攻击者首选的攻击平台,用以发起分布式拒绝服务攻击、窃取敏感信息和发送垃圾邮件等,对公共互联网的正常运行和互联网用户的利益造成了严重的威胁。较大规模地发现和监测实际僵尸网络的活动行为,并对其规律进行深入调查分析是进一步更为全面地监测和反制僵尸网络的必要前提。本文对1,961个实际僵尸网络的活动行为记录进行了深入调查和分析,给出了僵尸网络捕获趋势、控制服务器分布、僵尸网络规模与被控
本文在分析现有入侵检测技术和系统的基础上,针对目前入侵检测系统中存在的报警信息过多,不能感知入侵的范围和程度等问题,提出了一种宏观网络下的多层次分布式入侵检测感知算法。该算法充分利用报警信息间的相似度关系,对来自不同IDS的报警进行多层次聚合关联,从总体上把握当前网络态势,进而精炼信息、提高检测的准确率。由于在预警代理部分将原始报警信息处理成统计信息,以后的融合算法以统计信息为处理对象,极大的减少
对于端口扫描行为,多数的入侵检测系统根据单位时间内所访问的主机数和端口数是否超过所设定的域值来判断,这种方法无法检测慢速的端口扫描行为。本文根据网络流量的统计特征提出一种慢速端口扫描行为检测算法,以主机数和端口数的比值及被访问主机端口集合之间的相似度为基础,采用非参数累积和CUSUM算法及小波变换方法对流量统计特征进行分析,进而判断是否存在端口扫描行为。实验结果表明,本文所提取的网络流量特征及算法
高速网络流量吞吐量大且复杂多变,对网络流量异常检测的准确性和及时性提出了挑战。本文提出了一种多时间尺度同步的异常检测算法DA-MTS。该算法通过无抽取Haar小波变换对网络流量时间序列进行分解,获得不同时间尺度下的细节信号,去冗余后的无抽取Haar小波变换细节信号为平稳随机序列且逼近高斯白噪声,根据正态分布的"3σ"法则可以判断细节信号中的异常情况。随着新数据的获取,该算法能够同时在多个时间尺度上
通过提升服务器CPU主频来增强海量网络数据处理能力将增加服务器边际成本以及带来功耗、机房散热等一系列问题。本文基于FPGA、TOE、零拷贝等关键技术设计并实现了一种可重构智能网卡,将TCP/IP协议栈部分下移至高速FPGA,完成基于硬件的网络数据包报文捕获、IP分片重组、TCP包排序后进行IP、端口以及字符串匹配识别,并打上协议标签提交给服务器应用层数据处理软件处理。与普通网卡相比,可重构智能网卡
网络模拟路由策略的基本目标是真实的反映模拟数据包的转发过程。拓扑变化会影响路由选择结果。现有模拟器在处理动态路由时会让所有节点同时感知到拓扑变化信息,这与实际网络中的情况并不相符。本文给出并分析动态路由模拟抽象模型,进而提出计算不同节点对拓扑变化感知时间的策略;提出动态Mtree Nix路由策略,以静态路由表和拓扑变化消息序列作为动态路由表,通过比较节点的感知时间查找路由。实验结果表明,本文提出的
本文分析了P2P系统监测面临的挑战,分别论述了主动和被动监测方法所涉及的关键技术,给出了具体技术方案并介绍了相关课题的工作进展,最后对主被动相结合的方法和今后的工作进行了探讨和展望。
提出一种基于邮件路径地理属性分析的邮件过滤算法GEPA(Geographic Email Path Analysis)。首先提取邮件命令报文包含的路由信息,并以此为基础构建邮件路径子集。其次采用一种高效的地理属性映射方法进行地理信息映射。接着对路径中结点的地理逻辑关系背离情况进行分析用于过滤垃圾邮件。最后从中国大陆某骨干网边界路由器的一条链路上(该链路跨越地理边界)采集邮件流量以验证算法性能。研究
视频匹配主要需要解决两个关键问题:如何对视频内容建模,从而能够用较少的数据量表示视频的内容;如何在拥有大量视频数据的数据库中实现快速索引。针对第一个问题,本文以子镜头作为视频匹配的基本单位,首次尝试运用物体识别中的"Bag of Words"表示模型对视频内容的建模,将子镜头特征映射为视觉关键词(VisualWords)的集合。对于第二个问题,本文引入在文本索引中广泛使用的技术,对子镜头建立视觉关
在当今网络化与数字化时代,随着播客类网站如火如荼的兴起,如何有效地管理网上视频数据,抵制色情、暴力影像,保障网络安全已成为信息领域一个亟待解决的问题。本文通过对网络视频蕴含的情感语义内容进行计算机理解,采用纵向分层、横向排列的结构化分析方法,在纵向上对每段视频提取关键帧、获得精彩片段生成视频摘要,建立三层结构;在横向上使用各视频段的关键帧为数据库建立索引。实验证明该模型能够实现不同用户按照其权限等