面向网络内容安全的信息挖掘关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:quyeliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和新应用的不断涌现,基于内容的信息滥用问题也日趋严重,网络内容安全面临很大挑战,直接威胁到国家安全和社会稳定。面向网络内容安全的信息挖掘技术近些年成为信息安全领域的研究热点,它主要研究的是如何利用计算机从包含海量信息且迅速变化的网络中,对与特定安全主题相关的内容信息进行获取、识别和分析。网络内容安全需要对内容信息进行高效监控、深入分析和积极反馈,对技术研究的深度和广度提出了较高要求。本论文主要研究面向网络内容安全的信息挖掘关键技术,就当前的一些热点和难点问题进行了探索性、创新性的研究并提出了解决方案,还将相关理论与技术相结合,设计了可全天候运行的舆情系统平台。本文具体贡献和创新包括:(1)提出了基于蚁群聚类方法的热点话题自动识别方法。本文启发于群体智慧具有高度的自组织特性,着重研究蚁群聚类算法在热点话题识别中的应用。论文针对基本的蚁群文本聚类算法BACTC算法后期难以收敛、蚂蚁移动盲目性过强等缺点,提出了一种改进的蚁群文本聚类算法IACTC,从概率转移函数、增加记忆器官和改变移动策略的角度解决了BACTC算法的缺陷。同时,给出了聚类后话题摘要提取的计算方法。本文在真实的网络数据集上对IACTC进行算法验证,并与其他方法进行比较。发现IACTC算法在簇数发现能力、收敛能力和算法准确性等多个指标上具有优势,经过话题摘要提取,算法形成的簇可以生成较好的话题识别结果。(2)提出基于滑动时间窗口的自适应Single-Pass算法,来解决话题跟踪任务中的困难。传统话题跟踪技术和已有的自适应话题跟踪技术,都存在话题过度漂移、话题错误偏移和假反馈等问题。ASP-SW算法引入了基于pLSA的隐含语义模型,从语义层面建立并更新话题模型,减少了反例样本对结果的影响。同时,滑动时间窗口不断排除过旧文档,使它们不参与话题模型的计算,有助于提高话题跟踪结果的准确性。同时,ASP-SW使用了“聚类阈值”策略,来指导文档进行聚类和参与话题模型计算。它包括“经验阈值”和“动态调整阈值”两部分。“动态调整阈值”使ASP-SW适应了话题时间衰减特性。本文还将新词发现技术归纳到话题跟踪任务当中,提出了一种基于零散词拼接的互联网新词汇发现方法——n-scattered。实验结果表明,本文提出的ASP-SW算法能够达到满意的话题跟踪效果,n-scattered则有效的解决了网络新词、热词的发现问题。(3)提出了社会化网络媒体中的社团发现模型CTIM和社团发现算法CD-CTIM。论文对社会化媒体当中用户、文档、社团和话题之间的关系进行了分析,并基于它们之间密不可分的关系,提出了社团-话题交互模型(Community-Topic Interacting Model, CTIM)。论文对CTIM模型的结构、属性及转移函数进行了探讨。并针对CTIM模型的特点,提出了CD-CTIM社团发现算法。该算法进行在用户-话题二分网络的构建,并采用带权重的CWP映射方法对二分网络进行单模映射。基于单模网络上的连边权重信息,本文提出了CTIM模型的模块度QCTIM的计算公式,通过对QCTIM的不断寻优过程,找到最终的用户社团划分。通过在新浪微博采样数据上进行的算法验证,证明CD-CTIM在符合CTIM模型的网络上具有很好的社团划分效果。(4)描述与分析作者领导开发的网络舆情监控与分析系统(YQ系统)的设计与研究工作。YQ系统是作者在攻读博士期间作为课题组长,领导并参与研发完成的舆情工作平台。本文对YQ系统的整体架构设计进行了描述,同时对于分布式模式和单机模式的采集系统、基于模板的内容抽取技术、三级索引程序、数据存储策略以及其他模块的设计与研究进行了详细分析。总之,本文对于面向网络内容安全的信息挖掘技术多个关键领域进行了创新性的工作,这些工作为人们提供了信息内容安全技术层面问题的解决方法和方案。
其他文献
<正>2009年,《中国建材》将改为全彩印刷,迎来新的发展改版目的:打造建材行业主流高端刊物新形象内容定位:高起点——引领行业发展潮流,把握行业焦点脉络;多亮点——直击行业
期刊
作为北京金隅集团(原北京市建材局、北京市建材集团)的技术研发中心,北京市建筑材料科学研究院顺应国家可持续发展的产业政策,根据北京市市政建设需要,依托北京金隅集团的整
新的社会阶层群体在国家政治、经济生活中具有重要地位,是建设中国特色社会主义的重要力量。伴随新的社会阶层群体的发展壮大,其诉求表达意识和实现愿望不断增强,社会参与要
【正】 近年来,我们在指导农民朋友进行番茄生产中,发现番茄卧栽不仅有良好的增产效果,还可解决生产中常常遇到的其它难题。 首先,卧栽的番茄前期生长快,结果早,产量高。由于
“民资输出第一大市”温州正式开始出手,应对因民资跨区域流动,而对该市银行信贷资产安全构成的威胁。记者从近日召开的温州金融工作会议上获悉,该市今年将严控信贷资金的流向,防
随着互联网的快速发展,网页成为信息传播的一个载体,如何给网页搭配合理的色彩,带给浏览者愉悦的视觉享受,是网页设计师面临的一个问题。本文对网页设计的色彩应用原则和配色
知识管理KM(Knowledge Management)是随着科学技术的迅速发展,知识经济的全球趋势而应运而生,知识流失则是企业容易忽视的问题,现已成为企业付出昂贵代价的问题.企业竞争的优
美国经济学家鲍尔丁20世纪60年代提出"宇宙飞船理论",萌芽循环经济思想[1],到上世纪末,德国、美国、日本先后以立法的方式推进循环经济,及至这一理论传入我国,目前,循环经济
【正】 一、西瓜化瓜的产生原因及防治措施 (一)西瓜化瓜的产生原因 1、授粉困难 西瓜为雌雄同株异花作物,如花期遇阴天、雨天,花粉吸湿破裂,或花期提前,昆虫少,雌花不能正常
【正】 我们从几十年的计划经济体制中走过来,思维方式仍有旧体制的烙印。面对市场经济,人们往往用计划经济的思维方式去分析和解决问题,这就很容易遇到挫折,产生悲观畏难情