基于相关实体检索模型的信息保护

来源 :复旦大学 | 被引量 : 0次 | 上传用户:weige1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理、数据挖掘等技术的发展,尤其是搜索引擎的广泛应用,人们可以很高效地将原本分散的信息组织在一起,普通用户也能便捷地从网络中获取期望的信息。然而强有力的网络信息检索技术是把双刃剑,用户在获取外部知识变得更快捷的同时,隐藏自己的私有信息也变得越来越困难。用户在论坛、博客、社交网络等web应用上发布的原本安全的信息、,攻击者通过搜索引擎进行的相关实体推定,就有可能造成用户的信息泄漏。传统的信息防护多集中在数据库及信息安全领域,前者主要研究结构化数据上的信息、保护;后者主要研究传输路径上的信息安全。本文作为863研究发展计划“基于Web的用户数据安全防护关键技术研究”的关键子项目,主要研究大规模非结构化数据上的敏感信息的关联性,构建互联网环境下的敏感信息保护框架,相关的研究背景主要集中在信息检索与自然语言处理方面。本文在利用搜索引擎的基础上,针对互联网用户数据的特点,综合运用了文本挖掘与信息检索的多种技术与方法,提出了一个多角度关联模型,通过相关实体检索预测出潜在的用户信息泄漏,从而达到保护用户信息的目的。本文的工作主要包括:●介绍信息保护的研究现状,数据库及信息安全领域的传统信息保护方法,大规模非结构化数据防护涉及到的技术与方法●提出基于相关实体检索算法的信息保护框架,构建多角度实体关联模型,并通过对权威主页的深度挖掘,改进了关联模型的检索结果。●以框架为基础设计和实现了一个基于互联网海量语料的信息防护系统。系统的相关实体检索模块在TRE-C2010的相关实体任务数据集上进行了实验,与基于BM25及贝叶斯模型等其他实体检索方法相比,本文提出的方法各项评测指标都优于前者,显示了模型的准确性和适用性,证明了方法的有效性。
其他文献
本课题的主要目的是设计开发一基于UML的计算机网络课程辅助教学系统。根据我院的软硬件实际和教学现状,为了节约成本以及能采用比较可行的方式,在分析设计和开发完本系统后,能
视觉目标跟踪是指从摄像机记录的视频序列中连续地推断特定目标运动状态轨迹的技术,是计算机视觉研究中非常重要的一个研究课题。不仅推动了图像处理、模式识别、机器学习和
随着网络与多媒体技术的迅速发展,多媒体产品面临被轻易地复制、传输与修改的难题。加强媒体信息安全与保护媒体知识产权的需求日益迫切。数字水印是维护多媒体产品安全的一
车牌字符识别技术是智能交通系统中的关键技术之一,它涉及了模式识别、人工智能、计算机视觉以及数字图像处理等众多学科领域。目前国内外许多学者专门研究车牌定位和车牌字
随着我国经济的快速发展和城市大规模的建设,工程项目也越来越多。工程数据信息本身复杂而繁多,直接导致造价数据的管理更加复杂。工程项目的成本和业务需求迅速的增长,这就要求
Android是2007年底由Google推出的源码公开的智能手机操作系统,从推出至今已经得到越来越多人的研究和使用,诸多智能手机生产商开始定制属于自己平台的AndroidOS。成千上万种的
经典粗糙集理论的提出主要是针对完备信息系统,其对数据的完整性和精确性要求很高,在数据的处理和分析上存在着一定的局限性。由于现今海量数据中常常存在数据的缺失。作为经
近年来,能耗已经成为嵌入式系统设计中人们关注的焦点,这主要是因为电池供电的便携式和移动式的嵌入式产品的广泛应用。高速缓冲存储器,即Cache,是为了解决存储器和CPU速度匹配而
逆向工程技术是近年来发展起来的一种新的工程设计技术,以其独特的优势逐渐渗透到了各类产品行业,成为现代产品设计的主流技术。逆向工程主要包括三个部分:三维数据测量、数据预
实时多媒体流的传输不仅需要解决传统Internet固有的网络拥塞问题,而且需要满足其实时性要求,因此,解决实时多媒体流的传输问题具有较高的理论意义和工程实践意义。本文在研