面向舆情分析和属性发现的网络文本挖掘技术研究

被引量 : 0次 | 上传用户:singleitol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博、即时通信工具、论坛、博客等社会化媒体,以及协同标注、网上商城、电子图书馆等基于实体数据库的互联网应用,已深入人们的日常生活,成了人们发表和传播信息、获取知识的重要平台。网络文本是互联网上信息的主要载体,对其深入挖掘在安全领域的网络舆情分析和实体属性发现上有重大的应用价值和学术意义。文本消息和实体信息是互联网文本数据的两种重要类型。社会化媒体上的文本消息,通常属短文本,并按其时间属性组织后形成文本消息流,包含着网民们的许多思想观念与倾向。然而,文本消息的不完整性、奇异性、海量性和动态性导致文本消息流的话题发现、倾向性分析和热点信息挖掘十分困难。另一方面,基于实体数据库的网站包含着大量网页标签、电子图书、房产、汽车、商品、娱乐和人物等实体的属性信息。实体属性信息散布在各类网页间,往往被海量的网页数据所淹没;特别是应用了垂直搜索技术的网站,大量实体属性信息被用于交互式搜索,这种隐藏在用户检索实体动态交互过程中的属性因没有显式表示在描述实体详情的最终页面上,故本文称其为潜属性信息。目前尚未发现关于潜属性信息挖掘的研究。本文针对文本消息流和实体信息的特点,面向舆情分析和实体属性发现,开展短文本会话检测、敏感热点短语挖掘、实体潜属性发现和海量属性的聚焦爬取四个方面网络文本数据挖掘技术的研究。主要贡献表现在:1.提出了一种基于消息产生密集度和上下文相关度的文本会话检测算法。文本会话检测旨在将消息分检到多个不同的会话队列,是短文本话题发现、倾向性分析与社会网络分析的基础。由于消息产生速率的变化情况能反映出文本会话的边界,本文首先采用n阶移动平均法平滑消息产生速率,然后检测出产生速率曲线中的波谷时刻,认为波谷时刻为会话边界。接着,对于切分好的细粒度会话片段,分析其内容相关性以聚合出较完整的会话,解决交错性问题。由于消息流中时间上比较邻近的消息构成对话上下文的可能性较大,为此基于邻近程度引入消息间会话上下文相关度的概念。为更客观地衡量任意两条消息间的上下文相关度,需要将海量历史消息流中相似消息间的上下文相关度进行综合计算。经综合计算得到的最终上下文相关度较高(超过某个阈值)的消息,认为属于同一会话。消息片段间的会话相关度从两个片段的消息间的相关度综合而得。实验表明,和单纯基于消息间文本内容相似度的聚类算法相比,性能提升了30%左右。2.针对微博中文文本消息流,提出了一种基于AC-Trie树的热点短语挖掘技术。消息流中出现频率突然变高且能持续一段时间的子字符串称为热点短语,它往往能反映消息流中隐含的热点话题和突发事件。本文首先用文本消息流的某个典型时段采样得到各类短语,做为热点短语挖掘的样本,构建具有有限自动机结构的AC-Trie前缀树,然后基于该样本树,通过单遍扫描后续的文本消息流,将各类短语的出现频率记录在相应节点上,并采用频率、放大率或加速度三种经典方法来度量各类短语的出现热度,挖掘出热点短语。考虑到热点话题的转移会导致热点短语的变化,AC-Trie需要相应地从新的文本消息流中采样重构,以发现新的热点短语。本文通过分析记录在Trie树各节点上的遗漏短语频率,动态确定重构时机,以及时发现新的热点短语并减少计算开销。新浪微博文本消息流上的实验表明,本文提出的挖掘技术能有效挖掘到热点短语(平均正确率达89%),时空开销仅为基准算法的2%。3.提出了基于垂直搜索网站超链接语义的潜属性信息发现技术。垂直搜索网站除包含展示实体详情的实体页面外,还包含垂直搜索过程中出现的大量列表页面。列表页面上含有用于垂直搜索的超链接。本文首先针对特定网站的某些显著特征,判别并找出所有列表页面;然后,按照列表页面上超链接中有关“上卷”、“下钻”等搜索概念的语义,通过列表页面及其每一超链接指向的列表页面所分别隐含的实体集间的大小关系的比较,找出该列表页面的“下钻”链接;最后,把“下钻”链接上的锚文本映射到该链接指向的列表页面所隐含的实体上,归入该实体的属性集。潜属性的发现对于深度挖掘舆情对象和热点话题的某些特征有重要意义。尽管网站的动态更新可能导致潜属性发现出现某些误差,实验表明本文的潜属性方法受网站动态更新的影响不大,实用性较高,能达到98%的平均精确率和97%的平均召回率。4.提出了一种基于动态查询树剪枝机制的潜属性信息聚焦爬取技术。针对垂直搜索网站不同列表页面可能隐含相同实体集这一情况,为避免潜属性发现过程中的不必要的重复,本文设计了一种查询树的剪枝机制,查询树的每个节点代表一个列表页面,父节点指向子节点的边代表相应列表页面间的下钻关系,边上的值即为相应的潜属性,从根节点到子节点路径上的所有潜属性构成该子节点的潜属性集。查询树是动态构建的。首先从网站的根列表页面出发,以深度优先方式,根据“下钻”超链接语义生成下层子节点;接着,对于新生成的每个子节点,判断其潜属性集跟已有的某个子节点相同,若有则剪除该子节点。以上含有剪枝机制的查询树动态构建过程,本文称之为属性的聚焦爬取。聚焦爬取过程结束时,可以获得无重复的所有实体页面(叶节点)。最后,通过业已成熟的传统网页信息抽取技术获得实体页面上的显式属性,并与潜属性一起构成实体的全部属性信息。实验表明,经优化后的潜属性发现方法,由于显著提高了发现的速度,故可以更好地适应站点的动态变化,精确率和召回率提高到了99%。5.设计并实现了基于UIMA的文本消息流和实体信息挖掘系统。UIMA是一个基于中间件的海量非结构化数据挖掘分布式开源平台。本文基于UIMA,采用责任链设计模式设计和实现了包含本文四个方面研究内容的互联网文本信息挖掘系统,该系统由网络爬虫构件、预处理子系统、自然语言处理子系统和本文重点研究和实现的挖掘子系统组成。网络爬虫构件实现指定网页的爬取并存储在Hadoop分布式文件系统中。预处理子系统对网页内容依据配置的规则进行初步的无用信息过滤和简单切分,并抽取作者、时间、标题和超链接等元信息,将结果封装为UIMA的CAS数据包。自然语言处理子系统对数据包中的文本内容进行分词、命名实体识别、词性标注等处理,并将结果添加到CAS数据包中。挖掘子系统从CAS包中获得文本消息或超链接,按照本文所提出的方法与机制,将消息流中的消息分检到会话队列,并进行挖掘热点短语的挖掘,对垂直搜索网站的页面进行实体属性信息发现,最后将结果写入数据库中。同时,保存于数据库中的实体属性信息反馈到自然语言处理子系统,辅助实体及属性识别,以不断深化舆情分析工作。此外,本系统还实现了一个简明的可视化界面,展示挖掘结果。本系统已成功应用于国防科大研制的银河博思舆情分析系统。
其他文献
“新生代农民工”是中国城市化发展中的特殊产物。“培训难、就业难”一直是挡在他们融入城市坎坷道路上的屏障。由于自身的流动性和生活环境的特殊性,他们的教育培训一直被
集中控制的操作总屏,能够达到远程控制生产车间各种机械的运行目的,又能合理避开易燃易爆及腐蚀气体的侵入,具有良好的安全特性。
针对高压容器双锥密封结构实际应用中泄漏事故,从高压容器双锥密封结构密封机理,关注双锥密封结构密封比压,提出了拐点压力和最小密封比压的概念。分析了操作工况主螺栓载荷
本文提出通过书目语义检索提升用户书目检索效率的方法。首先,总结国内外开展书目关联数据研究现状,认为现有书目关联数据研究基础足以支撑书目语义检索系统开发;其次,介绍在
采用聚类分析方法对我国大陆31个省、市、自治区火灾统计数据进行分析处理,对各地区的火灾损失进行了评价,并且用聚类和相关分析的方法讨论了经济发展水平、消防投入与地区火
对波浪能发电装置进行更系统的分类总结,介绍了国外几种主要的波浪能发电装置(振荡水柱式、摆式、筏式、鸭式、振荡浮子式),阐述其基本工作原理与相应的最新技术应用情况。在
在社会高度信息化、技术高度集成化的当前时代背景下,要使农业和农村经济取得突破性发展,必须推进农村基层党员干部现代远程教育建设。目前在全国农村普遍开展党员干部现代远
全站仪钢柱吊装实时测量系统采用极坐标法测量原理测定钢柱上点位的三维坐标,系统由PTS-V2全站仪、PC-E500袖珍计算机和微机构成,实测精度:平面点位精度σΔI=±1.5mm,高差精度σΔZ=±1.8mm。
期刊
本文针对平舒某电厂拥有30台G12V190ZLDT1-2型燃气发动机的气缸体缸套发生穴蚀,导致发动机动力性下降,使用寿命缩短,故障发生率增高等难题,通过分析其成因,提出了改进方案,为
国内欺负研究直接借鉴了西方"bullying"的内涵界定、理论假说以及测评工具,却并未考证汉语语境中欺负现象的本质内涵、界定性特征,以及与"bullying"存在的异同。通过梳理考证