【摘 要】
:
大数据时代,Big Data往往并不意味着Big Knowledge。例如当突发事件发生时,相关的事件新闻报道数目呈指数式增加,如何从海量新闻大数据流中高效动态追踪特定突发事件的发展态
论文部分内容阅读
大数据时代,Big Data往往并不意味着Big Knowledge。例如当突发事件发生时,相关的事件新闻报道数目呈指数式增加,如何从海量新闻大数据流中高效动态追踪特定突发事件的发展态势,形成便于读者阅读的能够反映事件发展脉络的摘要,成为亟待解决的重要研究任务。面对传统信息处理方式,如人工摘要,检索工具等,无法有效抽取海量信息流中的事件时间摘要的困境,本文在研究事件摘要相关技术和总结实验室已有成果的基础上,研究并实现了基于文本语义正则约束的突发事件时间摘要系统。该系统从新闻数据集的内在特质着手,选择适合处理海量新闻报道流的摘要算法;并且考虑文本数据集自身的特征结构,通过正则项来约束从高维空间到低维空间的特征降维过程,最终将事件发展脉络的正确表述并快速及时地呈现给感兴趣的人们,使其能够便捷直观地回顾该事件的发生历程并知晓该事件的最新发展态势。具体来说,本文的主要贡献如下:·首先,面对突发事件时间摘要系统候选句子稀疏难题,设计并实现了一种新的稀疏候选句子抽取方法。当一个突发事件暴发,在很短时间内,来自各种媒体从不同角度对事件不同方面进行了铺天盖地报道,用户淹没在如泥石流般的新闻报道中。对于海量的新闻消息,此中只有少量报道内的一些关键句子才可以用来构造简短,全面而准确的摘要。如何过滤掉不相关句子,选择高度相关的候选句子成为了一项犹如大海捞针的任务。由于用户的查询词,即用户给出的感兴趣的突发事件话题往往非常简短,而候选句子集合却很庞大,用户查询中的关键词和句子之间的不匹配问题十分严重。因此,本文借助多个搜索引擎,对用户给出的简短事件话题初次检索,并利用检索结果做了查询扩展,以便于后续通过检索模型选择高度相关的稀疏候选句子。·其次,面对突发事件时间摘要系统候选话题挖掘难题,设计并实现了基于非负矩阵分解(Non-negative Matrix Factorization,NMF)聚类的稀疏话题挖掘框架。在得到候选句子集合后,需要利用聚类算法挖掘候选话题。我们所采用的NMF聚类方法不要求聚类话题中心向量相互正交,可以对话题中心向量给出更合理的解释;同时NMF聚类方法的低秩分解过程也保证其能够处理大规模特征维度爆炸问题。·再次,面对突发事件时间摘要系统候选话题聚类语义计算难题,设计并实现了一种新颖的句子语义相似度计算应用方法(Neighborhood Preserving Semantic Measure,NPS),并以将其以正则项的形式约束特征降维的过程。这使得维度约简后的样本空间可能多地保留原始向量表示空间中的语料集中的内在关系。在KBA数据集上的实验表明,本文提出的算法在主要指标,如期望增益(Expected Gain),综合性(Comprehensiveness),F值上,均取得了明显的提升,能够有效提升突发事件时间摘要性能。同时依据本文算法开发的原型系统参加国际文本检索会议(TREC 2015)的Temporal Summarization Track任务,在Summarization Only task子任务中取得第二名的成绩。
其他文献
随着我国改革开发的不断推进,社会经济发展迅猛,作为经济发展基石的金融行业也得到了快速发展。银行是主导金融行业改革的主要动力之一,在发展过程中银行与银行之间的竞争力
羟基磷灰石(HAp)作为脊椎动物骨骼和牙齿中无机成分的主要组成物质,具备良好的生物活性和生物相容性,在材料科学以及生物工程领域引起了研究者们的广泛关注。而通过调控HAp晶粒
目的:通过分析本院宫颈癌及宫颈鳞状上皮内病变患者的高危亚型HPV感染情况,了解本地区宫颈癌及宫颈鳞状上皮内病变与高危亚型HPV感染的关系,为本地区HPV感染的预防、治疗提供一定的参考依据。方法:回顾性纳入2018年01月-2019年06月于川北医学院附属医院妇科就诊,经病理科确诊为宫颈癌或SIL,同时在检验科进行HPV分型检测的患者;HPV检测采用高危HPV分型核酸测定试剂盒进行;针对HPV感染情
本文是译者根据英译汉翻译实践项目《民主生态社会主义:应对气候危机的南非及全球方案》第七章和第八章所撰写的翻译实践报告。原书由14位南非的政治学、经济学、社会学和环境科学等领域的专家学者合著,深入分析了造成全球气候危机的原因并提供了一些解决方案,具有较高的实用价值。目前该书在国内尚无中文译本,翻译本书或许对生态相关领域的政策制定者具有一定的启发意义。在翻译学领域,目的论对应用翻译的指导意义一直受到国
水文干旱作为极端水文事件之一,是地下水与地表水异常偏少的现象,是气象干旱的延续与发展,其演变特征不仅与气候变化有关,而且与社会系统的物理机制联系密切。研究水文干旱对
3D 打印皮肤组织表皮层的种子细胞常用人角质形成细胞系和分离自皮肤组织的角质形成细胞。人角质形成细胞系为转化细胞,其性状和基因表达与正常的角质形成细胞有差异;分离自皮肤组织的角质形成细胞则扩增次数有限。表皮干细胞(Epidermal stem cells,EpSCs)能不断增殖,并分化成表皮层各种细胞,是3D打印组织工程理想的种子细胞,具有很好的应用前景。目前以EpSCs为种子细胞打印皮肤组织的报
在科技迅速发展的今天,国家日益注重创新人才的培养,任何人可以在任何地方进行发明创造,同时,学校也越来越重视学生创造力的培养。创客教育作为创客精神与教育相遇的产物,也应运而生,其项目式学习、创新教育的思想,符合中小学生的发展特点,使学生有机会进行动手操作与创造发明,因此,有众多的中小学以校本课程或社团活动的形式在学校开展了创客教育,旨在培养学生的创新思维、创新能力与动手操作能力,创客教材作为知识的载
我国已进入道路养护时代,大量服役道路面临着巨大的养护压力,微表处具有开放交通快、经济效益好、低能耗、绿色环保等诸多优势,被国内外广泛用于路面养护。但经传统微表处养护后的路面仍会面临诸多与温度有关的病害,如低温开裂,冬季路面积雪、低温结冰,影响行车安全和使用性能。为改善经微表处养护后路面的性能,减小或消除与低温有关的病害,本文提出将相变材料掺入微表处混合料,利用相变材料随温度变化而改变物质相态释放或
聚类算法作为数据挖掘算法中常用的一类方法正受到越来越多的关注。其中基于密度峰值查找的快速聚类算法CFSFDP(Clustering by fast search and find of density peaks)算法是
在信息时代,大量信息在互联网上传播。对于那些感兴趣的有价值的信息,人们除了浏览外,还更希望能够收集并存储起来。针对这样的需求,Web信息提取这一研究领域应运而生。Web信