【摘 要】
:
多文档摘要是自然语言理解领域的一个重要课题。它的目的是从内容相似的文档集合中抽取重要信息并生成信息丰富、语言简洁的摘要,从而提供一个快速浏览、获取和使用信息的手
论文部分内容阅读
多文档摘要是自然语言理解领域的一个重要课题。它的目的是从内容相似的文档集合中抽取重要信息并生成信息丰富、语言简洁的摘要,从而提供一个快速浏览、获取和使用信息的手段。本文主要研究基于子主题的中文多文档摘要技术,即将多个文档的内容按照信息的相似程度划分为多个子主题,再从各个子主题中按照一定规则抽取重要句子,去除冗余信息进而生成摘要。该方法涉及到两个重要的子任务:子主题划分、从子主题中抽取句子。针对子主题划分的任务,本文采用聚类方法将内容相似的信息聚集到一个子主题中。涉及到三个子任务:文档信息如何表示、相似性如何计算、聚类方法如何选择。为此本文研究了怎样提取文章的主要信息并且加以表示,其中包括关键的两个步骤:词语的相似度计算和用PPM工去除与主题无关的词语;我们采用两种相似度计算方法:传统的基于VSM的统计方法和基于最短段落的语义相似度计算方法,来衡量两个段落之间的相似度;采用改进的K均值聚类方法和层次聚类方法以比较聚类的准确性。针对句子抽取的任务,我们认为从子主题中选择句子有两个要求:1、句子本身很重要;2、句子包含的冗余信息要小,每选择一个句子可以带来最大的信息增益。为此我们综合考虑了句子的位置特征、句子的长度特征和词汇信息特征,并按照一定的比例加权,得出的总体权值作为判断句子重要性的依据。词汇主要指子主题的主题词。本文试验了通过tfidf-pos方法、基于假设检验方法来抽取主题词,采用两种方法的综合作为最后的输出。针对句子抽取任务的两个要求,本文对句子的选择分两个阶段完成,第1阶段在每个子主题内,把句子按照综合权值降序排序,然后从中选出一定比例的句子,目的是使得挑选出的句子能很好的覆盖子主题的中心内容且冗余信息少。第2阶段逐步删除句子集合中对该集合新信息贡献最小的句子,直到剩余的句子长度之和达到目标文摘长度。能使得挑选出的句子含有最大限度的不同的词语,带来最大的信息增益。
其他文献
酸枣仁是鼠李科植物酸枣Ziziphus jujuba Mill var spinosa (Bunge) Hu ex H F Chou (Ziziphus)的干燥成熟种子,传统中医理论认为其为镇静安眠类药物。酸枣仁皂甙A是酸枣仁的一种主要成份,研究表明酸枣仁皂甙A为酸枣仁镇静安眠的有效成分之一,酸枣仁皂甙A可以抑制动物的自主活动、抑制青霉素钠诱导的海马CA1区兴奋性电位、降低海马神经元突触兴奋性突触
目的给予葡萄糖调节受损患者小剂量维生素D治疗,明确维生素D对糖代谢的干预作用。方法选择196例接受口服葡萄糖耐量试验(OGTT)的受试者,其中葡萄糖耐量正常者67例(糖耐量正常组)、葡萄糖调节受损者129例(葡萄糖调节受损组),进一步将葡萄糖调节受损组分为维生素D干预组(n=64)和未干预组(n=65),维生素D干预组予以小剂量维生素D(400 IU/日)治疗,共1年。治疗前后收集上述受试者的临床
近几年,认知无线电被学术界和IEEE(Institute of Electrical and Electronics Engineers,电气与电子工程师协会)标准化组织越来越重视,并被称作未来无线通信领域的“下一个大
指令正确性验证工作是微处理器设计中必不可少的一步。在流片之前如何自动的、尽可能全面的对处理器指令进行功能上的测试一直是验证工作的重点。随机测试是微处理器验证工作
移动可视电话业务极大地增加了用户的体验性,被认为是3G网络的标志性应用。随着国内3G用户数量的激增,3G可视电话必将具有广阔的市场前景。同时,与3G可视电话业务紧密相关的
伴随着科技的快速发展和大众欣赏水平的逐步提高,人们渐渐摆脱二维界面下的束缚,三维用户界面的设计与应用得到越来越多的人喜爱。建立在快速提升三维图形处理性能的硬件设备
目的探究北京地区2型糖尿病与非糖尿病人群肠道菌群的差异。方法选取在北京协和医院就诊的2型糖尿病患者83例,同时选取64例非糖尿病人群作为对照组,收集研究对象及对照组的粪便样本,采用宏基因组测序技术进行肠道菌群的测定,比较2型糖尿病组与对照组的肠道微生物的差异。结果两组样本共检测出11个菌门,其中放线菌门(Actinobacteria)(P=0.013)、厚壁菌门(Firmicutes)(P=0.0