基于句子相似度的文本主题句提取算法研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:yl1992zhangshu0804
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段。为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想。首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度。基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取。最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地。
其他文献
本体随着领域、时间、应用环境等的变化而不断发生着演变,因此,本体的完善以及随环境的变化而进化就成为了当前本体研究的重点。本文在引进国外本体进化理论及充分掌握OWL语
主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新
本文将通过探讨私募股权投资基金的税收问题,研究私募股权投资基金的主要组织架构和所得税纳税情况,针对性地提出促进其发展的税收政策建议。
[摘要] 目的 探讨妊娠期糖尿病胎儿脐血APN、新生儿体重、脐血糖化血红蛋白及脐血IR与脂联素的关系。 方法 回顾性分析2013年3~12月在我院住院足月分娩的孕妇91例,根据OGTT试验结果将患者分为两组,GDM组61例,NGT组30例,检测血清APN、FINS、FPG、HbA1C、脐血IR。 结果 GDM组胎儿脐血APN水平与NGT组比较明显较低,新生儿体重及脐血IR水平与NGT组比较明显较高
考察了轮胎胎面胶中改性溶聚丁苯橡胶对白炭黑的分散效果、动态力学和力学性能的影响。结果表明,链末端改性的溶聚丁苯橡胶NS 616和链中与链末端改性的溶聚丁苯橡胶LRE-100,
初见Gl100,脑中只会出现一个字——方。因为Gl100的外形处处都是以方形的概念出现,棱角分明,笔直硬朗,给人以刚强之感。面板由上至下分别是外屏,闪光灯以及摄像头,由对称带出稳重,黑
本文提出了一套指导E-Learning系统中课程知识本体构建的原理和规则。以C语言程序设计课程为例,按照教学步骤和教学规律,通过对课程知识点中核心概念集的抽取及其概念之间关