基于LDA主题模型的web文本自动文摘系统的研究与实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:axrczx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的到来导致了 web信息爆炸式增长,人们对于快速获取web文本主旨信息的需求已非常迫切,因此,自动提取文本摘要的自动文摘算法和自动文摘软件成为了中文信息处理领域研究的热点问题。本文在分析总结现有自动文摘算法和软件存在的问题基础上,针对现有相似度算法和句子排序算法的主要问题,基于LDA主题模型,提出了一种新的相似度算法和LDA-TDTI句子排序算法,并结合进出口纺织原料质量安全风险监测系统开发了一套自动文摘系统。具体研究内容和成果介绍如下:(1)总结现有的相似度计算方法,比较各种相似度算法的优缺点,在此基础上,提出了一种新的相似度计算方法;该算法在潜在狄利克雷分布(LDA)的理论基础上,构建主题空间模型,将字、词、句子、文档、语料库表示成空间模型中的向量;通过实验验证,证明该算法在一定程度上起到降维作用,避免了外部字典的使用,消除了未登录词的语义问题。(2)分析总结了常见句子排序算法的优缺点,针对LDA模型存在的文档主题分布未被反应的问题,提出了 LDA-TDTI句子排序算法;LDA-TDTI算法将句子的主题分布和句子主题重要度间的相似度作为计算句子重要度的标准,相似度越高,表明句子越能代表文章主题;通过理论分析和实验验证,证明该算法提高了文摘的主题覆盖度,提升了文摘句的质量。(3)基于句子排序算法的研究成果,采用OO和UML技术,分析并设计实现了一套自动文摘系统。给出了系统的用例图、E-R图、架构设计、数据库物理结构、类图、应用界面、交互图等主要软件系统模型,阐述了主要模块的实现方案。系统能够较快地提取web文本的文摘,且文摘质量较高。将自动文摘系统应用到进出口纺织原料质量安全风险监测系统中,应用结果表明,该系统能自动提取web文本摘要,用户体验较好,与同种类型的系统相对比,提取的文摘句质量得到了明显的提高。
其他文献
传统的RFID防碰撞算法在处理碰撞时,阅读器发送数据的传输总次数和传输总位数都比较多。为了更好的解决在多标签环境下标签上传数据的碰撞问题,本文对以往的防碰撞算法进行了优
在汉蒙统计机器翻译方法中最流行的是基于短语的汉蒙统计机器翻译方法,而该方法有它自己的缺点,即长距离调序能力较弱,另外,短语长度扩展到3个以上时,出现非常严重的数据稀疏问题,
随着通信业务需求的不断增加,网络规模不断扩大,网络结构日益复杂,导致基站网络故障告警也越来越繁多。大量的无关告警把真正的故障告警淹没,导致故障的发现、定位以及排除变
随着信息化的发展和大数据时代的到来,传统的数据存储方式已不能满足现代数据存储的需求,而云存储和海量数据存储被视为是下一代数据存储的良好解决方案。所谓的云存储,是指通过
以太网光纤通道(Fibre Channel over Ethernet,FCoE)可将光纤通道(FibreChannel,FC)信息封装到以太网信息内,光纤通道请求和数据可以通过以太网传输,是一种利用以太网实现高效块存储
这是一个非常有挑战的任务:在社交网络中发现一个大小为的节点集合作为初始目标种子集合来最大化影响力。这个问题被证明是一个NP-hard的问题。但是幸运的是影响力函数()具有
混合像元问题一直以来就是图像处理、分类、识别和理解的一大障碍,也是传统的像元级遥感分类和面积量测的精度难以达到使用要求的主要原因。混合像元普遍存在于高光谱影像中,在很大程度上增加了对高光谱影像进行精确地物分析和图像分类的难度。解决像元内光谱混合问题的过程称为混合像元分解,该过程通常可分为端元提取和丰度反演两个步骤,准确而高效的提取端元是提高丰度反演精度的基础,因此,端元提取是混合像元分解的关键步骤
随着汽车技术的发展,汽车上的电子控制单元不断增多,汽车电子化成为了汽车技术的发展趋势。FlexRay总线作为新一代汽车内部网络通信协议,具有高带宽、确定性和可靠性等特点,能够
车载自组织网络(VANET)技术的快速发展,提高了道路利用的安全性和有效性。但由于车载自组织网络拓扑结构变化快,对信息实时性要求高,同时车载自组织网络具有开放性特点,这使
数字电路实验对培养学生的对手能力、创新能力有着重要的作用。虚拟实验平台在满足教学目的的同时,又能够减少资源的投入。随着移动平台的日渐增多,原本的教学软件往往不支持这