论文部分内容阅读
在信息时代计算机发展迅猛,人们也更多地在网上进行信息交换,购买物品,获取信息,如今互联网上有多种多样并且十分丰富的信息。在面对大量的从互联网上抓取的信息(多以文档的方式),信息检索十分重要,人们能够在搜索引擎中快速便捷地查找到指定的主题内容,从能而得到许多相关的信息。然而,面对检索方式,用户在阅读相应的文档时,往往面对巨大的信息量,在一定的时间内也很难了解整篇文档所表达的主要内容。文档摘要技术可以对一片冗长的文章进行信息提取,挑选出文档的主要信息,帮助人们快速了解文档大意。本文目前流行的词向量技术,构建了一个让机器自动生成摘要的文本摘要系统。该系统不仅能够对提供的文本数据自动生成比较完整、准确度较高的文本摘要,同时也能满足测试人员的需求。本文研究内容主要有以下几个方面:概述了网络爬虫,大数据处理,机器学习,词嵌入以及文本摘要的概念、特点和主要内容,通过对词语映射成向量的关键技术进行探究和讨论。本文根据实际应用对系统进行了需求分析。然后以此为基础对系统的数据获取模块,向量生成模块,文本摘要生成模块和系统比较与评价模块进行了详细的设计和实现。建立了一个基于词嵌入的文本摘要系统。通过对比本文提出的词向量技术实现文本摘要和传统的基于TextRank技术生成的文本摘要,详细地阐述了基于词向量技术的优点。本文中我们采用了目前公认的ROUGE评价方法来评价和比较我们的文本摘要,进一步展示了本文中提出的方法的合理性和优越性。针对目前研究的现状,本文研究有如下特点:(1)采用网页爬虫技术获取多个社交网站原始语料,并用Map Reduce技术提高系统效率。(2)对采集的数据经过繁体字转简体字,字符编码处理,中文分词等一系列操作,采用前沿的词嵌入技术训练数据,得到一份很好的中文词向量。结合当下流行的词嵌入技术,结合了机器学习中的神经网络,贝叶斯等算法实现了自动文本摘要系统,在给用户对信息检索带来方便。(3)把我们提出的词嵌入技术生成摘要和传统的TextRank生成的摘要按照ROUGE-N标准做了详细比较,充分展示词嵌入技术的优越性。