论文部分内容阅读
经济与科技的高速发展及信息化的加速推进使当今社会已逐步迈进云计算时代,云计算与大数据的深度结合对传统行业带来巨大的冲击。传统技术需要在云计算环境中重新进行分析、设计,以充分挖掘云计算的潜力,为传统行业的变革寻求新的契机。自然语言处理是计算机科学领域与人工智能领域等其他领域的重要研究内容。自然语言处理从不同的层次来讲,主要包括词法分析、句法分析、语义分析、文本生成、机器翻译及关键词抽取等。自然语言处理经过长期的发展,已有部分技术得到成功的应用,如中文分词工具、翻译软件等。由于计算复杂度高或者其他方面的原因,包括句法分析、语义分析在内的高层次自然语言处理一直以来进展缓慢,云计算及大数据技术的逐渐成熟及应用的日益普及为解决文本关键词抽取等自然语言处理中的难题提供了新的解决方案。本文对基于云计算的多层次文本关键词抽取进行研究,主要是在云计算平台下,对低层次的基于词频的文本关键词抽取、较高层次的基于语义相似度的文本关键词收取、更高层次的基于语言网络的关键词抽取进行分析,通过对三个不同层次的关键词抽取算法进行融合,设计并提出了基于云计算的多层次文本关键词抽取算法并在Hadoop云计算试验平台上进行验证。论文主要包括以下四个方面的内容:首先,对低层次的基于词频的文本关键词抽取进行研究并进行并行化改进,针对Hadoop云计算平台的特点设计Map、Combine、Reduce函数实现云计算平台下基于词频的文本关键词抽取,将词频最高的词语作为基于词频的文本关键词抽取结果。其次,对较高层次的基于语义相似度的文本关键词抽取进行研究并进行并行化改进,采用现有的语义相似度计算方法,针对Hadoop云计算平台的特点设计Map、 Combine、Reduce函数实现云计算平台下基于语义相似度的文本关键词抽取,将与其他所有词语语义相似度和最高的词语作为基于语义相似度的文本关键词抽取结果。然后,对更高层次的基于语言网络的文本关键词抽取进行研究并在Hadoop云计算平台下借助X-RIME网络分析工具实现了对语言网络的作为节点的词语的PageRank值计算,虚拟的超级节点的引入可以确保语言网络是连通的,将语言网络中做为节点的词语PageRank最高的词语作为基于语言网络的文本关键词抽取结果。最后,在云计算平台下将低层次的基于词频的文本关键词抽取、较高层次的基于语义相似度的文本关键词抽取、更高层次的基于语言网络的文本关键词抽取结果进行融合,采用非线性融合函数,取词频平方根、语义相似度和、PageRank值平方三者乘积最高的词语作为多层次文本关键词抽取结果,实验结果验证了本文所提出的基于云计算的多层次文本关键词抽取的有效性。