论文部分内容阅读
随着社会的发展,技术的进步,各种新生事物层出不穷。新事物的涌现,也使得大量新词伴随而来。这些新生的词汇往往不会收入到各种工具书和词典中,人们不得不求助互联网搜索引擎来搜索词语的定义、解释和介绍。虽然主流搜索引擎能够获取和关键词有关的大量网址,但是其中大多数内容并非人们所关心的词语定义,人们还需要逐一打开网页进行繁琐的查找。在这样的背景下,本文对基于搜索引擎的互联网定义抽取进行了研究,主要有以下几个方面:(1)定义抽取语料库的构建研究主要采用在线中文维基百科全书和搜狗全网新闻数据作为互联网语料,开发了基于XML的语料库生成模块。该模块能够生成定义抽取实验专用的互联网语料库。(2)基于统计的互联网定义抽取方法研究使用了N-Gram模型来获取统计特征,并提出将关键词权重和语法依赖关系也作为句子特征来源。在考察定义语料和新闻语料的用词特征后,在词语“定义隶属度”和句子“定义隶属度”的基础上提出了“子句”和句子“最大定义隶属度”的概念。提出了一种定义抽取方法,即综合词汇特征、词性特征、关键词权重特征、语法特征、语言学特征和用词特征,将定义句子和非定义句子转换为特征向量,然后比较使用几种经典或流行的分类器进行学习和识别的定义抽取方法。(3)网页批量获取研究和网页信息抽取研究采用多线程技术调用GoogleAJAXAPI完成网页批量获取模块的设计和开发。提出基于信息量的段落权重计算方法,设计并开发了网页信息抽取模块。应用平衡随机森林分类算法进行互联网定义抽取实验。(4)互联网定义抽取系统模型研究提出了一种可行的互联网定义抽取模型。该模型可以用于E-Learning系统、定义类问答系统、知识发现等自然语言处理的应用领域。本文对互联网定义抽取的一些关键技术进行了研究,提出了基于统计的定义抽取方法,设计并开发了互联网定义抽取系统模型的部分模块。希望本文有助于定义抽取的进一步研究。