论文部分内容阅读
人物关系抽取是信息抽取领域的热门研究方向之一,指的是从非结构化或半结构化的文本中识别用户感兴趣的人物关系,并以结构化的形式进行存储的过程。在这个信息爆炸的大数据时代,需要信息抽取技术快速准确地发现形式多样的人物关系,为社会网络及其他相关领域的应用研究奠定基础。本文对基于堆叠降噪自动编码器的人物关系抽取方法进行了深入研究,并在此基础上对基于人物关系抽取技术的社会网络构建方法进行了研究,主要研究内容归纳如下:首先,提出了基于互动百科的人物关系语料自动生成系统的设计方案,对数据抓取、网页正文抽取、文本分析处理、人物关系语料生成四个模块进行了详细的论述与设计;提出了由语言技术平台(LTP)和NLPIR汉语分词系统相结合并协同互动百科进一步确认的人名对识别算法以及基于互动百科的人物关系类型识别算法。其次,研究了基于堆叠降噪自动编码器的人物关系抽取方法,并通过实验的方式对该方法的性能进行了评估。在句子级别的人物关系抽取中,针对特征词过少导致特征向量高度稀疏这一问题,提出了基于同义词词林扩展特征词规模的缓解方法;考察了词特征、词性特征、相邻位置特征、依存句法特征和语义特征对人物关系抽取性能的贡献;探究了不同网络深度的堆叠降噪自动编码器的人物关系识别效果。最后,研究了基于人物关系抽取技术的社会网络构建方法,构建了适合大规模社会网络分析应用的社会网络矩阵并通过社群图的形式对社会网络的构建效果进行了展示。本文提出的基于互动百科的人物关系语料自动生成系统,为后续的基于堆叠降噪自动编码器的人物关系抽取模型的参数训练以及性能测试所需的语料提供了一个语料自动获取工具;提出的基于人物关系抽取技术进行社会网络构建的方法适用于利用大规模互联网数据进行社会网络构建,为社会网络的进一步分析应用奠定了基础。