论文部分内容阅读
文本分割,即对文本中的长段落进行切分,得到多个独立的子主题模块,模块内信息内聚度大,模块间信息耦合度小。传统的文本处理技术或以句子,或以篇章为基本的语义处理单元,前者信息量较少,容易丢失上下文关系;后者信息量大,但受限于模型和计算资源,难以捕获细节信息。子主题模块对两种方式进行折中,使得模型在不损失细节特征的前提下,充分利用有价值的上下文信息,可以较大提升文本任务效果以及处理速度。文本分割任务较早被提出,由于缺少标注数据,业界多使用无监督方法实现文本分割。传统方法处理思路简单,模型参数过于依赖人为设定,因此最终结果不够精确。本文针对传统分割模型给出改进的方案,并提出利用监督学习处理文本分割任务的新思路,相比于传统分割方法获得了较大提升。本文主要研究工作包括以下三点:1.构建文本分割的语料:从人民日报以及新浪专栏中获取大量网络文本,通过少量人工标注、修正和筛选得到文本分割标注数,为后续监督学习方法提供数据支持。2.实现无监督的文本分割方法:给出传统文本分割方法的处理思路和涉及技术,在此基础上,融合规则模板加以改进,较大提升了模型识别模块边界的准确性。3.提出基于深度学习的文本分割方法:提出利用监督学习解决文本分割任务的思路,通过分类和序列标注两种方式构建文本分割模型。基于分类的文本分割方法通过判别当前位置是否为分割点进行文本的切分;基于序列标注的分割方法则以句子为基本处理单元,对句子序列进行标注,利用句子标签划分主题模块。两种方法在测试集中均取得了不错的效果,除此之外,考虑到标注数据较少,我们在序列标注模型中还利用迁移学习对底层网络参数初始化,使得分割模型泛化性能进一步提升。