文本分割关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huanghuimin1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分割,即对文本中的长段落进行切分,得到多个独立的子主题模块,模块内信息内聚度大,模块间信息耦合度小。传统的文本处理技术或以句子,或以篇章为基本的语义处理单元,前者信息量较少,容易丢失上下文关系;后者信息量大,但受限于模型和计算资源,难以捕获细节信息。子主题模块对两种方式进行折中,使得模型在不损失细节特征的前提下,充分利用有价值的上下文信息,可以较大提升文本任务效果以及处理速度。文本分割任务较早被提出,由于缺少标注数据,业界多使用无监督方法实现文本分割。传统方法处理思路简单,模型参数过于依赖人为设定,因此最终结果不够精确。本文针对传统分割模型给出改进的方案,并提出利用监督学习处理文本分割任务的新思路,相比于传统分割方法获得了较大提升。本文主要研究工作包括以下三点:1.构建文本分割的语料:从人民日报以及新浪专栏中获取大量网络文本,通过少量人工标注、修正和筛选得到文本分割标注数,为后续监督学习方法提供数据支持。2.实现无监督的文本分割方法:给出传统文本分割方法的处理思路和涉及技术,在此基础上,融合规则模板加以改进,较大提升了模型识别模块边界的准确性。3.提出基于深度学习的文本分割方法:提出利用监督学习解决文本分割任务的思路,通过分类和序列标注两种方式构建文本分割模型。基于分类的文本分割方法通过判别当前位置是否为分割点进行文本的切分;基于序列标注的分割方法则以句子为基本处理单元,对句子序列进行标注,利用句子标签划分主题模块。两种方法在测试集中均取得了不错的效果,除此之外,考虑到标注数据较少,我们在序列标注模型中还利用迁移学习对底层网络参数初始化,使得分割模型泛化性能进一步提升。
其他文献
血管黏液瘤分为表浅性和浸润性,浸润性血管黏液瘤多见于人体内脏器官,临床报道较多,而表浅性则多侵犯皮肤及皮下,临床少见,不易与其他肿瘤相鉴别。我院外科近年来遇见2例,报道如下:
脑血管病是中老年人的多发病,急性期往往有不同程度的意识障碍,吞咽困难等。吸入性肺炎、营养不良、窒息、感染、代谢紊乱等是本病常见并发症。本文就2004年7月至2008年2月,我院
妊娠合并糖尿病(DM)的发生率为0.15%~7.5%。1型糖尿病(T1DM)的糖尿病肾病(DN)发生率随DM病程逐渐增加。青春期以前肾脏受累的发生率明显高于青春期以后发病的患者,11~20岁之间发病的患者DN
重度子痫前期及子痫病人由于病情严重,对母婴危害极大。大量资料证明,重度子痫前期及子痫患者除药物治疗外,适时剖宫产终止妊娠是抢救治疗中的一种有效手段。我们收集了我院近6
老年性甲状腺功能亢进症临床表现常不典型,现将我科收住的5例以肾病综合征为首发表现的老年性甲状腺功能亢进症分析如下;