论文部分内容阅读
近年来,自然语言处理技术的不断发展使得文本结构化系统在不同知识领域得到了广泛应用。诸如医疗、新闻等领域的文本结构化研究已经取得了较大突破,而在保险领域尚未出现较成熟的文本结构化系统。由于专业知识的不同以及文本内容描述形式的不同,目前还不具备一个通用的文本结构化系统满足各个领域信息抽取的需求。保险文本独特的语言风格,使得面向保险领域的文本结构化系统研究仍存在着新的挑战。保险条款是保险购买人以及保险公司双方确立的有关权利与义务的条文,其核心内容保障责任描述了保险公司承担的责任范围,以及被保险人发生保险事故时保险公司应负的赔偿责任。将该非结构化的文本进行结构化处理有助于实现用户对保障责任内容的快速阅读以及有效理解。本文提出了面向保险领域的保险条款文本结构化方法,并以此作为支撑构建了保险条款文本结构化原型系统,模拟提出的算法在实际的保障责任条件查询过程中系统的应用场景。本文主要内容包括以下几个部分:(1)通过网络爬虫采集各个保险公司的保险条款原始PDF文件,并针对不同文本格式的PDF文件设计不同的文件解析策略以获取保险条款中保障责任文本内容;(2)本文提出了应用于非结构化的保障责任文本数据的结构化方案,即通过保障责任长文本语义分割、保障责任短文本分类、保障责任实体信息抽取以及短文本结构化结果融合的多阶段文本处理方法,最终实现人寿险、意外险、重大疾病险、理财险和医疗险五大类中包含的共98524条保障责任文本的结构化;(3)基于所提的方法,设计并实现保险条款文本结构化系统。测试结果表明,本文所提出的多阶段文本处理方法有效的实现了保险条款中文本的结构化,达到了系统预期设计的要求。