专利权利要求书生成关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jeff006902000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能的出现推动了多个领域的快速发展,其中自然语言处理领域通过计算机理解并应用人类语言,在机器翻译、自动写作等方面已取得了多项研究成果。近代科学的快速发展也催生了专利制度,其设立的目的是鼓励发明以及保护发明人的权利。在申请专利时,需要提交说明书及权利要求书。其中权利要求书是以说明书为依据,明确发明内容并限定权利范围。因此,可以根据说明书的内容自动生成权利要求书。本文探索专利权利要求书自动生成技术,从以下三个方面进行研究:说明书中权利要求依据识别,权利要求特征和限定部分生成以及权利要求引用部分生成。本文的研究内容及贡献如下:第一,对专利说明书中权利要求依据识别技术进行了探索,涉及到对专利说明书的深度理解及推理,将其形式化为机器阅读理解任务。首先通过清洗数据并设计对齐算法将权利要求对齐到说明书中的内容,生成伪标注数据。然后通过设计4种不同问题形式探索其对于识别效果的影响,并基于BERT模型完成训练。最后,在BERT模型基础上添加了Bi DAF网络以捕获问题及篇章间的联系,进一步提升模型性能,并在测试集上得到EM值35.54,F1值38.08的结果。第二,对权利要求特征及限定部分的自动生成技术进行探索,将其形式化为文本摘要任务。首先实现了基于seq2seq的文本摘要模型,然后在其中引入了attention机制,并验证dot、general和concat三种形式的效果。在此基础上进一步引入了copy机制结合抽取式摘要和生成式摘要,提升摘要的效果,并引入coverage机制缓解生成重复的问题。最终在测试集上Rouge-L的F1值达到82.47。第三,对权利要求引用部分的生成技术进行探索,由于引用部分主要写明引用的权利要求,因此将其形式化为文本分类任务。首先通过正则表达式匹配的方式抽取引用部分的权利要求编号,以此构造数据集。然后,通过均衡训练集中类别比例,探索不同样本结构对模型性能的影响,并基于BERT模型进行训练。最后,通过在BERT模型基础上引入LSTM、CNN、RCNN以及DPCNN结构,进一步捕获句对间的隐藏关系,并在测试集中达到了90.32的F1值。
其他文献
目的:探讨亚甲蓝注射液定位前哨淋巴结在甲状腺乳头状癌手术治疗中的可行性和临床应用价值方法:本次研究对2015年1月-2015年12月期间入住我院甲乳外科行首次手术的60例甲状腺
路径规划技术是智能水下机器人(Autonomous Underwater Vehicle,简称AUV)的关键技术之一,在一定程度上它标志着水下机器人智能水平的高低。路径规划的目的、不同的运动规划必
残垣古村在保护与开发中,其人文价值与开发环境面临挑战,转变规划方式,将古村保护与乡村振兴互推互助,实现共赢。本案以抚州市乐安县坪背村的古村落(镇)为核心研究对象,以期
近年来随着无人机的快速发展,无人机载实时三维成像与显示技术在军事领域和民用领域的应用正在快速扩展,已广泛应用于监控侦察、抢险救灾和障碍物检测等领域。本文目的在于构
目的:检测不同糖耐量人群血清半乳糖凝集素3的水平,评估其与胰岛β细胞功能、胰岛素抵抗、糖脂代谢指标的相关性。方法:选取2017年1月-4月于河北省人民医院体检中心进行体检
研究背景及实验目的:根据世界卫生组织报道,癌症是全球第二大死因,2012年约有1400万新发癌症病例,2015年造成880万例死亡,其中肝癌位居第二位(78.8万例死亡)[1]。在中国,肝癌
目的:应用经胸超声心电图探讨在诱导前给予静脉单次泵入预注射右美托咪定对于全麻患者麻醉诱导前后以及气管插管前后循环功能的影响。方法:选择我院拟行择期手术患者60例并将
近几年来,中国劳动力成本、能源成本等诸多生产要素价格不断上涨,各制造类企业面临的成本压力越来越大,同时,消费者对产品品质要求也在不断提升,用户不仅希望能买到可用的产
目的:研究高LDL-c血症且伴有维生素D(Vitamin D)缺乏的2型糖尿病(type 2 diabetes mellitus,T2DM)患者补充Viamin D治疗对其心血管危险因素(cardiovascular risk factors,CRF
目的:运用meta分析方法综合分析miR-21表达高低与非小细胞肺癌(nonsmall-cell lung cancer,NSCLC)预后之间的关系。方法:对PubMed、EMBASE、Web of Science、NIH database、C