面向专利数据清洗和分析的自动分类方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:junfeng_19860313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,对于技术现状的调查、技术未来发展趋势的预测以及竞争对手的技术发展情况等越来越受到各国家、行业和企业的关注。而在开展技术监测、技术预见等工作时常常需要对专利进行深入的分析,因此,设计合适的分析方法以很好的支持专利分析在相关工作中的应用成为目前需要研究和突破的重点。 通过对专利分析研究现状进行深入学习之后发现目前国内专利分析实施的主要问题是数据清洗耗费资源多和数据分析中需要对专利按照技术特点进行归类的难度大。针对上述两个问题,本文提出了用专利自动分类的方法进行处理,即通过专利分析的方法在数据清洗中寻找孤立点和在数据分析中对专利自动分类的设想。为了验证这个设想,本文深入研究了文本分类和专利自动分类的现有成果,结合《知网》语义相关性算法的主要思想,提出了一种基于树型IPC的专利自动分类算法,并在通过C++语言实现这个算法的基础上,对算法的参数设置和阈值的选择方法进行了讨论。最终对算法实施效果的评估结果为:在专利数据清洗中平均准确率为0.79-0.80,召回率为0.91-0.92;在数据分析中平均准确率为0.99,召回率为0.98,基本达到了研究的预期要求,证明可以在实际分析项目中应用。
其他文献
通过对关于社会网络、知识创新和开放式创新相关文献进行回顾,试图探索社会网络的不同类型、社会资本的不同维度如何影响知识创新。分析结果显示出社会网络不同因素与其成员
在Human Library服务中,图书馆、高校院系、高校社团协会、政府部门、民间非营利组织、媒体等都可成为图书馆的合作对象,合作内容包括真人书资源的共建共享、真人图书馆员的
目的探究肿瘤标志物CA724、CEA、CA242、CA199在胃癌检验中的临床应用价值。方法选取本院2015年2月到2016年2月收治胃癌患者450例作为胃癌组,选取同期患其他胃部疾病患者450
档案是人们社会实践活动的历史记录,是文化发展社会进步的历史见证。档案文献遗产作为一种人类社会的信息资源与知识载体,具有重要的历史文化价值与文化遗产的丰富内涵:是不可再
自然语言复句(长句)的自动分解与合成对机器翻译技术的应用具有重要意义。这是因为机器翻译作为一种复杂的自然语言处理技术,迄今尚未达到十分成熟的程度。许多机器翻译系统还
对“985”高校图书馆学科导航建设现状进行全面调查,将总体建设状况、相关称谓、链接路径、建设方式改变等一系列调查结果与笔者2007年的相关调查结果进行对比,并依据对网页
知识共享作为大学知识链中的重要一环,是大学知识管理的核心,又是实现知识创新的基础。大学知识管理实际上就是通过对显性知识和隐性知识的共享,达到知识创新的目的。笔者在对有
高校图书馆对学生学业科研的影响是图书馆成效评估的重要内容之一,该方面研究在国外起步较早,在国内尚处于初级阶段。以北京师范大学学生利用图书馆情况和其学业科研情况为例
从Sogou查询日志中选取样本查询且进行人工标注,通过对标注后新闻查询的分析,提出能用于识别新闻意图的新特征,即查询表达式特征、查询随时间分布特征以及点击结果特征。根据这3个特征,利用决策树分类器实现查询中新闻意图的自动识别,结果发现:1新闻类查询的查询目标主要集中在特定主题信息以及娱乐类信息方面,其查询主题大多为娱乐、政治、体育与经济类信息;2相对非新闻查询,新闻查询具有更可能包含实体、随时间分
基于行业跨学科文献的跨学科属性及文献特征,探讨行业跨学科文献分类方法;借鉴《学科分类与代码》的学科分类体系及简明的类目结构,弥补《中国图书馆分类法》(简称《中图法》