面向专利数据清洗和分析的自动分类方法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:junfeng_19860313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,对于技术现状的调查、技术未来发展趋势的预测以及竞争对手的技术发展情况等越来越受到各国家、行业和企业的关注。而在开展技术监测、技术预见等工作时常常需要对专利进行深入的分析,因此,设计合适的分析方法以很好的支持专利分析在相关工作中的应用成为目前需要研究和突破的重点。 通过对专利分析研究现状进行深入学习之后发现目前国内专利分析实施的主要问题是数据清洗耗费资源多和数据分析中需要对专利按照技术特点进行归类的难度大。针对上述两个问题,本文提出了用专利自动分类的方法进行处理,即通过专利分析的方法在数据清洗中寻找孤立点和在数据分析中对专利自动分类的设想。为了验证这个设想,本文深入研究了文本分类和专利自动分类的现有成果,结合《知网》语义相关性算法的主要思想,提出了一种基于树型IPC的专利自动分类算法,并在通过C++语言实现这个算法的基础上,对算法的参数设置和阈值的选择方法进行了讨论。最终对算法实施效果的评估结果为:在专利数据清洗中平均准确率为0.79-0.80,召回率为0.91-0.92;在数据分析中平均准确率为0.99,召回率为0.98,基本达到了研究的预期要求,证明可以在实际分析项目中应用。
其他文献
通过对关于社会网络、知识创新和开放式创新相关文献进行回顾,试图探索社会网络的不同类型、社会资本的不同维度如何影响知识创新。分析结果显示出社会网络不同因素与其成员
目的探究肿瘤标志物CA724、CEA、CA242、CA199在胃癌检验中的临床应用价值。方法选取本院2015年2月到2016年2月收治胃癌患者450例作为胃癌组,选取同期患其他胃部疾病患者450
档案是人们社会实践活动的历史记录,是文化发展社会进步的历史见证。档案文献遗产作为一种人类社会的信息资源与知识载体,具有重要的历史文化价值与文化遗产的丰富内涵:是不可再
自然语言复句(长句)的自动分解与合成对机器翻译技术的应用具有重要意义。这是因为机器翻译作为一种复杂的自然语言处理技术,迄今尚未达到十分成熟的程度。许多机器翻译系统还