【摘 要】
:
近年来随着我国经济的快速发展,对专利的重视程度不断上升。以专利为突出代表的知识产权作为一种新兴要素资源,在激烈的产业与市场竞争中发挥的作用日益突显。当下,我国是世界上唯一的工业全门类国家,我国家发明专利的数量连续三年位于全世界首位。专利是技术信息的载体,是技术情报信息的最佳来源。因此专利的分类变得越来越重要。对大量的专利进行预分类可以为某一产业或企业的发展提供强有力的指导。传统的手工分类方法耗时长
论文部分内容阅读
近年来随着我国经济的快速发展,对专利的重视程度不断上升。以专利为突出代表的知识产权作为一种新兴要素资源,在激烈的产业与市场竞争中发挥的作用日益突显。当下,我国是世界上唯一的工业全门类国家,我国家发明专利的数量连续三年位于全世界首位。专利是技术信息的载体,是技术情报信息的最佳来源。因此专利的分类变得越来越重要。对大量的专利进行预分类可以为某一产业或企业的发展提供强有力的指导。传统的手工分类方法耗时长,占用大量的高知识储备人员。本文目的是利用KNN算法结合语义关联技术提升专利文献的分类功能和减少算法的运行时间,实现专利分类高效率、低耗时。由于专利的写作特点:专利摘要文本的叙述特征明显,含义概括度较高。因此相对于普通文本而言,专利摘要文本更适合于具有针对性的算法和语义关联分类方法,这里采用Sentence-LDA主题模型。目前专利分类主要依靠专利序号,对专利文献进行大方向的分类。不用与传统专利分类,本实验对小方向的专利进行细分,研究数据是船舶与海洋工程类专利。这里采用有监督KNN算法。KNN算法的不足:当实验中数据过多时,计算效率明显下降。为了弥补算法的不足,将三支决策引入KNN算法中,提前预处理数据,实现降维的效果,使KNN算法效率得到提高。本文主要的工作:(1)利用Sentence-LDA主题模型结合TF-IDF算法提取关键字。专利的相关性不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。Sentence-LDA主题模型可以较好的实现语义关联。在专利文献处理环节中,第一步是预处理获得的数据,这一步包括分词、停用字(词)处理技术,然后根据TD-IDF算法,计算关键词及其对应的权重值;最后构造基于Sentence-LDA主题模型对专利摘要文本进行主题-词的分类;最后达到专利摘要文献的降维以及关键词提取功能。(2)三支决策改进KNN算法,对专利文献快速分类。根据(1)中提取关键字,实现数据降维后,使用三支决策处理数据集,提高KNN算法的精确度和运行时间。
其他文献
博物馆中“展览品人”伦理性的基本问题是:按照一定分类逻辑将“展览品人”陈列出来,构成一种思维上的价值导向和空间观念秩序的可视化表达。其价值导向和表达所遵循的伦理框
1937年世界经济大萧条之后,尤其是二战以来,多个国家将产业政策作为干预经济运行的重要手段。同样,从我国早期的计划经济到如今的市场经济,产业政策对我国经济的发展起到了重要的指导性作用。由于国内劳动力等生产要素价格的攀升,中国中低端制造业渐渐丧失其成本优势,未来发展面临困境,需要进行转型升级。最近几年我国也在不断加大对产业转型升级的政策支持,如《中国制造2025》和《智能制造发展规划(2016-20
自互联网的诞生以来,社会信息化程度的逐渐加深,一方面使得人民生活更加便捷,另一方面,近些年网络安全事件频发,网络安全逐渐得到人们的高度重视。经研究发现,在钓鱼网站、远控木马等网络攻击中常使用大量的非常规域名,为了及时应对这种情况,本文将根据现有的非常规网络域名的文本特点和DNS查询表现特征研究出一套非常规域名检测方法,打击其对网络环境的危害,维护网络安全。面对海量域名,已有的非常规域名检测方法各有
随着经济社会的发展以及互联网的普及我国农村居民的生活水平及精神面貌发生了巨大的变化,农村居民的收入水平在稳步提升,消费观念在悄然转变,生活质量也在提高,居民对畜产品的消费从吃得起到吃得饱、吃得健康营养转变。方山县农村居民也不例外,但是与发达地区以及畜牧业发展水平较高地区的农村居民相比,方山县农村居民对畜产品的消费水平还比较低。方山县农村居民畜产品的消费对方山县畜牧业的发展、全县经济发展甚至我国20
自从拓扑材料的发现以来,人们对量子体系的拓扑性质的研究就有着极大的兴趣。对于零温时体系基态的拓扑性质已经有了深刻而系统的研究,如拓扑超导体、拓扑绝缘体,反常量子霍
如同Killing型一样,一个深刻的定义对于理解李代数理论大有裨益。导子本身也是李代数中的一个重要概念,在李代数的结构理论中地位举足轻重。双导子是导子的一种推广,通过计算
党的第十九次代表大会提出了实施乡村振兴战略的重大决策部署,2018年“中央一号文件”指出农业农村农民问题是关系国计民生的根本性问题,再次提出“要以实施乡村振兴战略为总
研究背景及目的:既往研究显示,血管平滑肌细胞(Vascular smooth muscle cell,VSMC)由中膜迁移至内膜并异常增殖与血管再狭窄及所致相关疾病的发生、发展关系密切。相关临床及
芳烃苄位仲C-H键(乙苯及其衍生物苄位C-H键)的催化氧化是化学工业中一个重要的转化过程,其氧化产物如芳香酮,是一系列重要的精细化工产品和基础化工原料,广泛应用于香料、香精
随着科技的发展,人工智能已经步入我们的日常生活,如在自动驾驶,智能机器人,医学影像分析等领域被广泛应用。图像语义分割是人工智能领域的一个热点和难点,其目的是为图像中每一个像素分配一个标签。目前,由于缺少大规模的像素级标签数据集,限制了图像语义分割的进一步发展。因此,研究者将目光转向弱监督图像语义分割,用易获得的弱监督信息代替难获取的像素级标签去训练语义分割模型。其中,图像级标签在弱监督信息中最为简