【摘 要】
:
随着人类社会日新月异的变化,技术的革新速度越来越快,同一领域的行业竞争变得愈发激烈,这对企业在某一领域下的技术创新提出了更高的要求。专利作为一种含有丰富信息的特殊知识文本,在教育、金融、生产等一系列领域中为技术发展提供强有力的支撑。面对海量的专利文本,如何改变传统的文本分类算法使其适应专利文本的特性成为现在专利分类亟待解决的问题。相似性度量是指通过某种方法来衡量数据之间相似程度的一种度量方法。由于
论文部分内容阅读
随着人类社会日新月异的变化,技术的革新速度越来越快,同一领域的行业竞争变得愈发激烈,这对企业在某一领域下的技术创新提出了更高的要求。专利作为一种含有丰富信息的特殊知识文本,在教育、金融、生产等一系列领域中为技术发展提供强有力的支撑。面对海量的专利文本,如何改变传统的文本分类算法使其适应专利文本的特性成为现在专利分类亟待解决的问题。相似性度量是指通过某种方法来衡量数据之间相似程度的一种度量方法。由于目前基于统计和机器学习的专利分类方法,在分类精度方面很难再有更大的提高,因此如何选择一个优秀的相似性度量方法使其达到更好的分类效果,是当前的研究重点和热点。本文根据专利文本的特点结合传统的相似性度量方法提出了两种基于相似性度量的专利分类方法。首先,使用TF-IDF方法从专利摘要中筛选出特征项,通过CHI统计量判断特征项与类别之间的关联性,然而CHI统计量会夸大某些不具备分类信息的低频词的重要程度,影响分类准确性。因此将CHI统计量与夹角余弦相似度结合,提出了一种新的基于摘要相似度的专利分类方法。基于此方法,考虑专利的结构化和非结构化特征,提出了一种基于IPC分类号和摘要混合相似度的专利分类方法。该方法同时考虑IPC分类号相似性和专利摘要相似性,进一步提升相似性度量和分类的准确性。其次,提出了一种新的基于权利要求书相似度的专利分类方法。从权利要求书中抽取SAO-x结构(在考虑了主谓宾的基础上考虑专利的目的、功能等),其能够较好地表达技术要素与功能实现之间的逻辑关系,构成了专利权利要求书核心内容的表述。基于SAO-x结构是一种多维结构,提出一种新的结合Jaccard距离和马氏距离的多维相似性度量方法,通过计算SAO-x结构相似度来判断中文专利权利要求书之间是否相似,进而实现对专利的分类。最后通过实验验证本文提出的两种基于相似性度量的专利分类方法的有效性。
其他文献
合金在液相烧结过程中,由于原子对流和扩散较明显,使得颗粒发生明显粗化,且合金在液相烧结过程中会不可避免出现孔隙问题。故使颗粒粗化及孔隙长大成为液相烧结过程中的核心问题。而针对合金在液相烧结下的粗化行为研究,本文提出强磁场为控制方法。通过对Cu-Co合金系在强磁场下液相过程中组织演化进行分析,针对其第二相颗粒的粗化及合并现象,且对孔隙的行为变化进行分析研究。主要研究结果如下:(1)通过对合金颗粒组织
坚持党对意识形态建设的领导是中国共产党百年成功之道,也是学界持续关注的重大命题之一。学界重点围绕中国共产党领导意识形态建设的理论基础、历史进程、重要意义、基本经验等方面开展深入研究,为该重大命题的理论和实践研究奠定了良好的基础。针对既有研究尚需拓展的空间,学界应当不断创新研究范式、研究内容、研究视角和研究方法,为新征程中中国共产党领导意识形态建设提供理论依据和决策咨询。
创新人才是推动社会发展和科技进步的重要力量,化解制约我国科技发展的“卡脖子”难题更离不开创新型人才。数学是思维的体操,是培养学生创新能力的关键因素。学生提出问题、分析问题和解决问题的能力,是形成理性思维,发展智力和提高创新意识的基础。本文侧重于高中数学教学中培养学生问题意识的策略研究,对数学问题意识的相关核心概念进行了界定,分析了国内外研究历程、现状及不足,并以相关的现代教育理论作为本项研究的理论
磁致伸缩材料与国民经济和国家安全密切相关。Fe-Ga合金(Galfenol)是迄今为止已知唯一兼具大磁致伸缩系数与优良机械性能的新型磁致伸缩材料,近年来受到广泛关注。Fe-Ga合金磁致伸缩性能具有明显的各向异性,方向磁致伸缩系数最大。轧制法制备Fe81Ga19合金薄带具有高效率,低成本的特点。Fe81Ga19合金脆性大,不易轧制且磁致伸缩性能与二次再结晶Goss({110})织
5G的美好生活即将来临,对通讯基站与智能设备的稳定工作提出了更高的要求。研究高强高导铸造合金可以为通讯基站和智能设备提供稳定的工作环境。铸造铝硅合金具有较好的热传导性能和力学性能,十分适合通讯产品的大规模应用。本试验通过对不同Si含量、变质处理和固溶处理时间下Al-Si合金中Si相的形貌进行表征,分析Si相形貌对合金综合性能的影响,研究Si相对Al-Si合金热传导的影响原理;此外,本试验通过对高强
由于具有良好的强塑性配合,无碳化物贝氏体成为第三代先进高强钢的备选钢种。热处理周期长一直是妨碍无碳化物贝氏体钢开发的主要障碍,为此本文提出成分优化与预生成马氏体诱发贝氏体转变的相结合的解决思路。论文以二种中碳合金钢28Mn3Si1.4钢和28Mn2Si1.6钢为研究对象,通过热膨胀研究了实验钢的贝氏体转变动力学行为,对热处理样品进行组织表征和性能测试,建立了实验钢的成分—工艺—组织—性能关系,研究
线性EV模型自提出便得到了学者们的大量研究,并且在医学、金融、生物等方面有着广泛的应用。该模型保留了自变量中存在的误差,是简单线性模型的延伸但比线性模型更加符合实际情况。大偏差和中偏差原理是概率论研究的热点问题之一,其研究核心是稀有事件的收敛速度问题。相比于中心极限定理以及经典的大数定律,大偏差和中偏差能够给出较为具体的速率函数,能够对随机变量序列的极限行为以及模型中参数估计收敛性的刻画给出较为精
针对激光三角法采集光斑图像,设计一种并行计算获得光斑中心坐标的方法;应用计算机软件设计并验证可移植的算法,进而在进行算法硬件移植;通过验证后采用质心方法获得光斑中心坐标,在硬件系统工作过程中,采集图像每一行数据时,就开始计算中心位置,而不需存储整幅图像再遍历获得光斑中心位置,减少在图像处理过程中存储空间的占用,再次运算读取图像所消耗的时间。
特厚板作为重要的钢铁品种,广泛应用于国民经济建设的各个方面。为解决特厚板产品存在的内部组织疏松、晶粒粗大和偏析等共性问题,本文提出将变厚度轧制技术应用于特厚板生产,在不改变现有的工艺和设备条件的基础上,通过增加单道次压下量提高变形渗透性,以期改善轧制条件,挖掘设备潜能,提高产品芯部质量。本文针对特厚板变厚度轧制工艺模型开展研究工作。论文主要内容如下:(1)针对咬钢冲击的瞬态过程,基于集中质量法建立
作为一种重要的战略资源,钒的应用领域不断扩大,钒及其化合物广泛应用于钢铁、冶金、航空航天、化工、医疗和电池等领域,同时对其纯度的要求也越来越高。偏钒酸铵是一种重要的钒酸盐,不仅是制取高纯氧化钒的重要原料,而且在化工、医药、催化剂、功能材料等方面具有不可替代的作用。这些领域的不断发展对偏钒酸铵的纯度提出了更高的要求,所以研究以工业级多钒酸铵为原料制备高纯的偏钒酸铵具有重要的意义,同时研究了通过控制沉