面向专利文献的汉语分词技术研究

被引量 : 1次 | 上传用户:hnlh007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会信息化程度日益提高的今天,专利已成为最大的科技信息载体,其在科研开发和技术创新上发挥着重要作用。怎样有效利用其所包含着的爆炸式增长的各类专业信息资源,使专利在科研和专利业务的诸多方面发挥重要作用,是当前汉语专利信息处理系统的重要挑战,而分词技术是其重要的基础工作,专利检索、专利翻译的工作都离不开汉语专利文献的分词技术,分词质量的高低直接影响专利文献应用的效率。汉语分词和词性标注工作已经取得了非常丰硕的成果,但是,目前针对汉语专利文献分词研究的参考文献数量不多,还没有专门的面向专利文献的开源的分词系统。本文根据专利文献自身的特点,提出了一种领域词典与统计相结合的分词方法,与现有的ICTCLAS分词系统相比在专利领域内切分取得了很高的准确率与召回率,通过提取专业术语大大提高了未登录词的识别效率。针对专利文献存在大量的未登录专业术语导致的分词精度下降,本文提出应用NC-value算法抽取专业术语,使用条件随机场模型(CRF),构建专利领域术语抽取模板,抽取出有意义的低频率术语,提高专业术语识别率。与当前主流术语抽取算法在专利语料上的比较结果显示,该方法很好地解决了未登录词的识别问题,使分词的性能提升了大约10个百分点以上。
其他文献
泰国甘蔗生产及科研现状浙江省农场管理局马利一、概况近年来,泰国甘蔗种植面积有较大幅度的增长并已成为世界第三大食糖出口国。在1991年前种植面积5.33万ha的基础上,1991/92年度扩大到0.18万ha,1993/94年度达
抗振动性和温度特性等环境适应性是高精度、高可靠性振动式微机械陀螺实现和工程化应用的关键技术。本文从结构设计、电路控制、MEMS工艺、后端封装等微机械陀螺研发的全流程
目的:评价在直肠癌术前诊断及分期中应用多排螺旋CT(MDCT)与磁共振成像(MRI)的价值。方法:根据研究要求随机入选60例病例,所有患者经手术病理证实为直肠癌。根据术前影像学检
目前,高中语文试卷评讲过程中存在这样一些问题:蜻蜓点水、面面俱到、忽视过程,在教学上也相应地形成了"放羊式""填鸭式"和"代庖式"教学方式。试卷评讲的目的在于查漏补缺、
我国城市步行交通系统问题日益凸显,亟须探索符合城市可持续交通发展的步行交通系统规划设计方法。采用理论研究与案例分析相结合的方法,从三个层面阐述了步行系统的规划方法
西同考——附论六龙地望李正宇西同,一作西桐,又称西桐海,是吐蕃占领时期敦煌的一个地名,晚唐仍继续沿用。此地是古代敦煌境内一处天然牧场。晚唐时期,吐谷浑军及回鹘军多次侵入其
多孔氮化硅陶瓷是一种新型功能陶瓷,它密度低,气孔率高,相对介电常数较小,抗腐蚀耐热性能良好,使用寿命长,且相对介电常数可以根据气孔率的多少进行调节,可在较大温度范围内
随着社会的发展变化、经济模式的改变,各类竞争日益加剧,大学生学习及就业压力增大。现在高校学生大多为独生子女,心理承受能力较差,产生心理困扰、人际交往困难的大学生比例
目的:观察加味六味地黄汤对3~4期慢性肾脏病(CKD)患者微炎症状态的影响。方法:将64名病人随机分为治疗组和对照组,对照组给予常规治疗,治疗组在常规治疗基础上加用加味六味地
目的探讨脊髓损伤致神经源性膀胱的康复护理措施。方法采用心理护理、间歇导尿、膀胱功能训练等综合康复护理措施,对脊髓损伤致神经源性膀胱患者进行康复护理。结果本组76例