对数字化科技论文的自动分类研究

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户：zguohui69

【摘要】

：

针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统

【作者】

：

李森马军赵嫣雷景生

【机构】

：

山东大学计算机科学与技术学院,山东大学计算机科学与技术学院,山东大学计算机科学与技术学院,山东大学计算机科学与技术学院山东济南250061,山东济南250061,山东济南250061,山东济南250

【出处】

：

山东大学学报(理学版)

【发表日期】

：

2006年03期

【关键词】

：

科技论文文本分类层次结构分类精度分类效率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间. In view of the semi-structured features of scientific papers, this paper proposes a multi-level classification model that uses metadata of scientific papers, where the metadata contains the title of the paper, keyword sets and digests, etc. Experiments show that if only meta-data is available, Compared with the traditional classification accuracy based on the full text information classification method, if the classification method based on domain knowledge is used, the metadata are used for rough classification and then the full-text classification, the classification accuracy obtained is higher than the best known algorithm Because the size of the metadata is far less than the size of the full text of the paper, and the number of papers in each category after rough classification is much less than the total number of papers, in the case of more classification categories and more evenly distributed texts, Earth shorter classification time.

其他文献

应正确使用递进式复句的关联词语

在加工《编辑学报》文稿时 ,常发现递进式复句中关联词语的使用有错。常见的错误有 :①“不但 (不仅 )……而……” ,②“不仅……也……” ,③“不仅……”等。作为科技书刊

期刊

递进式复句

大山的诱惑(诗)

期刊

儿童成长旅途中注定会遭遇的三个困境——浅析法兰西童话《青鸟》

童话故事《青鸟》,讲述了一个少女寻找爱人的故事,隐射了人们在人生旅途中对于幸福和光明的寻找.在故事中,少女遇到了三个困境:同胞相争的窘境、性成熟的不适、独立人格的缺

期刊

中职英语阅读能力的培养探究

摘要：中职英语是指普通中等职业院校所教授的英语，中职教育也与普通中学教育有所不同，但英语在所有教育包括中职教育中都占据相当大的比重，而阅读又占据英语教学的相当部分。中职英语教学着重强调了学生的阅读能力的培养，因为阅读不仅在考试中有很大分数，同时在语言交际中也有强大的作用，而且随着英语阅读能力的提高，能够带动英语听、说、读、写、译等相关能力的提升。本研究将从中职英语教育出发，先分析中职英语教学中的

期刊

中职英语阅读能力培养

美国房地产市场应感谢中国买家

过去一年间,中国买家购买美国房产的交易额达到了90亿美元,较前12个月的73亿美元交易额增长了23%。房地产投资性需求被挤出市场?大谬不然。目前房地产成交量大幅反弹。据东方

期刊