基于领域知识的文本分类算法研究

被引量 : 4次 | 上传用户:yanji0708
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前各类研究机构都在不断增加力度研究开发自身的机构知识库,力求整合自身内部的研究资源和成果,为机构内部和外部的研究人员提供更加便捷的途径来获取科研资料。机构知识库的一个重要研究方面就是领域知识的划分,面对种类繁多,数量庞大的数据资源,如何根据领域划分资源实现有效利用一直是机构知识库研究的核心问题之一,本文研究的基于领域知识的文本分类算法为这一问题提供了一种可行的解决方案。本文提出的基于领域知识的文本分类算法是在现阶段应用效果比较突出的贝叶斯分类算法的基础上进行的改进研究,原型系统分为输入、输出和分类三个模块。在核心的分类模块结合算法流程分别设计实现了的文本分词,特征选取和权重改进,领域知识的算法改进等关键技术。其中文本分词采用现阶段应用广泛的IkAnalyzer和Lucene结合的汉语分词方法,特征选取和权重改进部分主要针对文档中的特殊词汇进行了处理,领域知识的应用部分引入了领域扩展词汇表辅助贝叶斯计算公式求得最终结果。在实验部分,本文设计了多方面的实验步骤分别从算法精确度和算法时间的角度对改进算法和贝叶斯算法进行了对比分析,实验结果表明改进后的文本分类算法有效的提高了分类的精度,并且没有带来过大的系统额外计算时间。相信改进算法的思想能为机构知识库中的领域划分提供合理化的借鉴。
其他文献
农业是三大产业的基础,农村的稳定是社会主义和谐社会建设的重要保障,农民问题是国家不可忽视又无法避免的基本问题,以上问题的解决有赖于农村经济稳定发展这个经济基础,而农村经
本期嘉宾$$ 上海中夏旭波律师事务所 李晓茂$$ 上海广庭律师事务所 潘轶$$ 上海卓君律师事务所 秦建铭$$ 主持人:$$ 据媒体报道,最高人民法
报纸
马克思主义政治经济学是马克思主义理论的重要组成部分,是马克思主义基本原理的具体应用。我国改革开放时期,中国共产党将我国基本国情与马克思主义理论的实践相结合,为促进
数字与信息技术的高速发展以及数字档案馆理论和实践的不断进步.为档案的信息化管理工作提供了基础性的技术支撑。电子档案作为一种新的档案存在形态,凭借其实时性、方便性等诸
在以男性为中心的社会中,女性的独立人格被极大地扭曲。舒婷用橡树这一具有独立品格的意象,阐释了新时期现代女性的爱情观,从而体现了女性意识的觉醒与张扬,从一个独特的角度表达
中美共享经济蓬勃发展,对其进行比较研究具有现实和理论双重意义。选取Airbnb和途家进行案例研究后,发现三个共同点:公司主业都是在线短租,商业模式都在走向混业经营,服务对
随着全球气候变暖、世界自然环境日益变坏,人们开始逐渐意识到节能减排对于改善环境气候的重要性,低碳理念作为全新的理念逐步走入人们的视野确。在健身方面,全民健身活动的
校本课程是依据国家的教育目的和满足地方教育要求的基础上,由各学校的教师对当地社区和本校的资源、环境因素以及学生的实际需求进行分析,针对本校学生进行编制,成为可实施
本文梳理了国际上有关环境经济核算的探索与实践,对我国自然资源资产负债表的性质、研究进展进行较为全面的梳理与评价,总结了我国自然资源资产负债表与生态文明建设的相关制度
“异化翻译”的概念是美籍意大利学者劳伦斯.韦努蒂于1995年在其著作《译者的隐身—翻译史论》中提出来的。异化翻译的提出是基于对传统的归化的翻译观的批评之上,目的是抵抗