中文文本自动分类相关技术的研究与实现

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:xueliping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,网络信息急剧膨胀。如何有效地组织和管理这些海量信息,并且能够快速、准确地找到用户所需要的信息成为近几年来研究的热点和焦点。文本分类技术就是在这种信息量异常庞大、信息载体纷繁复杂、瞬息万变的形势下应运而生的。文本分类涉及到模式识别、自然语言处理、统计学、机器学习等方面的内容,是一项重要的智能信息处理技术,在信息过滤、信息检索和数字图书馆等方面极具应用价值。本文在已有研究的基础上对中文文本自动分类及其相关技术进行了研究。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术进行了研究和探索,对中文分词、特征选择方法、文本分类算法进行了研究和实现。最后介绍了分类测试平台的系统框架,系统结构和功能模块。论文的贡献及主要成果体现在以下几个方面:(1)中文分词是中文文本自动分类的基础,其中歧义消除和未登录词识别一直是分词算法面临的两大难题,至今没有完全突破。本文对分词算法进行了研究,提出了一种改进的双向最大匹配方法,即IDMM方法,实现了基于IDMM方法并且能够进行歧义词切分和未登录词识别的分词系统,系统性能测试结果表明,该分词系统具有较高的分词正确率和未登录词识别能力,能够满足中文文本分类的需要。(2)对常用的特征选择方法进行了对比研究,分析了各种方法的优缺点。针对常用的特征选择方法都是以单一的特征评估函数作为度量标准的现状,提出了复方特征选择方法的问题,并给出了一种新的基于集合并思想的复方特征选择方法。在分类测试平台上的测试结果表明,这种方法的分类效果要好于传统的特征选择方法,提高了分类的精确度。另外,针对互信息分类效果较差的两个原因,对互信息的评价函数进行了改进,即CMI方法。在分类测试平台上的测试结果表明,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。(3)建立了一个中文文本自动分类测试平台,在此平台上应用KNN分类法对常用的特征选择方法及改进的互信息方法进行了实验分析,为研究中文文本自动分类技术提供了实验平台。
其他文献
新加坡是马六甲海峡沿岸经济最为发达的国家,它的繁荣在很大程度上是依靠马六甲海峡带动起来的。因此,马六甲海峡的安全对于新加坡这个东南亚小国和强国来说,具有举足轻重的
【目的】SSRI_S抗抑郁药起效较慢,因此对抑郁症的病程和预后转归可能会带来一些问题。因为延迟起效会增加病人的致残或意外发生的危险性,而且抗抑郁药的副反应也会因起效慢而
目的:研究采用HPLC-ELSD法测定不同产地黄芪药材中的黄芪皂苷Ⅰ、黄芪皂苷Ⅱ和黄芪皂苷Ⅳ的含量。方法:色谱柱为ZORBAX Eclipse XDB-C18(250 mm×4.6 mm,5μm),流动相为乙腈
在国内日趋活跃的并购大潮中,越来越多的并购交易是参照第三方出具的资产报告提出的评估结论来进行对价。然而公众经常会发现评估结论在并购过程中出现幅度较大的调整或变动,
目的研究拔毒消炎软膏的质量控制方法。方法用薄层色谱法(HPLC)对制剂中大黄、黄柏进行定性鉴别,高效液相色谱法测定大黄酚的含量。结果定性鉴别薄层色谱斑点特征明显;高效液
劳动教养制度是具有中国特有的一种法律制度,它是根据1957年8月1日全国人大常委会批准颁布的《关于劳动教养问题的决定》建立的,作为中国法律制度的一个伟大创举,劳动教养制
腹胀是腰椎手术围手术期的常见并发症,本论文通过文献研究回顾了祖国医学对腹胀的认识和诊疗经验,并结合现代医学对腹胀的病因、病理、诊治等方面的国内外研究成果,重点讨论
女童教育的实施,改善了少数民族地区女童基础教育问题,使新一代女童摆脱了“愚昧文盲”的困境,在一定程度上提升了少数民族地区当地女性整体文化素养。时值我国社会转型时期
重婚罪在刑法学界是一个争论比较大的问题,面对司法实践中越来越多重婚案件的审理,如何合理界定重婚罪显得尤为重要。本文主要从重婚行为侵犯的客体探讨其发展蔓延的的社会危
工具性和人文性的统一是语文课程的基本特点。但在实际的教学实践中,尤其是选修课的教学中,有些教师往往只注重学生人文性的培养,而忽略了语文知识工具的传授。针对这种情况,