Web文本分类系统中文本预处理技术的研究与实现

被引量 : 0次 | 上传用户:n4fc561v4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息量的迅速增长对信息检索提出了更高的要求。在使用搜索引擎时,为了方便用户快速、准确地从网上获取所需的信息,有必要对搜索引擎检索到的大量Web页面按内容进行分类。Web文本挖掘技术是解决上述问题的一种有效的方法。它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档集中发现潜在的、有价值的知识。Web文本分类技术是Web文本挖掘中的一项重要技术。目前,针对中文网页的分类技术逐渐成为Web数据挖掘研究的热点。它的关键技术包括网页清洗、中文分词、特征选择、文本表示以及分类算法。其中网页清洗、中文分词、特征选择和文本表示称为对网页文本的预处理,预处理结果的好坏是决定分类效果的重要因素。本文详细研究了预处理的各个过程并实现了预处理系统。预处理过程中,特征集的选取对文本分类的训练时间、分类的准确率都有显著的影响。传统的特征选择方法将每一个特征项都单独对待,分别进行特征评估,忽略了特征项之间的相关性、相似性等语义特征。本文在传统特征选择的基础上,引入了基于同义词统计的特征选择方法,在进行特征选择之前,先进行同义词的替换。这样可以进一步降低特征空间的维数,而且通过采用支持向量机算法进行Web文本分类实验,并利用分类正确率对分类结果进行评价,与不使用同义词统计的特征选择方法相比,基于同义词统计的特征选择方法具有更好的分类正确率。
其他文献
民族体育类旅游主题公园作为民族体育旅游开发的一种重要形式,将对地区旅游经济发展起重要促进作用。就桂林民族体育旅游类主题公园的旅游产品特点、开发原则进行阐述,并在此
作为一种快速、舒适、现代化的交通方式,地铁的出现将会给沿线乃至整个城市带来巨大的影响,而其中影响较为明显且具有研究价值的一项即为沿线零售业。本文通过对杭州市地铁1
目的研究没食子提取物(TGE)对Ig A肾病(Ig AN)模型大鼠血清、尿液及肾组织Ig A表达的影响。方法 50只健康雄性Sprague-Dawley大鼠随机分为正常对照组、Ig AN模型组、TGE 75,150和
常牧乡作夏秋草地利用的高寒草甸类草地出现不同程度的退化,其主要原因是超载过多,应尽快承包到户并进行封育或半封育。牲畜基况的调查表明,该乡的畜种畜群结构不合理,要通过畜种
客观地说,无论从政治、经济还是社会层面来看,中国倡导“一带一路”建设以及由此可能产生的新秩序都会对二战后美国主导的国际政治、经济秩序造成影响。而日本在二战后美国主导
报纸
主要通过实地对参加营地拓展训练活动的学生、学校带队老师和营地拓展师进行问卷调查,及对营地领导等进行专家访谈,了解东方绿舟的中学生拓展项目的开发与实施现状,探讨其制
进城务工人员随迁子女的教育公平问题已引起了全社会的高度关注。妥善解决进城务工人员随迁子女的教育问题对于促进青少年的健康成长,提高我国人口质量,构建和谐社会等具有重
社会保险精算是保证社会保险基金收支平衡和社会保险计划顺利运转的特殊工具和方法。虽然社会保险精算在人们的意识上逐渐被唤醒、受到一定程度的关注,但社保精算专业人才和
在《独立评论》的政治思潮研究中,民族主义和民主主义是研究的两大重点,学界大都立足某一方面展开,而在论及二者在中国自由主义发展脉络中的关系时,则存在着两种观点:第一种
尖晶石型锂离子电池负极材料Li4Ti5O12以其优异的安全性能、简单的制备工艺、低廉的成本和良好的环境特性而被视为最具有应用前景的锂离子电池负极材料之一。然而Li4Ti5O12材