基于VSM的网页文本分类技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:charleshuangjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,因特网上的网页数量日益激增,但是Web页面的复杂程度使得人们很难准确而快速地获取自己所需的信息。为了使人们能够迅速从网络中获取到自己感兴趣的信息,网页分类技术应运而生,并逐渐成为继文本分类之后机器学习领域的研究热点。同时这也促进了其在信息检索、信息过滤、搜索引擎等多个领域的广泛应用。  本文首先介绍了中文文本分类的研究背景和意义,以及简要介绍文本分类的国内外研究现状。并针对网页文本分类的相关技术进行了详细地介绍,包括中文网页预处理、网页文本表示、特征选取技术、网页分类算法和网页分类效果的评价指标和几种常见的文本分类技术。  其次,本文结合网页的半结构化特性,并根据网页中不同标签内的特征词对分类结果的影响大小,以及特征词在网页中出现位置的语义特点,分析并提出了一种根据不同标签和特征词的位置的权重确定方法。同时,研究了传统的tf-idf公式在网页分类中的应用及其存在的不足,发现tf-idf公式在选择特征词时未考虑特征词在类内及类间的分布情况,然而针对此不足之处对传统的tf-idf公式进行了改进,提出了一种结合类内分布率和类间偏差的特征选择方法。本文将这两种方法综合起来统称为基于特征词复合权重的网页分类算法WCA(Webpage Classification Algorithm)。再通过实验证明该算法的优越性和可行性。  最后,本文运用改进的WCA算法并基于半监督的机器学习理论构建了一个网页分类器,使用搜狗实验室的互联网语料库SougouCS和网络爬虫得到的数据集进行实验,实验结果表明改进后的算法相对传统算法具有更高的精确度。
其他文献
随着互联网技术的不断发展和网络用户的爆炸式增长,用户需求和网络应用趋于多元化。一些大型和复杂系统的应用使得现有的数据传输方式不能满足需要,对性能更高和可靠性强的通
论文研究了无线传感器网络密钥管理与安全认证技术。首先介绍了传感器网络的网络架构分类:分布式传感器网络和层簇式传感器网络;其次介绍了无线传感器网络的应用场景,并由此引出
调度问题这些年已经成为计算机科学中的一个重要问题,其中计算复杂度分析,CPU调度算法的选择,云计算与网格计算中的资源调度和任务调度等问题已经成为研究热点。以上都和经典
在很多实际应用中,数据的不确定性是普遍存在的,例如传感器网络、信息抽取与数据整合系统、科学数据管理系统等。传统的关系数据库采用结构化的存储方式,不适用于不确定数据的存
软件复用是提高软件质量以及生产效率的有效途径。构件和模型技术是组成软件复用的核心技术。它们的不断发展与成熟为软件开发提供了新的模式,工程界和学术界都围绕这些技术展
特征点匹配作为计算机视觉的主要研究内容之一,也是摄影测量的重要环节之一,因此,结合具体应用对新的特征点匹配方法的探求具有非常重要的意义。本文在研究特征点匹配原理和现有
闭环供应链的提出是发展资源节约型和环境友好型社会的必然要求,不少学者对基于再制造的闭环供应链进行了研究,但是,市场环境不断在变化,企业要想在动荡的市场环境中立足,就应顺应
图像质量评价已经从图像处理中分离出来成为一个独立的研究领域。图像信息的最终接受者是人,所以主观方法是可靠的。但需要多次重复实验,费时,难以应用到实际中。客观图像质量评
随着情感识别在自驾游、案件侦破和游戏产业等领域中应用前景和市场价值的凸显,面部表情作为情感识别中的关键,已成为拟人化新型人机交互模式研究中的关键课题之一。本文针对不
随着互联网的飞速发展,各种各样的网络攻击手段层出不穷,网络安全问题面临巨大挑战。对此,企业、组织、研究机构等为保护重要信息和减少经济损失部署了大量的网络安全设备。