基于本体的网页文本分类的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:akuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类方法大都采用了基于词频的统计方法来表征文本,基于关键词加权重的向量空间模型(Vector Space Model,VSM)对文本进行分类,普遍缺乏语义信息的导引,得到的文档特征表示只是单纯的词汇堆砌物。为了克服传统文本分类方法中基于关键词匹配带来的局限性,充分利用网页文本中的语义信息辅助分类,本文中引入了领域本体WordNet,将语言学知识有效地融合到文本向量空间的表示中,提出了一种基于本体的网页文本分类算法并给出了系统的实现框架。该算法从语义的角度考虑文档的实际内容信息,借助于WordNet中概念的层次关系以及概念间关系(也即语义)的细致描述以及其它与本体有关的方法来计算特征之间的语义相似度,进行语义扩展以缩减文本特征的维数,实现相似特征的合并以减小相似特征分离对分类结果的影响,并以此构造了分类器。这种方法改进了传统分类方法中相似度的计算仅来自于数据本身的统计信息,综合了概念间的语义关系及客观发生的统计信息,有助于更准确的模拟客观世界的原貌,并发现其中隐含的规律或模式,使得分类的结果更接近于人的理解,也更准确,最后实验证明了该方法的有效性。
其他文献
数字化校园建设是推动教育信息化的重要系统工程,本文对数字化校园信息门户建设过程中所需要的关键技术进行了详细的阐述,论述了校园信息门户的具体工作方式以及Portlet技术的
Web Services是一种新兴的工业技术,它采用面向服务的软件开发方式,是未来企业进行软件开发的发展方向。它将服务的相关信息发布到第三方组织,任何企业、个人都可以按照规则
随着Internet的普及与网络技术的发展以及各种信息家电的出现,家居生活需要一个崭新的控制与管理平台。在此平台中,计算机、音频、视频设备以及其他各种家用电器和自动子系统
随着Web Service在电子商务和企业联盟中应用的日益广泛,安全性问题越来越重要,已经成为制约其进一步发展的关键因素之一。信息安全的主要目标包括机密性、完整性、认证、授
随着信息交换需求迅速增长,交换信息容量的巨增,系统内部上下级数据库之间的数据传输和不同系统之间的数据交换已成为信息系统发展的一个瓶颈。针对这种现代大型网络信息系统
柔性管的形变建模与仿真在工业产品开发、虚拟手术以及计算机动画等领域都有广泛的应用,是CAD与图形学中非常重要的研究课题。目前,基于几何的形变技术已经发展得相对成熟,但
基因组重构是改变基因在基因组中排列顺序的生物过程,可归结为三种主要操作:移位、反转和转位。重组距离即从一个基因组转化为另一个基因组所需的最少重组次数。双重基因组中每
随着经济全球化和信息技术的发展,针对市场机遇,多个企业为了实现共同的项目目标,以契约方式组成一种网络式的联合体,共同承担项目工作,以减少项目的成本和风险,实现优势互补,提高企
随着数字化进程的日益加深,信息家电作为一个新兴的产业日益被广大家庭认识并接受。嵌入式、网络化的发展与普及也为信息家电的发展奠定了良好的基础。然而目前,信息家电的标准还未规范,已有的各类标准缺乏兼容性,安全作为其中的一个研究内容更是没有得到统一。因此,用户身份认证和消息保密机制作为安全研究必不可少的内容,研究意义十分重要。信息家电的安全问题主要体现在:身份认证、数据的保密性、数据的完整性、不可抵赖性
无线传感器网络(Wireless Sensor Network,WSN)是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个小范围的无线网络。大量