智能搜索中的中文网页分类研究

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:andykoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术突飞猛进的发展,网络规模正以指数级增长。为了更加快捷的找到所需的信息,而不被庞大无序且结构类型多样的信息海洋所淹没,智能搜索已成为人们获取信息的主要途径。然而,当前的全文搜索引擎虽然提供了信息检索服务,但是自身存在着种种缺陷导致了诸如信息孤岛、主题偏向性等问题的出现。而如果对搜索信息按照所属类别进行分类,便可以在很大程度上满足用户搜索的需求,网页自动分类便应运而生。目前,中文网页自动分类技术在搜索引擎的目录导航服务、信息过滤、主题搜索、个性化信息检索、主动信息推送服务领域得到了广泛地应用。本文主要研究内容包括以下几个方面:首先,通过分析网页中包含的“噪声”,结合网页内容的视觉信息和几何布局,使用改进的网页DOM树结构和可视化分析方法识别出主题型网页的内容块,然后在得到的内容块中提取出网页的主要内容,利用统计学的方法来去除网页中与主题不相关的内容,最终达到有效去除网页噪声的目的。实验表明,该方法可以在很大程度上净化网页文本,删除网页中与主题不相关的信息。其次,针对余弦距离在计算文本相似度时,没有考虑文本特征词之间的语义信息,结合《知网》对词汇间概念的语义定义,使用一种基于改进的最优指派模型计算文本的最大相似度。该方法通过模型将网页文本中每个特征词对文本间语义相似度的贡献值聚合在一起,得到网页文本间的相似度值。最后,通过研究网页自动分类的一般常用模型,并结合网页类别定义的自身特点,构建了一种基于支持向量机的层次分类模型。该模型首先用支持向量机识别出所有的顶层类别,然后进行二次特征选择,去除子类间的无关特征,再对每个顶层类别用K-NN识别出子类别。实验表明,该层次分类方法可以得到较好的分类效果。
其他文献
动态心电图(Ambulatory Electrocardiograph)的应用和推广是提高心血管疾病防治水平的有效途径。动态心电图的长时间记录和多导联等特性,导致其数据量较大,不便于存储和远程
随着Internet的发展,传统搜索引擎查准率低下的缺点不断的暴露出来,个性化服务便应运而生。用户偏好作为个性化系统的核心,逐渐受到了重视。本文对用户偏好的建模以及更新方
保证演化需求的实现以及维护演化前后本体的一致性已逐渐成为当前本体演化研究的热点,在这些研究中考虑到了本体对外界的依赖性、搜索空间庞大、解空间繁冗等问题,而对于演化后
随着视频监控技术的高速发展,用户对于视频监控产品在功能完善度、画质清晰度和性能稳定度等方面提出了迫切需求。然而由于视频源的采集系统内外部环境的变化,实际感知噪声的
随着国家对海洋观测领域的重视,各海洋管理部门都纷纷建立自己的传感器观测网络,并积累了大量的观测数据。由于没有统一的标准对传感器及传感器观测数据进行描述,同时又因为
随着数字信息时代的到来,利用互联网对外沟通已成为人们日常生活中不可缺少的一部分。互联网与生俱有的开放性、交互性和分散性特征,满足了人们对信息共享、开放、灵活和快速
作物模型是数字农业中的核心技术。由于作物模型具有显著的时空变异性、区域分散性等特征,所以站点尺度的作物模型须结合GIS(Geographic Information System)才能扩展到区域范
社会学家根据魔方对人类的影响和作用,将魔方列为上个世纪对人类影响较大的发明之列。由于魔方复位非常之难,所以魔方首先引起数学家的兴趣。随后有物理学家涉足魔方领域,现
图像分割是由图像处理进到图像分析的关键步骤,也是一种基本的计算机视觉技术。这是因为图像的分割、目标的分离、特征的提取和参数的测量将原始图像转化为更抽象更紧凑的形
拒绝服务攻击(DoS attack)领域的研究已经进行了多年,但是它仍然是当前因特网中面临的重要威胁。传统拒绝服务攻击需要发送高速率的攻击流,没有隐蔽性可言。然而,近年来提出