基于内容个性化的网页信息抽取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:asa333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使搜索引擎成为人们利用网络最主要的信息检索工具,而移动搜索业务作为互联网搜索技术的延伸,能够为用户提供随时随地的信息服务,让用户在任何时刻、任何地点都能感受到信息时代的方便快捷。但是由于移动终端屏幕较小、网络接入速度慢、通信费用高等特点,就要求移动搜索的结果具有很高的精准性,并且能够抽取出相关网页的主题内容。  根据以上背景,本文首先介绍搜索引擎及移动搜索的相关知识,其次介绍用户兴趣建模方法及其改进,在这部分主要提出一种通过改进的向量空间模型来表示用户的兴趣,用非线性函数处理特征项词频的方法,改进权值的计算;另外还利用改进的k-means聚类算法来表示用户的兴趣分类树,在此基础上建立用户兴趣模型。然后介绍网页信息抽取相关技术,提出一种基于DOM结构的网页信息抽取方法,在生成解析树的基础上提取出网页的正文信息。最后介绍基于内容个性化的网页信息抽取系统的设计与实现,并进行测试与分析,实验证明能很好的满足用户个性化信息抽取的要求。  本文提出的改进的向量空间模型使权值的计算更加准确,而改进的k-means聚类算法,克服传统算法中初始聚类中心难以确定的缺点,排除掉数据集的孤立点后再确定初始聚类中心,提高了k-means聚类算法的性能,能够更准确地发现用户的兴趣所在。另外基于DOM的网页信息抽取方法对于利用模板技术生成的网页,能够达到准确抽取网页信息的效果。最后设计的网页信息抽取系统,在信息检索方面能够达到很高的查全率和查准率,很好的实现用户个性化查询的检索目的。  本文提出的网页信息抽取方面的算法具有很好的实用性,但还需要进一步研究,数据快速增长后,数据的存储管理问题,如何提高正文的抽取速度,以及在方法的通用性方面加强研究,以获得更好的挖掘效率。
其他文献
随机共振自上世纪八十年代被提出以来,就逐步开始用于微弱信号的检测,这种非线性系统能够使原始信号和噪声在系统中产生协同作用,最终达到减弱噪声和提取出有用信号的目的。论文
互联网的普及和迅猛发展在给人们带来大量信息的同时,也使人们必须要面对如何获取有价值信息的问题。面对成千上万的同一主题网页,它们多数具有相同的信息,而又包含着少量不
随着数码设备的普及与数字视频技术的迅猛发展,数字视频的采集、存储和传播变得越来越便捷。这导致数字视频的非法获取、盗版和信息篡改变得非常容易,使得数字视频的版权保护面
指静脉识别技术已经被公认为是一种稳定可靠的生物识别技术。它不仅是一种非侵入性和可靠的身份识别技术,并且由于采用了十分安全的非接触识别手段而被用户广泛接受。基于指
随着计算机硬件的发展,多核CPU的应用普及和分布式软件架构的成熟,科学计算领域也逐渐趋向于问题的并行求解。计算流体力学中,不可压缩管流问题是磁流体应用中的重要研究对象,此
无线传感器网络的根本任务是准确获取物理世界中有价值的信息,然而面临着计算、存储、无线通信可靠性、能量有限及资源配置等诸多方面的限制,针对无线传感器网络节点如何进行
电容层析成像技术(Electrical Capacitance Tomography,简称ECT),是一种基于低频电容和电阻测量的层析成像方法,近年来已被广泛应用于工业过程成像和监控中。基于电容传感和
在推荐算法中,基于矩阵分解的协同过滤算法是使用最为广泛的推荐技术之一。本文将对传统的矩阵分解算法在共同购买的模式上进行扩展,基于word2Vec中点际关系的概念构建物品、
多投资项目问题在如今飞速发展的市场经济时代已经成为许多企业研究和关注的焦点和热点问题之一。企业如何在众多备选项目中根据有限的资源(如资金、设备和人力等)选择最优的
随着近年来多媒体技术的飞速发展,H.264编码标准已成为视频编解码领域的研究热点。该标准采用了很多实用的编码关键技术,包括帧间预测、帧内预测、运动估计、块变换、量化、