基于膜计算优化算法的语义主题爬虫研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:ray361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫有选择性地采集互联网中网页资源,这些网页资源都必须是用户所给定主题相关的,即网页内容是用户所感兴趣的。在经典主题爬虫中,如果文档词项集与主题词项集没有相同词项,此主题爬虫就判定此文档与主题不相关,即相关度为0,而一般的语义主题爬虫能够合理地获取此文档与主题的相关度。然而,这些语义主题爬虫仍然存在诸多问题:锚文本的主题相关度带有局部性、未访问URLs优先值考虑因素不全面、文档的主题相关度计算模型存在瑕疵、未访问URLs优先值算式的加权因子的确定带有随意性。为解决上述问题,本文主要研究工作如下:(1)本文提出语义相似度向量空间模型(SSVSM),SSVSM用于计算文档和主题的相似度。SSVSM主要构建文档语义向量与主题语义向量,此两语义向量都对应到同一语义空间中,即此两语义向量都是同一双词项集并且两语义向量有相同的维数,再将两个语义向量的余弦值(内积)作为此文档与主题的相似度。(2)本文提出将细胞型膜计算优化算法(CMCOA)应用到主题爬虫中,CMCOA用于优化未访问URLs优先值算式的加权因子。在主题爬虫中,CMCOA首先将所有加权因子所构成的向量当作每个膜内一个对象。然后,通过每个膜的交流规则与进化规则选出最优的对象,即对应的训练URLs的主题相关度的训练值与估算值的均方根误差最小。最后,将此最优对象所对应的加权因子作为未访问URLs优先值算式的最优加权因子。(3)本文提出基于语义理解与智能学习的主题爬虫。此爬行策略主要将网页全文本、链接锚文本、链接上下文、网页标题作为超链接的四个文档,并将未访问URLs的的四个文档的主题相关度与相应的四个加权因子整合为未访问URLs的排序优先值。此外,此四个文档的主题相关度通过SSVSM获得,而相应的四个加权因子通过CMCOA获得。
其他文献
二维码作为一种新的信息存储和传递技术,具有可靠性高、信息容量大、保密防伪性强等优点,已经被广泛的应用到生活中各个领域,极大的推动了经济的发展。随着智能手机的普及、
随着计算机技术和网络技术的飞速发展,数字图像在网络中的传输已经变得越来越普遍。正因为如此,数字图像信息的安全和保密问题日益成为了人们关注的焦点。由于图像自身的数据量
随着智能手机的大众化,移动应用层出不穷,要在众多的应用中得到用户的青睐,除了功能实用外,该应用的用户体验势必也是绝佳。按照传统的开发方式,应用需要频繁更新,而每更新一
随着互联网的广泛使用,论坛、微博等多种网络应用作为一种在线交流方式深入到人们日常生活当中,这些网络交流媒介会使得信息在几小时甚至几分钟内得到广泛的传播,如果不对这种瞬
由于传统工业生产对方便、快捷的无线通讯方式的渴望,蓝牙技术及二维码技术被应用于工业生产。但工业生产有其特有的安全性与复杂性要求,在信息的管理及操作的安全性方面还有
计算机技术的发展,特别是网络技术发展,把IT技术推向了新的高度,甚至有人称其为第三次工业革命。随着人们对计算机要求越来越高,软件产品随着人们应用的增加,以井喷似的方式发展起
生物生态组合污水处理是将传统生物处理系统和生态处理系统联合起来对污水进行处理。如果能对其建立精确的污水处理模型,从而实现生物段生态段污水处理负荷的合理分配,在保证污
在如今信息爆炸的互联网时代,随着web文本数量的规模不断增大,人们要从这些海量的文本信息中快速有效地找到自己想要的信息,仅靠人工的分类方法是行不通的,而文本聚类技术正好凭
国民经济动员的目的是为了维护国家安全和非战争军事行动的需要,不断提高国民经济应急处理突发事件能力,将平时状态转换到战时状态时国民经济所进行的一系列活动,这个过程涉及军
自我复制是自然界中生物最基本的特点之一,是人工生命研究的重要内容。对自我复制的研究,不仅有助于探索生命的规律,促进生物学的发展,而且对新一代纳米计算机的实现起到推动作用