面向房产信息本体的主题爬虫算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:water_please
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,互联网的快速发展改变了传统信息交流方式,网络上积累了丰富的房产相关信息,如价格信息、房产新闻、房产企业、市场动态等,房产搜索引擎通过主题爬虫技术为用户提供既全面又有专业深度的房地产信息。主题爬虫的性能直接决定了房地产搜索引擎的服务质量,提高主题爬虫性能具有重大意义。对主题爬虫相关理论技术进行了研究,发现当前主题爬虫存在主题信息描述不准确,抓取信息精确度低,主题相关度算法结构复杂,主题爬虫性能差等缺点。针对上述缺点,结合本体和神经网络技术,本文提出并实现了面向房产信息本体的主题爬虫。本文的主要工作和研究成果如下:1)针对互联网中房产信息的开放性、多元化、时效性等特征,提出了一种基于内容学习的本体自适应算法。该算法通过主题爬虫技术获取房地产领域相关信息,对相关信息进行特征提取、过滤、分类、语义分析等处理后得到领域概念,对领域概念进行学习,动态维护本体知识库,提高本体的主题描述能力。2)针对当前主题爬虫相关度算法非线性学习能力差,计算结果精确度低、主题爬虫性能差的缺点,提出了基于BFA1的主题爬虫相关度算法。该算法具备BP神经网络优异的非线性学习能力,算法抗干扰性和稳定性强的优点,同时利用人工鱼群算法优良的全局寻优能力对BP神经网络进行结构优化,进一步提高了主题爬虫抓取信息的精确度。3)基于上述技术研究基础,结合当前热门的房产信息领域,本文设计并实现了面向房产信息本体的主题爬虫系统。该系统结合了本体强大的语义描述能力和BP神经网络优异的非线性学习能力,通过准确率、召回率指标对系统性能进行检测,实验结果表明系统的整体性能有了明显提高,准确率提高了12%,召回率提高了9%。
其他文献
访问控制是实现信息系统安全的一项重要机制,然而传统的访问控制技术—自主型访问控制和强制型访问控制已不能满足当今系统安全的需求。基于角色的访问控制模型有效克服了传统
车牌定位的好坏直接关系到车牌识别系统识别率的高低,并且对识别速度也有很大的影响。提高车牌识别系统的效率和实时性的关键在于能否实现车牌的快速准确定位。另一方面,半导
定性空间推理结合了定性推理、空间推理与人工智能,它已经成为人工智能领域的一个研究热点。定性空间推理研究人类对几何空间中的空间对象及其关系定性认知常识的表示与处理
如今,计算机动画技术迅速发展,不仅在传统的动画领域以及游戏产业得到应用,越来越多的影视作品也依赖于计算机动画实现普通拍摄方法难以达到的效果。这也反过来进一步加速了
使用控制模型(UCON)作为下一代的访问控制在近年来被提出,它不仅包含了传统的访问控制技术,同时还涉及到了信任管理问题和数字版权管理问题的领域,也是近年来计算机信息安全领域的
目的 评价蒲元和胃胶囊治疗胃疡病(肝胃不和证)的疗效.方法 将120例患者按随机法分为2组,给予蒲元和胃胶囊治疗的为治疗组(60例),给予西药(泮托拉唑)治疗的为对照组(60例),疗
随着社会和信息网络的发展,自然语言处理变得越来越重要。完全句法分析是自然语言处理的一个重点和难点,于是人们提出一种浅层句法分析来降低完全句法分析的难度。组块识别作
基于Ad Hoc网络与P2P系统的特点,人们希望能够在Ad Hoc网络的基础上配置和开发新的P2P应用系统。山于Ad Hoc网络的特点,移动节点间的协作显得非常重要,而移动节点间的协作常