论文部分内容阅读
目前,随着国民经济的快速发展,房地产市场交易日趋活跃。信息技术的快速发展,带动了房地产行业的信息化进程。房产门户网站在市场交易中的影响愈来愈深刻,如58同城,21世纪不动产,新浪乐居等,从房产门户网站获取房屋信息进行比较选择是愈来愈多购房者的首选。而对于政府部门来说,建立一个覆盖面广、信息准确的基础房产信息数据库有着重大意义,可以有效提高税收工作的效率,防止偷税漏税、阴阳合同等现象出现。本文通过对房地产信息特点的分析和互联网信息搜索与匹配技术的研究,实现了一个基于主题爬虫技术的房地产交易信息系统。首先,研究并提出了一种基于URL知识库的主题爬虫方案。该爬虫通过收集父网页内容、锚信息、URL内容计算得到目标网页与主题的相关度,在此基础上提取URL的特征并将其表示成一个带权重的向量来构建一个URL知识库,并对URL不断学习来动态更新URL知识库,以提高网页主题的匹配度。然后,研究并设计了基于遗传蚁群算法(GA-ACA)的信息搜索策略。GA-ACA算法主体过程运用遗传算法,利用遗传算法的随机性、快速性、全局收敛性,并结合蚁群算法的并行性、正反馈机制以及高效率的求解过程。一方面通过蚁群算法的信息素来指导遗传选择,另一方面遗传算法的选择结果引起信息素的更新,并用于指导下一次的遗传选择,使两种算法优势互补。最后,实验表明以上方法的应用在爬虫系统的查准率、查全率上较Shark-Search算法提高了5%,比Best-First-Search算法提高了20%左右。