论文部分内容阅读
现如今,互联网的快速发展改变了传统信息交流方式,网络上积累了丰富的房产相关信息,如价格信息、房产新闻、房产企业、市场动态等,房产搜索引擎通过主题爬虫技术为用户提供既全面又有专业深度的房地产信息。主题爬虫的性能直接决定了房地产搜索引擎的服务质量,提高主题爬虫性能具有重大意义。对主题爬虫相关理论技术进行了研究,发现当前主题爬虫存在主题信息描述不准确,抓取信息精确度低,主题相关度算法结构复杂,主题爬虫性能差等缺点。针对上述缺点,结合本体和神经网络技术,本文提出并实现了面向房产信息本体的主题爬虫。本文的主要工作和研究成果如下:1)针对互联网中房产信息的开放性、多元化、时效性等特征,提出了一种基于内容学习的本体自适应算法。该算法通过主题爬虫技术获取房地产领域相关信息,对相关信息进行特征提取、过滤、分类、语义分析等处理后得到领域概念,对领域概念进行学习,动态维护本体知识库,提高本体的主题描述能力。2)针对当前主题爬虫相关度算法非线性学习能力差,计算结果精确度低、主题爬虫性能差的缺点,提出了基于BFA1的主题爬虫相关度算法。该算法具备BP神经网络优异的非线性学习能力,算法抗干扰性和稳定性强的优点,同时利用人工鱼群算法优良的全局寻优能力对BP神经网络进行结构优化,进一步提高了主题爬虫抓取信息的精确度。3)基于上述技术研究基础,结合当前热门的房产信息领域,本文设计并实现了面向房产信息本体的主题爬虫系统。该系统结合了本体强大的语义描述能力和BP神经网络优异的非线性学习能力,通过准确率、召回率指标对系统性能进行检测,实验结果表明系统的整体性能有了明显提高,准确率提高了12%,召回率提高了9%。