论文部分内容阅读
快速发展的“互联网+”极大程度上便利了人们的生活,同时也深刻变革了很多行业。以“互联网+租房”为例,目前市面上就存在着诸如安居客、搜房网等多种线上房屋租赁信息平台。租客在租赁房屋时,多数用户会优先通过互联网方式来租赁房屋。然而大量网络上的租赁信息存在很多缺点,例如有的对信息本身的筛查把关不够严格,大多会出现夸大或隐瞒的情况;有的会收取一定数额的中介费用,这对希望可以直接联系房东并节省中介费的租客来说可以是一笔可控支出。当下租赁房屋已成为很多人的热点需求,对于如何在网页上拨开繁杂的大量无用信息准确快速地找到精准信息,并剔除中介高效地联系出租者或求租者,则变得很有意义。本文针对希望在互联网上得到比较真实的房源,并寻求经济的租客而言,构建了一个基于信息抽取技术的房屋租赁信息平台。该平台致力于搜集网页上海量的出租和求租信息,对于目标群体倾向于信息真实,乃至经济的特点,设计开发了此房屋租赁信息平台。平台主要搜集显示了网页上个人发布的非中介房源信息,对于出租者用户和求租者用户都有较好的信息体验。在信息的收集上,本文主要搜集来自豆瓣租房小组和各大校园BBS等社区网站,提取房源的详细信息。用户可根据关键地理位置和期望价格筛选目标信息,本平台提供的信息源基于爬虫技术以及规则和深度学习的信息抽取技术。本平台基于的信息抽取,主要是对中文命名实体进行识别抽取。目前针对序列标注领域的命名实体识别问题,主流的解决模型是将神经网络与CRF(条件随机场)模型相结合的RNN-CRF(循环神经网络-条件随机场)模型,但RNN(循环神经网络)在处理长文本时存在梯度弥散的不足,常用LSTM(长短时记忆模型)来代替,所以本信息抽取模型选取了 BiLSTM-CRF(双向长短时记忆模型-条件随机场)模型实现对房源具体信息中地理位置和机构名的识别抽取工作;而对于房源具体信息中的价格以及供需关系,则采用基于规则的信息抽取模型。