基于信息抽取技术的房屋租赁信息平台的设计与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:toponeforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速发展的“互联网+”极大程度上便利了人们的生活,同时也深刻变革了很多行业。以“互联网+租房”为例,目前市面上就存在着诸如安居客、搜房网等多种线上房屋租赁信息平台。租客在租赁房屋时,多数用户会优先通过互联网方式来租赁房屋。然而大量网络上的租赁信息存在很多缺点,例如有的对信息本身的筛查把关不够严格,大多会出现夸大或隐瞒的情况;有的会收取一定数额的中介费用,这对希望可以直接联系房东并节省中介费的租客来说可以是一笔可控支出。当下租赁房屋已成为很多人的热点需求,对于如何在网页上拨开繁杂的大量无用信息准确快速地找到精准信息,并剔除中介高效地联系出租者或求租者,则变得很有意义。本文针对希望在互联网上得到比较真实的房源,并寻求经济的租客而言,构建了一个基于信息抽取技术的房屋租赁信息平台。该平台致力于搜集网页上海量的出租和求租信息,对于目标群体倾向于信息真实,乃至经济的特点,设计开发了此房屋租赁信息平台。平台主要搜集显示了网页上个人发布的非中介房源信息,对于出租者用户和求租者用户都有较好的信息体验。在信息的收集上,本文主要搜集来自豆瓣租房小组和各大校园BBS等社区网站,提取房源的详细信息。用户可根据关键地理位置和期望价格筛选目标信息,本平台提供的信息源基于爬虫技术以及规则和深度学习的信息抽取技术。本平台基于的信息抽取,主要是对中文命名实体进行识别抽取。目前针对序列标注领域的命名实体识别问题,主流的解决模型是将神经网络与CRF(条件随机场)模型相结合的RNN-CRF(循环神经网络-条件随机场)模型,但RNN(循环神经网络)在处理长文本时存在梯度弥散的不足,常用LSTM(长短时记忆模型)来代替,所以本信息抽取模型选取了 BiLSTM-CRF(双向长短时记忆模型-条件随机场)模型实现对房源具体信息中地理位置和机构名的识别抽取工作;而对于房源具体信息中的价格以及供需关系,则采用基于规则的信息抽取模型。
其他文献
笔者从针刺拔罐疗法、穴位埋线法、中药熏洗法、中药外涂法、特殊疗法等五方面综述了银屑病的中医外治疗法。
记者近日从广西教育厅获悉,广西今年继续实施优秀退休教师乡村支教计划,2018至2019学年,将招募857名优秀退休教师前往乡村支教,缓解乡村学校师资紧缺问题,带动受援学校教学质
精品课程建设是一个全面优化的过程,从精品课程的实质和指导思想入手,针对现阶段精品课程建设中存在的问题,结合新疆大学近年来的建设实践,以科学发展观为指导,对精品课程建
分别对高、中、低三种温度类型分散染料,采用原位聚合法进行双层造壁微胶囊化;并将制得的微胶囊化分散染料对仿麂皮织物进行高温高压无助剂染色。与传统的分散染料高温高压染色
本文提出并设计了一种新的鲁棒控制方案,并进行了计算机仿真。结果表明,该系统对于不确定性干扰和噪声,具有强鲁棒性,快速性,精度高等特点,是一种应用在实际动态系统中的理想初始对
当前智慧城市发展进入新时期,为进一步探索智慧城市项目开发模式,在演化博弈理论的基础上,建立政府与企业两方的演化博弈模型,并对模型的稳定状况和策略选择进行分析。同时,采用系统动力学的方法,建立政企双方合作博弈的SD模型,探究系统参数对博弈结果的影响。结果表明:通过采取明确权责任务、拓宽融资渠道、合理分配盈利、健全法规体系等措施可以促进合作的发展。
数与形是数学中最基本的研究对象,反映出了一件事物的两方面属性。在高中数学中,数形结合作为一种重要的解题思路,能够有效的简化解题步骤,梳理解题思路,从而提升学生的数学
2018年6月12日19:30分,我将在中国音乐学院国音堂音乐厅举办歌从楚天来---湖北民歌专场音乐会。音乐会的整体结构从以下几个方面展开:专场音乐会的构思与拟定曲目、作品剖析
目的探讨蜂花前清茶对前列腺炎大鼠的影响及其可能机制。方法通过对大鼠前列腺内注射金黄色葡萄球菌和角又菜胶的方法,分别建立大鼠感染性和非感染性前列腺炎模型,以血清前列腺
由中华书局出版的《新编中华文化基础教材》近日首发,突出古代诗文和儒道经典著作,增强中小学生对中华优秀传统文化的理性认识.系列教材共24册,首批出版3册,其他各册将于年内