城市管理投诉文本挖掘与分析

来源 :北京信息科技大学 | 被引量 : 2次 | 上传用户:sunku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化城市的发展,城市管理进入信息化时代,百姓通过数字化平台反映城市管理中存在的问题。由于他们年龄、学历、表达方式存在差异,导致城市管理投诉语料存在格式不规范,表达不统一等特点,工作人员只能逐字浏览,才能发现其中的重要信息即事件信息,工作繁琐且效率低下。利用信息抽取技术,自动抽取其中的事件,将非结构化数据转换为结构化数据,不仅大大减轻了工作人员的工作量,提高了工作效率,而且结构化数据有利于直接的统计分析,能够提高城市管理部门掌握政策的实施效果以及阶段时间内社会管理当中存在的突出问题等,为其在日后的政策制定、工作绩效评估以及工作重点的确定等方面提供预警信息和决策依据。本课题主要针对城市管理投诉文本进行了研究,将课题研究分为4部分:投诉文本中地理位置实体识别、投诉文本中地理位置实体规范化表示、投诉文本中的领域词自动抽取、投诉文本中的领域词规范化表示、投诉文本中事件的统计分析。(1)投诉文本中地理位置实体识别研究。分析地理位置实体的特点,提出地理位置实体识别模型,该模型利用分治策略,将地理位置实体的识别分为基本地名的识别和指示词库的构建。首先利用CRF角色标注方法,识别基本地名;其次利用半自动方法构建指示词库;最后提出依附连接算法,连接基本地名与指示词,最终实现地理位置实体识别。实验结果表明,该方法有显著效果,F值达到84.79%。(2)投诉文本中地理位置实体规范化表示研究。首次提出了基于百度地图API的地理位置实体的规范化表达研究,通过百度开放的Place API对缺陷地理位置实体进行检索,根据检索的结果构建所属区域的特征向量,并在其基础上,利用规范化规则对缺陷地理位置实体进行区域补全,最终实现地名规范化表示。实验结果表明,该方法效果显著,正确率达到97%。(3)投诉文本中的领域词自动抽取研究。通过分析领域词的特点,从领域词类间分布、类内分布和语料规模的不平衡性三方面考虑,在方差的基础上计算领域度,提取候选领域词,然后利用词语结合度在原文基础上对候选领域词进行填充,最终提取有意义的领域词。在城市管理投诉领域进行实验,结果表明,该方法能够准确有效地抽取领域词,宽松准确率比传统TFIDF方法提高了13%。(4)投诉文本中的领域词规范化表示研究。将城市管理投诉领域本体引入词语的规范化表示中,将词语的规范化表示转换为概念实例的映射问题,并通过计算词语之间的相似度实现概念实例的映射,同时将关键词映射到与其相似度很高的概念上,完成词语的规范化表示。实验表明,本文方法在保证较高准确率的情况下,同时解决了映射过程中的数据稀疏问题,取得了比较好的结果。(5)投诉文本中事件的统计分析。在上述研究的基础上,从时间、地点、事件对象三个维度对数据进行全方位分析。从时间维度分析,发现投诉量随着时间的增长而逐渐变多;从地点维度分析,发现城区投诉量多于郊区投诉量,所以要对郊区的居民加大网络投诉的宣传力度;综合三个维度进行分析,发现投诉事件多集中在3-10月,因此有关部门可以根据季节变化对不同的问题给予不同的重视。
其他文献
在工业、社会、经济等众多领域中,人们面临着大量的最优化问题。用模拟生物界自然现象而发展起来的群智能优化算法来解决此类问题已被越来越多研究者所关注。PSO(Particle Sw
随着嵌入式系统在家电、娱乐、通讯等领域的不断发展和硬件水平的不断提高,嵌入式系统必须具备中文人机交互界面功能。目前,X-Window已成为Linux标准的图形操作环境。XIM协议
微电子技术和虚拟技术的不断进步,促进了虚拟仪器的广泛应用。虚拟仪器逐步成为仪器的发展方向。但是,与虚拟仪器的飞速发展相比,虚拟仪器的评测方面的研究明显滞后。在传统
随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,无线传感器网络这种由传感器、微处理器和无线通信接口组成的,集数据采集、融合处理和通信为一体的网络,在国防
XML已经成为网络上数据描述和数据交换的标准;在数据存储领域,XML也发挥着重要的作用。因此,对XML数据的查询的需求也越来越广泛。W3C组织在满足XML查询需求的基础上,针对XML
社会网络分析最早起源于社会学研究,早期的社会网络分析研究对象主要是社会中真实的人以及人与人之间的关系。随着社会网络分析的发展,网络中的社会行动者有了更为宽泛的定义
搜索引擎面对不断爆炸性增长的互联网信息,为了保证搜索的全面性和页面的有效性,就要求有更短的更新周期,于是对Web Spider的采集效率提出了更高的要求。单机的Web Spider的采集
随着医学影像技术的快速发展,出现了多种模态的医学影像。在临床上,使用多种成像技术并适当地将其加以融合,可为临床诊断和手术治疗提供更加全面准确的信息。而图像配准是融
基于组件的开发已逐渐成为软件开发的趋势,它不仅可以提高组件的重用率,避免了重复开发,还提高了整个软件开发的效率并降低了开发的成本。但是,基于组件的系统对于组件间的互
随着市场经济的发展,洗钱活动更加多样化,更加隐蔽化,给银行和金融行业的监控和管理带来很大难度和障碍。一方面,洗钱活动危害金融机构的声誉和效益。不正常的金融交易影响银行信