【摘 要】
:
随着信息技术的高速发展,公安领域的情报信息系统也面临着海量数据,主要是文本数据带来的巨大挑战,传统的手工处理方式已经难以满足业务上的需求,必须采用更加自动化、智能化
论文部分内容阅读
随着信息技术的高速发展,公安领域的情报信息系统也面临着海量数据,主要是文本数据带来的巨大挑战,传统的手工处理方式已经难以满足业务上的需求,必须采用更加自动化、智能化的文本挖掘技术来提高办案效率。面向刑事案件文本,重点研究案件精细分类和串并案分析这两个刑侦人员普遍关注的问题。提出了基于朴素贝叶斯和关键词共现图谱的两级分类方法TLC-NBK,该方法根据案件文本长度短、词频低、类别分布具有层次性和不均衡性的特点,首先在文档频率DF方法的基础上引入了词性特征,提出双因子评估算法进行特征选择,然后利用面向不均衡类别的多变量贝努利模型进行朴素贝叶斯分类,实现了一级案件类别的快速、准确划分;在第一级分类器的基础上,针对其所属的二级案件类别分别构建以文档集为基本单位的关键词共现向量,以关键词间的共现关系代替词频计算权重,并提出了逆类别频率因子对共现权重进行修正,最后采用简单向量距离算法实现二级案件类别的精细分类。此外,还利用同义词网技术消除了领域同义词对分类结果的干扰。提出了基于案件特征的密度聚类方法,实现了系列案件的串并分析。该方法首先结合规则和字典从非结构化的案情描述信息中抽取出结构化的案件特征;接着定义了案件文本间的特征相似度计算公式,综合考虑了精细案件类别、案发时间和案发地点对案件特征相似度的影响,并采用层次分析法决策各维度的权重值;最后,借鉴经典密度聚类算法OPTICS的思想,提出了特征密度聚类算法OPTICS-FD,能够有效的分析出系列案件的密集簇,辅助刑侦人员破案。最后,通过实验对双因子评估算法、两级分类器、案件特征抽取和串并案聚类进行了测试。结果表明,在刑事案件文本挖掘领域,相比于传统方法,TLC-NBK方法的准确率和召回率分别提升了7.53%和12.99%;OPTICS-FD算法的缩减率与召回率分别达到了66.52%和91.25%,更好的支持了刑侦人员进行决策。
其他文献
背景及目的:随着计算机芯片能力的日益发展及大数据时代的来临,基于计算机深度学习技术的人工智能模型已能通过模拟人类大脑的神经网络结构,对输入的信息进行处理,并通过各层
欧阳修的《纵囚论》作为史论性质的文学作品,旨在通过揭露唐太宗贞观六年的纵囚之事来阐发暗含在政治权术下的虚假和伪善。欧阳修认为唐太宗以所谓的信义释放死囚,既不符合法
随着城市空间的不断扩张与建筑行业的快速发展,长期以来,传统建筑业的发展在很大程度上是建立在资源、能源的过度消耗和环境严重污染的基础上的。对建筑垃圾进行有效回收利用
集中采购可以实现企业成本的有效控制,提高采购产品的质量,逐渐成为现代企业运营管理中主要采取的采购模式,但是集中采购具有涉及范围广、跨度大的特点,所以加强集中采购招标
水文循环系统受气象、环境及人类社会等多重系统驱动。随着气候变化及人类活动的加剧,地球表面水循环及水文要素产生或发展的物理条件正在发生显著变化,水文气象观测序列(如降水、蒸发、径流等)呈现出非一致性特征(如具有显著的趋势,跳跃变异等),致使水资源规划与管理、工程水文设计等水文工作的假设前提(即一致性)遭到破坏,进而引发基于历史观测数据所制定的水资源规划与管理方案、已建水利工程的运行规则等备受质疑,水
对国外水电厂“无人值班”情况及“无人值班”模式进行了介绍 ;对大中型“无人值班”水电厂设计中应遵循的原则及应考虑的各类重要技术问题例如保证电厂主设备安全的保护措施
语言是文化的载体,翻译为文化的交流搭建了桥梁。近年来,越来越多的中国古代典籍通过翻译走向世界,使古老的文化焕发出了新的生机。古文英译也给译者们带来新的机遇和挑战。本报告基于笔者在攻读研究生期间参与了一个翻译实践项目,翻译内容为“《孝经学》提要”等五篇文章,主要内容是关于历代“孝经学”的介绍,文中涉及大量古文。古文含义艰深难懂,句式错落有致,对译者的能力要求很高。通过数周的实践,笔者深刻地认识到古文
遵循制度经验、市场需求与制度理性的制度逻辑,市场准入作为门槛式工具应当嵌入土地经营权市场法律制度之中,并为土地经营权市场秩序规范、制度形塑服务。现有政策和地方实践
文章以过氧化氢为氧化剂,以γ-Al2O3为载体采用浸渍法制得不同金属含量的九种催化剂进行催化氧化实验,并优选出以5.0%Co、2.5%Fe(质量百分含量)催化剂CODcr去除率较好,并确定
<正>辽宁艺术中心是一座集辽宁人民艺术剧院、辽宁芭蕾舞团、辽宁歌舞团、辽宁歌剧院,四家省直属的艺术院团的专业剧场,即辽宁话剧中心、辽宁歌剧舞剧中心、辽宁演艺中心、辽