【摘 要】
:
随着计算机的普及以及互联网技术的飞速发展,公安领域的文本信息量越来越庞大,不论是现有的文本数据库,还是网页实时更新的文本信息,这使公安部门迫切需要一些自动化的工具,
论文部分内容阅读
随着计算机的普及以及互联网技术的飞速发展,公安领域的文本信息量越来越庞大,不论是现有的文本数据库,还是网页实时更新的文本信息,这使公安部门迫切需要一些自动化的工具,以帮助业务人员在海量的信息中快速有效的获取所需要的案件信息,从而使犯罪信息的文本挖掘技术成为数据挖掘中一个研究的热点课题。目前在文本挖掘领域,对自由文本的处理上,主要的技术大部分都集中在中文分词、文本特征提取、分类、聚类算法上,系统地将这些方法融合在一起应用于实际领域的研究还比较欠缺。本文在分析了文本挖掘各种技术的基础上,提出了一种基于案例相似性计算的文本信息挖掘模型,该模型能够有效地解决传统的文本挖掘系统抽取特征语义信息缺乏、表达能力薄弱等问题。该文本挖掘模型主要由案件相似性判别以及文本聚类两部分组成。在案件相似性计算中,模型借助改进的中文分词算法,提出了一种基于案件分解的知识匹配方法,该方法通过对案件文本信息的关键词抽取以及匹配计算,有效地增强了相似案件匹配语义分析能力,提高了系统的准确率。该方法不仅增强了单一案例的知识表达能力,大大减少了案件库中相似案件的数量,同时也增强了案件知识库的学习能力。在文本聚类中,模型主要是在分析网页案件信息的基础上,实现了K-Means算法的应用。该方法按照文本信息的关键字聚类,有效地实现了相似网页信息的归并。
其他文献
录井数据记录了钻井过程中的各种信息,是地质分析解释、指导勘探开采的基础。随着计算机技术的发展以及录井行业的需求变化,传统的以二维图件来展示、分析、处理录井数据的方
术语集中承载特定领域的核心知识,术语的自动抽取能够辅助人们便捷地获得和积累该领域知识,而双语术语更是兼有两种语言的映射关系,因此双语术语自动抽取在自然语言处理中的
目前电力管理部门人工抄表系统存在诸多问题,需要一种智能抄表模式来代替人工抄表。本文重点研究抄表系统中的电表读数识别算法,主要研究内容和创新成果如下:首先,提出采用颜
随着Web规模呈爆炸性增长,特别是Web2.0的出现,用户生成内容大量增加,Web搜索结果出现了大量不可信结果。如何通过分析Web搜索结果的可信度进行Web搜索结果过滤,已成为一个亟待解
集成学习利用多个学习器来解决问题,可以有效提高学习系统的泛化能力,成为近年来机器学习领域一个重要的研究方向,并被国际权威T.G.Dietterich称为当前机器学习四大研究方向
人脸识别是人工智能领域中重要的研究课题。由于其在档案管理系统、安全验证系统、信用卡验证、公安系统的罪犯身份识别、银行和海关的监控、人机交互等领域具有广阔的应用前
虚拟植物就是以植物个体和群体为研究对象,利用可视化技术在计算机上再现植物在三维空间的生长发育过程。具体的讲,就是通过构造一个简单但是能够反映物理世界中真实植物的数学抽象描述模型,模拟被研究对象的发生、发展过程,为解释现象,揭示机理,发现规律,预测结果提供有用工具。近年来,随着信息技术的发展,虚拟植物的研究正逐步成为国内外农业研究的重点和热点。以计算机为手段对植物生长进行建模与仿真,将为探索植物生命
数字图像处理技术的进步为图像信息的安全性提出了新的挑战,这使得图像认证成为一个亟待解决的问题。图像认证技术,作为一种有效的图像信息安全技术,为图像了提供一种保护手
随着软件复杂性的增长和入侵攻击的加剧,可信性问题日益严峻,传统的以设计更为复杂结构来实现可信的方式已不再现实。本文提出利用自律计算技术自我感知、自我管理的特性,设
随着信息通信技术的快速发展,用户的产品使用行为变得无处不在。传统的用户体验研究方法很难采集到无处不在的体验数据,已经不能满足移动用户体验研究的需求,越来越多的研究