文本分类与信息提取方法的研究与设计

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yinhongtao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的迅速发展和企业信息化程度的提高,有越来越多的信息积累,其中大部分是以文本形式存在。人们急需一种能够从大规模的文本信息资源中提取符合需要的、简洁的、可靠性高的信息的工具。数据挖掘中的文本数据挖掘正是要解决这个问题。文本分类和信息提取作为文本数据挖掘的重要应用,也越来越得到人们的关注。 本文主要介绍文本挖掘系统的研究与设计。其中,文本分类和信息提取方法的研究与设计是课题研究的重点。对文本分类技术进行研究和分析,进而提出一种基于特征词句子环境的文本分类方法。介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法。该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合。在对文本信息提取技术研究分析的基础上,将时间信息和地理位置信息进行分析总结,形式化地概括其专用词,构造时间信息词法分析器和地理位置信息词法分析器,再根据总结的事件时间信息和事件地理位置信息规则,设计信息提取算法,以实现文本的信息提取。
其他文献
混沌作为一种普遍存在的非线性现象,渗透到各个科学领域,越来越引起人们的注意。混沌对初始条件的敏感性、貌似随机的行为、连续宽带功率谱等特征,使其在通信领域具有广泛的应用
接入网的概念是随着通信网的数字化、光纤和数字用户传输系统的大量引入而提出的,接入网对电信业务的发展起着重要的推动作用。V5接口作为一种标准化的、完全开放的新型数字
随着网络建设的发展,特别是Internet网络的普及,企业信息化的发展正在改变企业传统的运作方式。越来越多的企业、部门都在逐步依靠计算机网络、应用系统来开展业务,同时也利用In
将计算机技术、数字信号处理技术和通信技术相结合,实现工程机械的远程故障诊断是当前机械设备智能化的重要发展方向。本文结合“装载机远程服务系统与智能化挖掘机”这一项
本文首先提出了短信增值业务平台系统模型,解决了许多企业在构建自己的短信服务渠道的时候,将面临的同时接入多个移动运营商而现有的多个业务系统都需要使用短信服务的问题;然后
随着现代社会的高速发展,高速宽带网络正变得日益普及,而且,宽带网络将占领大部分互联网市场。网络流量的迅猛增长对网络质量、网络安全以及网络运营带来沉重的压力。对于面临的
交通运输信息标准是交通运输信息系统建设的重要依据,其本身应具有科学性、唯一性。然而,由于交通运输领域内的复杂性、相关领域之间的交叉特点以及标准编写人员对交通运输业务
设计模式在软件开发领域中的地位早已被认可,它能使所生成的系统体系结构更加精巧,简洁和易于理解。MVC三元组结构是近年来兴起的一种架构模式,它将软件开发分成模型-视图-控制
在软件的开发中,有相当多的都涉及到数据库的使用,面向数据库的单元测试在其中发挥着重要的作用。本文设计并实现一种面向数据库的单元测试框架,该框架使用在.NET下,能够有效
椭圆曲线密码体制(Elliptic Curve Cryptology,ECC)相比RSA拥有更高安全性、更小存储空间以及更低带宽要求,已经被工业界广泛应用于安全性要求高的芯片中。但是ECC的安全性所