论文部分内容阅读
随着网络信息技术的迅速发展和企业信息化程度的提高,有越来越多的信息积累,其中大部分是以文本形式存在。人们急需一种能够从大规模的文本信息资源中提取符合需要的、简洁的、可靠性高的信息的工具。数据挖掘中的文本数据挖掘正是要解决这个问题。文本分类和信息提取作为文本数据挖掘的重要应用,也越来越得到人们的关注。
本文主要介绍文本挖掘系统的研究与设计。其中,文本分类和信息提取方法的研究与设计是课题研究的重点。对文本分类技术进行研究和分析,进而提出一种基于特征词句子环境的文本分类方法。介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法。该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合。在对文本信息提取技术研究分析的基础上,将时间信息和地理位置信息进行分析总结,形式化地概括其专用词,构造时间信息词法分析器和地理位置信息词法分析器,再根据总结的事件时间信息和事件地理位置信息规则,设计信息提取算法,以实现文本的信息提取。