论文部分内容阅读
粗糙集理论是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算工具,而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向,本文对基于粗糙集理论的文本挖掘进行了较为深入的研究。 在文本分类方面,本文提出了一种基于聚类和粗糙集理论相结合的文本自动分类方法。聚类方法对已有文档的无指导分类易于实现,而粗糙集理论对无指导分类学习存在一定的缺陷,但对已分类的文档集经过约简可形成少量的有效规则,对新增文档的分类有较高效率。本文利用文档聚类和粗糙集约简相结合的方法,对训练文档进行分类,形成规则后对新加入的未分类文档进行归类。 在文本检索方面,本文提出了一种基于粗糙集和模糊集相结合的文本检索优化方法。用户可以先根据自己在某个时刻的兴趣爱好自定义查询,详细刻画查询中各关键词的兴趣度,然后系统采用粗糙集和模糊集理论相结合的方法,对用户查询进行同义词、近义词的优化和回归,再进行查询匹配,将查询结果按其与用户查询相似度高低顺序返回,使用户获得与其兴趣最贴近的查询结果。 本文对上述文本自动分类方法与文本检索优化方法进行了实验,结果表明该方法是有效的,可广泛应用于文本分类和文本检索。