论文部分内容阅读
近年来,竞争情报分析系统得到了飞速的发展。对于一个企业来说只有建立独立的竞争情报分析系统,才能增强自身的竞争能力。能否快速准确地采集用户需要的数据信息已经成为该系统必须解决的首要问题。于是基于主题的数据采集成为研究的热点。本文以基于主题的文本数据采集系统的设计和实现为研究课题,重点研究了基于同一主题的多文档关键词抽取术和文档的相似度计算方法。在基于主题的文本数据采集系统中,首先由用户提供反映某一主题的相关文档集合,系统从中抽取出能代表主题的关键词,并将主题关键词送入网络爬虫中,利用这些关键词对网页上的链接进行初步过滤。然后从过滤后的网页上抽取的正文文本,系统通过计算文档相似度的方法,过滤掉与主题无关的文档。系统最终将得到大量与主题相关的结构化文档。在基于同一主题的多文档关键词抽取中,本文用四种方法实现了基于统计的关键词抽取。在实验中发现抽取的关键词的正确率并不是很高。经过对结果的分析,发现抽取的关键词中出现了很多高频词。为此,本文在国家863分类评测语料上统计了关键词的文档频数。当关键词文档频数大于一定的阈值时,将其直接过滤掉;否则,利用统计值对获得的关键词的权重进行修正。实验证明,这种改进取得了很好的效果。文档相似度计算中,最常用的文本表示方法是基于TF-IDF权重的向量空间模型。在文本表示中,主题关键词应该被赋予更高的权重。本文提出将文档映射到由主题关键词组成的主题向量空间中,然后计算文本相似度。通过实验发现系统的性能有所下降。性能下降的主要原因是主题关键词抽取的正确率和召回率太低。基于以上分析,本文又提出了利用主题关键词抽取过程中的权重乘以其在文档向量中的权重,对文本向量进行修改,然后进行相似度计算。实验表明系统的性能有明显提高。前三种计算方法都是基于文档特征词之间的绝对匹配,但是很多词语之间存在同义匹配或近义匹配等关系,这些关系对于文档相似度计算有很重要的作用。为此,本文提出了一种基于知网词语语义相似度的文本相似度计算方法。实验表明系统性能有了明显的提高。