论文部分内容阅读
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法。该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法。基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量。考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序。实例验证了该方法的有效性。