论文部分内容阅读
现有的文本自动技术大多是运用向量空间模型将文本作为一个整体进行处理,忽略了段落及段落之间的关联程度,导致提取的不能够全面反映所包含的主题,针对这一问题,文章提出了基于互信息的文本自动方法。该方法利用互信息对文本中词语、句子及段落之间的关联程度进行计算,依据关联程度将整个文本划分成包含不同主题的较小单元,并针对每一单元运用优化的句子权重计算方法进行主题句提取,然后利用主题句生成文本。实验验证了方法的有效性,在自动提取方面取得了良好效果。