一种基于HITS算法的Blog文摘方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:wukuiyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。
其他文献
电信业的迅猛发展和激烈的市场竞争要求其电脑平台具有高可用性、高可靠性和可扩展性.本文介绍了融VME机械结构和PCI电气规范于一体的Compact PCI总线标准及其优点,重点讨论
研究历史上各个时期汉语文学作品中的字频分布具有重要意义,可以帮助我们更加深入研究汉语言的历史演变,但这在以前的语言统计工作中是缺乏的。该文对唐代以来的文学作品按不