论文部分内容阅读
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉"奇异性"量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉"奇异性"。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法D