基于GA的文本子主题切分中的参数优化研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:vicky01255
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TexITiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。
其他文献
伪狄奥尼修斯(Psevdo-Dionysius)不仅是中世纪拜占庭、而且是中世纪整个欧洲著名的美学家.我国对他的美学思想的研究还很薄弱.然而,要深入理解中世纪美学,伪狄奥尼修斯是不可
曲线形套装是一类非常复杂的产品装配过程,零件装配除了要顺着被套装零件曲线形移动还要配合调整自身的方位角才能到达目标,其路径规划问题难以沿用现有的装配路径规划方法。论
结合租糙集理论的强大定性分析能力和SOFM网络收敛速度快和易于可视化能力,该文提出了一种基于SOFM网络的新型粗糙集神经网络,给出了该模型的流程图,描述了系统各组成部分的工作