LDA主题驱动的中文多文档自动文摘方法

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户:hefner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动文摘能够帮助人们自动、快速地获取信息,本文实现了一个基于主题模型的中文多文档自动文摘系统,其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation,LDA),该模型是—个多层的产生式概率模型,能够检测文档中的主题分布。该方法使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘,性能优于传统的文摘方法。
其他文献
女书是中国湖南省江永县流传的世界上唯一的女性专用文字,是人类文明的一朵奇葩,目前正在申请世界非物质文化遗产。女书研究的发展对女书数字化提出了迫切需要。 女书输入法
会议
MWord是一种集文本、表格、图形、图象处理于一身的字处理软件,它采用OpenType字库技术和Uniscribe布局引擎解决了Windows环境下蒙古文编码国际标准的实现问题。 本文重点
会议
命运负责洗牌,但是玩牌的是我们自己。当年正值十七八岁的关键目光坚定地望着父母说“我要参军,当飞行员”时,所有人意外之余,也感受到这个平日乖顺的孩子体内潜伏着的那份能
针对传统基于短时能量和短时过零率的端点检测方法中存在的对清音检测性能以及抗噪声性能较差的缺点,结合维吾尔语的声频发音特征,提出了一种计算较为简单,受噪声影响较小的语音
本文旨在研究如何基于题材和感情,试对唐诗文本进行自动分类,即对现行的通用文本分类算法,做基于唐诗文本的比较实验和参数微调。本文的目的在于初步试探唐诗自动分类算法,发现算
由于传统藏语书写中标点符号的特殊性,在藏语句子中如何找到正确的句子边界,是正确识别句子的首要问题。本文通过对藏语法律文本语料的观察,利用规则提出了一个藏语句子边界的识
黑龙江省文联原副主席兼《书法赏评》杂志主编。中国作家协会会员,一级作家。中国书法家协会会员,黑龙江省书法家协会顾问。著有《大自然·生活·我》、 Former chairman of
基于核函数的蛋白质关系(PPI)抽取可以捕获结构化句法信息,取得了较高的性能,但计算复杂度过高。 本文结合词汇、句法信息,重点探讨了依存信息对基于特征向量的蛋白质关系(PP
我国的风险投资业发端于1985年,历经了从无到有、从散乱无序到逐步规范的过程,已经有了较大程度的发展,但同时也应该看到,目前风险投资公司规模过小,实力较弱;资金投入不足,
鱼胆,俗称苦胆,生于鱼腹的上部。它不但味道非常苦,而且多数含有毒性,其毒素虽有药用价值,但人们往往却忽视鱼胆的危害。 据研究,鱼胆中含有胆酸、甘胆酸及胆色素和钙盐等成