基于LDA的条件随机场主题模型研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:skyliou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于“段袋“假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。
其他文献
实施贷款风险分类法的若干思考秦素霞从今年8月份起,我国将在各商业银行全面推行贷款风险分类法,即目前国际上通行的五级贷款分类法,其目的就是加快金融体制改革,建立一个符合审慎
论利率自由化和我国利率机制改革赵中杰王皓迄今为止,尚无任何国家放弃对利率运行的干预。这样就存在如何建立适当的管制利率和自由利率体系、如何干预和影响自由利率的运动以
目的了解我院肺炎克雷伯菌(KP)呼吸道分离株头孢菌素β-内酰胺酶(AmpC)的携带情况、基因型特点及耐药状况。方法收集我院2005~2007年呼吸道分离的54株KP,以头孢西丁(FOX)耐药筛选耐
「以物抵贷」与保全和盘活信贷资产宋骏加强资产保全,提高信贷资产质量是银行稳健经营,降低金融风险的重要环节,“以物抵贷”是目前银行为实现上述目标而普遍采用的一种手段。为
脑出血是指源于脑实质内血管的非创伤性自发性出血。出血部位以基底节区最多,后果严重。我院2006年1月-2008年1月采用小骨窗手术治疗高血压基底节区脑出血23例,效果满意,现报道
为了避免大量计算来获取分类器阈值,提高性别识别的效率,提出了一种基于改进多样性密度的性别识别方法。该方法将男、女性训练语音包进行双类别多次标记,通过期望最大多样性密度算法进行多示例学习,得到两个多样性密度点,组成双点语言模型,提出示例近邻分类算法,选取多个示例进行模式分类。该方法综合考虑了男、女性语音样本对未知语音包的影响,不必进行阈值设定,减小了野点示例的影响,最终提高了系统的识别效率。
例1.男,42岁,公司职员。晚餐时饮酒后出现情绪激动,语无伦次,烦躁易激惹,随行者以为其醉酒送至急诊。询问有无特殊病史,随行者不清楚,同时因患者不配合检查,且可闻及乙醇气味,故首先诊
针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化:使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创
以iphone4S工件为例,针对工件表面竖纹缺陷和注塑缺陷检测过程中受高频噪声影响的不足,提出了基于投影分析的缺陷检测算法。通过分析缺陷的特征,设计了峰谷值判定的竖纹缺陷检测算法、基于分块投影的工件边缘线检测和注塑缺陷积分值判定算法,以实现计算机对工件表面竖纹和注塑缺陷的自动检测。通过大量实验表明:以新算法为核心技术的检测算法,能够对竖纹缺陷和注塑缺陷检测准确率达到95%以上。
我院自2000年1月--2005年12月用左氧氟沙星治疗尿路感染188例,取得较好效果,现报道如下。