基于广义线性模型的话题跟踪算法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:wenruozhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
话题跟踪是将后续新闻报道与已知话题关联起来的过程,是网络舆情分析的研究热点。文本分类是话题跟踪的主要方法之一,广义线性模型属于固定参数的概率模型,是一种因具有不改变数据自然度量、能够处理非线性和非恒定方差数据的优点而被广泛使用的分类方法。但是其具有训练时间长且模型参数在算法生命周期内固定等缺点,不适应话题发展演化的动态特性。因此,本文在分析新闻话题发展演化特性的基础上,对广义线性模型进行了改进,给出一种可以适应话题动态发展演化的非参数广义线性模型,解决了固定参数话题跟踪模型不能适应新闻话题动态发展演化的问题。本文的主要工作如下:1.分析并归纳话题发展演化的特性,与新闻本体联系,给出了一种适合新闻数据特征的文本预处理方法。对比分析LDA与主成分分析方法的工作原理与适用环境,结合实验得出:在新闻数据集上,使用主成分分析方法降维后的数据具有特征之间相互独立的特点,与本文给出的非参数广义线性模型的适用环境一致。2.针对传统特征权重算法未充分体现特征项中类别信息的问题,在研究分析基于向量空间模型的特征权重算法的基础上对卡方统计量进行改进。通过引入类别区分度因子,提出了一种基于类别区分度的卡方统计量算特征权重法,该算法能够更准确地提取出对新闻区分度较大的特征词。3.针对广义线性模型不能很好地描述话题动态发展演化的不足,依据向量空间模型的特征独立性原则,用贝叶斯方法分析广义线性模型中的自然参数~η,证明了~η在特征独立的数据集上具有条件概率不变的性质。使用该性质可以弱化广义线性模型中对自然参数~η的内积假设,从而提高模型的泛化能力和对不同数据集的拟合能力。考虑到话题具有动态发展演化的特点,使用非参数估计求解改进后的模型,将传统固定参数的广义线性模型改进为可以适应话题动态发展演化的非参数广义线性模型。最后我们对本文给出的算法进行实验验证。在UCI数据集、TDT数据集和网络新闻数据集上进行实验,分类准确率与F1值均有较大提高,验证了本文算法的有效性。
其他文献
目的观察周细胞(pericyte, PC)对脓毒症大鼠血管舒缩反应性的保护作用。方法采用盲肠结扎穿孔诱导大鼠脓毒症模型,将SD大鼠(12~14周龄,雌雄各半,体质量180~220 g)按随机单位设计方
<正>"诺贝尔奖"获得者谢林顿爵士曾做过实验:切断猴子一只手上的感觉神经,那只猴子的手就会瘫痪,哪怕控制运动的神经完好无损。陶布在哥伦比亚大学重复谢林顿的实验,只多加了
目的:探讨经历丧子这一特殊创伤性事件后出现创伤后应激障碍(PTSD)患者脑内结构形态学的改变。方法:选取经历过丧子事件所致PTSD的患者15例(PTSD组)和性别、年龄、受教育程度
以光学活性(R)-α-苯乙胺(1)为拆分剂,将cis,cis-3-N-叔丁氧羰基氨基-5-甲氧羰基环己基甲酸[(±)-2]拆分为cis,cis-(-)-2,其结构经1H NMR和13C NMR确证。最佳拆分条件为:以丙
在花草茶包装设计中,运用几何图形元素可以极大的丰富它的艺术效果,也可以在另一角度充分体现出花草茶包装与古典文化的有机结合。几何图形是一种新时期下应用形式,它在花草
国际空间站将有专属的咖啡机,以便在太空中制作意大利特浓咖啡。
在实验室通过自制可变初始侧压作用下煤岩压实承载实验装置配合刚性试验机,对4组12个碎石试件进行了4种不同初始侧压作用下破碎岩石压缩承载试验,分析了初始侧压作用下碎石压
以布洛芬为原料,依次与草酰氯和氨基酸(2a~2d)反应制得中间体布洛芬衍生物(3a~3d);3与可缓慢释放H2S的5-对羟基苯基-1,2-二硫杂环戊烯-3-硫酮(4)经酯化反应,合成了4个新型的S
目的:研究Epac-Rap1(exchange proteins directly activated by c AMP-Ras-related protein 1)信号通路在大鼠心肌缺血再灌注损伤中的作用,探讨药理学调控此信号途径是否为心
本文探讨了清代台湾“敬惜字纸”习俗的一些相关内容,认为这一习俗并非孤立存在,而是植根于中华源远流长的人文传统。将海峡两岸共有的这一习俗联系起来考察,有助于拓宽研究视野