基于信息融合的文本主题分析算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:liongliong453
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展和大数据的兴起,互联网成为了人们发布和获取信息的重要来源。其中,用户产生的大部分信息以文本的形式积累在网络中。如何从这些大规模非结构化文本中,挖掘出潜在的主题知识,是自然语言处理研究的重要问题之一,在舆情监测、评论分析和内容推荐等领域都有广泛的应用。目前,已经有许多国内外学者针对文本主题挖掘问题提出了一系列算法,但仍然存在以下不足:第一,现有方法没有有效利用文档附带的元数据中的辅助信息,比如评论中的评分和情感极性,论文中的作者和引用文献等。这些元数据中蕴含有丰富的结构信息,且不同类型的元数据对文档内容的影响是有差异的。当前方法要么忽略了这些元数据,要么只利用了特定的一类元数据,或者对不同的元数据进行了同样的处理,导致无法充分利用元数据中的辅助信息。并且,现有方法无法处理元数据中包含的噪声。第二,现有方法没有考虑单词的情感信息与单词主题之间存在的关联,而二者其实是紧密相关的。针对以上问题,本文提出了两个改进后的主题分析算法,分别将元数据和情感信息融合到主题挖掘中。本文的主要贡献如下:(1)针对包含作者和引用元数据的学术论文网络,提出了一种同时融合作者和引用元数据信息的概率主题模型。考虑到两种元数据与文档主题的交互特点,模型设计了差异化的融合策略,充分利用了作者和引用信息中的先验知识。具体来说,模型将粗粒度的作者信息融合到文档主题的先验分布参数中,同时设计了一种主题传播机制融合细粒度的引用信息中的主题关联信息。同时,为了处理元数据中的噪声,模型对每个作者的重要性以及不同引用文献对文档主题的影响力进行了刻画,保证了模型的鲁棒性。(2)针对包含情感信息的网络评论,提出了一种联合情感分类的深度文本主题分析算法。鉴于单一主题向量在提取主题情感信息上的不足,模型为每个主题类别分配了属性向量和情感向量,分别用于提取文本中对应主题的属性和情感信息。同时,模型提取出了每个句子独特的局部主题信息,融入到全局属性向量和情感向量中,以便注意力层利用这些信息得到更准确的注意力分布。最后,模型通过耦合的注意力机制刻画同一主题下的属性单词和情感单词的语义关联,并使用多层注意力网络建模两者间的复杂语义交互和长距离语法依赖。
其他文献
从效果来看,公司法对于资本的管制愈加宽松,促进了资金流动,提高了资本的利用效率,但是在资本制度改革的同时,股东出资的配套制度并未及时制定,公司债权人利益保护问题日益令人担忧。股东出资义务能否加速到期成为理论界与实务界争论的话题,本文拟通过对股东出资义务加速到期的研究,来平衡股东利益与公司债权人之间的利益。在股东出资义务的三种学说中,即章程约定说、经营情况说以及公司自治说,经营情况说最适合当前的公司
频控阵雷达是一种按照某种特定规则给相邻阵元的发射载频施加微小频偏的新体制雷达,因其波束指向会随着距离的变化而发生偏转,能有效提供探测目标处距离维度的信息,成为国内外研究人员近年来研究的热点问题。对于频控阵雷达的原理、机制以及基本特性,国内外研究人员的认识早已达成一致,但对于频偏的施加方式,以及频偏方案的讨论,从未休止,而有关频控阵雷达采用何种发射结构和发射波形,如何选择频偏类型并保证达到最优效果,
CrRLK1L是植物中特有的一类类受体蛋白激酶(RLKs)亚家族。目前已知拟南芥中有17个家族成员,在植物组织中广泛表达,参与调控细胞伸长,维持细胞壁完整,调控植物的极性生长,受精过
本文主要考虑在外部周期流作用下的一类点涡系统奇点的稳定性.通过对点涡系统进行Kelvin变换以及辛极坐标变换,将涡点的邻域转化到无穷远点附近进行讨论,再由Moser’s不变曲线定理得到了Poincare映射下的不变曲线的存在性,进而通过对坐标进行复化估计得到了点涡系统奇点的稳定性.
农业是国民经济和社会可持续发展的基础,农业生产在我国一直占据着举足轻重的地位,农业的发展与农户自身受教育程度和新技术的利用息息相关,因此,针对农民开展技能培训显得尤为重要。近年来,各地政府在中央的号召下积极开展农民培训工作,目的是通过农民的技能培训对广大农民群众进行人力资本投资,提高农民的农业生产技能,促进农村现代化。然而,政府对农民的培训存在着诸多局限,导致培训效果不佳。农业龙头企业作为农业产业
数据库系统具有操作性强、理论知识与实践依存度高的特点,学生只有通过大量实验才能彻底掌握数据库系统中丰富的理论知识。但数据库系统具有极大的复杂性,授课教师需要消耗大
mi RNA是一类具有调控功能的短链非编码小RNA,能与靶基因mRNA上的特异位点通过碱基互补配对结合,剪切靶mRNA或者抑制其翻译过程。miR164在植物中具有高度的保守性,它的靶基因
本文主要对一类Steiner三元系的结构性质及其同构类进行了研究.同时,基于有限环上的编码理论,研究了两类有限环上的迹码.1、本文证明了阶为3w+3且包含至少一个横截子设计TD(3,w)的Steiner三元系(STS)的若干结构性质.通过彻底详尽地搜索,我们找到了阶为21且包含一个横截子设计TD(3,6)(等价于一个6 × 6的拉丁方)的STS(21)的全部2004720个同构类.2、在环Fp+u
金融创新的快速发展推动了影子银行的产生,并对传统金融体系具有重要补充作用。但是,影子银行的并没有受到严格的监管。金融危机爆发后,欧美等西方国家意识到了对影子银行监
在习近平新时代中国特色社会主义思想的引领下,十九大提出了到2020年全面建成小康社会,目前正在进行以人民为中心下的精准扶贫脱贫攻坚战和乡村振兴。河源市是山区,“三农”问题对经济社会发展的制约作用日益凸现,脱贫攻坚时间紧、任务重,必须真抓实干、埋头苦干,需要大量的资金确保本地区如期脱贫。因此,以河源农村社会、经济、环境、人文建设等为切入点,从河源财政支农资金的管理运作以及经济可持续发展的角度出发研究