基于多标签分类的网络舆情主题提取方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:haitian001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网发展和智能设备的普及,网络舆情的影响越来越大,企业以及政府机构也越来越重视网络舆情的应用和管理。网络舆情的应用和管理,首要的任务是对舆情数据进行关键信息的提取,即主题提取。目前的主题提取方法主要基于概率主题模型,利用主题与分词、分词与文本之间的概率分布提取文本主题。但概率主题模型未充分考虑文本中词与主题之间的语义相关性。本文利用机器学习的方法对网络舆情中的主题进行提取,将主题提取问题定义为文本主题(即文本类别)的多标签分类问题。在文本数据的相似性度量方面,提出了基于百度百科注释信息的文本语义相似度计算方法,首先将文本进行分词处理;然后,应用改进TF-IDF方法对分词对应的百度百科词条中的词语进行权重计算,将词条转换为由词条分词的权重向量,并用余弦相似度来计算分词之间的相似性;最后,基于分词之间的相似度值,利用相似矩阵计算文本之间相似性。在Words-240数据集上的实验结果表明,基于百度百科注释信息的文本语义相似度与人工标记结果之间的高度相关。在文本数据的多标签分类方面,设计了基于标签关系的核极限学习机多标签分类方法。该方法根据标签之间共现和不共现分布,学习标签之间的积极关系和消极关系;然后应用学习所得的标签间的关系来优化核极限学习机的分类预测结果。为了验证该方法的有效性,在Zhihu、Yeast、Image、Scene、Emotions、Cal500等数据集上进行了实验,实验结果表明,基于标签关系的核极限学习机多标签分类算法,在准确度、精度、召回率以及F1指数这四个指标均优于其他对比方法。
其他文献
迄今为止,常用的宫颈癌细胞筛查方法有TBS(The Bethesda System)分类法和细胞DNA定量分析法两种,而利用多重染色方法(即在同一张细胞涂片上同时对细胞质进行巴氏染色和对细胞核进行Feulgen染色)进行宫颈癌细胞筛查的研究仍然是空白。这种多重染色筛查方法的难点在于非DNA物质的吸光度会干扰DNA物质的吸光度。1)针对复合染色情况下吸光度混叠的难点,本文提出了利用多元线性回归方法建
背景和目的非酒精性脂肪性肝病(nonalcoholic fatty liver disease,NAFLD)疾病谱包括非酒精性单纯性脂肪肝(nonalcoholic fatty liver,NAFL)、非酒精性脂肪性肝炎(nonalcoholic steatohepatitis,NASH)和NASH相关肝硬化。就肝脏病变而言,NASH的进展风险较NAFL更大,更易进展为肝硬化,甚至肝癌。而且,现有
我国政府工作报告对城市商业银行发展的重要性做出了明确阐述,认为城市商业银行作为我国金融机构的重要组成部分,在推动我国社会经济发展、促进地方中小企业发展壮大、提高地方居民生活水平方面发挥了重要作用。近些年来,我国城市商业银行的数量和规模也随之扩大,城市商业银行的资产规模也呈大幅度趋势增长。随着社会的不断进步,我国逐步进入了信用经济潮流中,信用经济的运行和发展对社会金融结构产生了重大影响,商业银行信用
永磁同步电机因其高功率密度、高效率、体积小等特点得以被应用在各个领域。较多物理传感器的使用使得永磁同步电机驱动系统成本一直较高。同时,物理传感器的存在也会影响系
多样化逐渐成为社会发展的趋势,企业及组织也同样随着多样化员工的出现逐渐呈现出多样化的管理方式方法。在新的管理情景下,领导方式与品质在如何管理多样性员工方面应该得以
数据同化是指在模型(大气、地理、天气)驱动的过程中,使用同化方法融合不同来源的部分或者全部的观测信息,将过程模型和观测模型不断的依靠观测信息进行调整,最后得到误差减
通过“滚环扩增”得到的DNA花型结构已经作为载体材料在生物医学领域得到了广泛应用。但是其在细胞内的具体分布位置及稳定性情况仍不是非常清楚。因此我们将具有“聚集诱导
背景与目的:慢加急性肝衰竭(acute-on-chronic liver failure,ACLF),是一种在慢性肝病基础上、以急性肝功能失代偿伴有多器官衰竭为主要表现的综合征。N-myc与STAT互作因子(N
2008年,家庭农场这一概念首次出现在我国的中央文件,到现在已经经过了十一年。作为一种新型农业经营主体,家庭农场正逐步发展成为我国农业发展的主导力量之一,农业生产的特殊
滇西勐糯铅锌矿床位于保山-镇康地块勐糯向斜东翼,是三江成矿带中重要的大型铅锌矿床。矿区在同位素地球化学方面研究相对较为薄弱,本文在总结前人资料和大量的野外地质调查工作基础上,通过对矿床C、O、S、Pb、Sr同位素特征、微量元素特征和稀土元素特征进行研究,并与保山地块多处金属矿床(芦子园、金厂河、水头山、西邑、放羊山)进行了对比,对勐糯铅锌矿床成矿流体和成矿物质来源进行了探讨,总结该矿床的成矿规律、