【摘 要】
:
在以往对网络论坛的研究中,主要分为定性与定量两种。其中,定量研究大多使用构建指标、利用文本统计工具来挖掘其中的信息。本文尝试利用最新的自然语言处理模型,结合网络论坛中数据的特点,通过构建文本分类和命名实体识别任务来从网络论坛的文本数据中提取用户的深层次特征。经过观察发现,网络论坛中可观察到的用户行为分为发表主题与评论回复两种,且在用户发表的主题中包含着该用户的各种观点、看法,而在评论回复数据中蕴含
论文部分内容阅读
在以往对网络论坛的研究中,主要分为定性与定量两种。其中,定量研究大多使用构建指标、利用文本统计工具来挖掘其中的信息。本文尝试利用最新的自然语言处理模型,结合网络论坛中数据的特点,通过构建文本分类和命名实体识别任务来从网络论坛的文本数据中提取用户的深层次特征。经过观察发现,网络论坛中可观察到的用户行为分为发表主题与评论回复两种,且在用户发表的主题中包含着该用户的各种观点、看法,而在评论回复数据中蕴含着两个用户之间的情感关系。因此,本文对上证股吧中2020年5月1日至5月27日全部的主题数据以及各主题下的评论回复数据进行了收集。对于主题数据的研究,本文从主题数据所属类别以及用户对股票的观点看法两个角度出发,分别设计了文本分类和命名实体识别两个任务,用以提取相应的用户特征。对于文本分类任务,通过人工标注的方式,将主题数据分为了八个类别,共标记了10230条。并在标记后的数据集上,对比了目前较优的Bi LSTM、Bi LSTM+Attention、Bert文本分类器这三种模型,结果表明Bert文本分类器要明显优于前两者;对于命名实体识别任务,则对5月1日至5月10日的主题数据进行了标注,同时考虑到得到实体名个数较少,采取了三种不同的数据增强方法,最终得到看好的实体5297个,不看好的实体1501个。并对比了Bi LSTM、Bi LSTM+CRF、Bert+Bi LSTM+CRF这三种在命名实体识别任务中表现较优的模型,结果表明Bert+Bi LSTM+CRF模型能更好的提取标注的两类实体。对于评论回复数据的研究,观察发现用户间关系可以分为支持、中立、反对三种。基于此,将收集到的评论回复数据分为三个不同的类别,共标记了8000组评论回复数据。同样,对比了Bi LSTM、Bi LSTM+Attention、Bert文本分类器这三种模型的分类性能,发现依旧是Bert文本分类器要更优。最后,根据从主题数据与评论回复数据中提取到的用户特征以及用户间关系,构建了上证股吧的用户脸谱数据库。并利用该数据库进行了用户社区发现的探究使用,发现使用Louvain算法恰好将用户分为八个社区。并通过对社区中所有用户的主题分布特征取平均,得出了社区的主题分布特征,进而实现了对上证股吧论坛在5月1日至5月10日期间用户发布主题行为的量化研究。
其他文献
文化是铸就在一个民族生命力、向心力和创造力之中深沉的力量,文化产业已经逐渐成为了国民经济和各国之间竞争力重要的构成部分。我国刚刚结束的“十三五”规划中明确的指出要敦促文化产业成长为国民经济的支柱性产业;刚刚迎来的“十四五”规划中也对文化产业的成长发展提出了相关的建议,鲜明的指出要统一社会和经济效益,完善健全现代文化产业和市场的体系。北京作为首都,其文化产业的成长发展对于全国来说拥有着示范引领的作用
在计算能力相对有限的情况下,如何从大规模、高维数据中获取有价值的信息已成为大数据分析的重要研究方向。子抽样策略和变量选择方法是对大样本、高维数据进行数据降维、提高模型计算效率的常用方法。为解决建模分析过程中由于数据量快速增长所导致的计算瓶颈,本文将两阶段子抽样策略和变量选择应用到大样本分类问题的研究中。现有的大样本logistic回归模型的子抽样算法主要从最小化极大似然估计量的渐近均方误差、损失函
本文基于复合生态系统理论及协同学理论,以京津冀区域作为研究对象,构建社会-经济-生态复合系统协同度评价的指标体系,基于复合系统协同度模型,分别对京、津、冀及整体区域2009-2018年10年间社会、经济、生态各子系统有序度和复合系统协同度进行测算、分析,在此基础上运用优化的基于数据增量的加权灰色关联度模型测算了各序参量分量与子系统有序度的关联程度,找出影响各子系统有序度及复合系统协同度提升的关键要
美好生活是人类永恒的追求目标,也是中西方一直所探讨的重要课题。随着我国社会主要矛盾的深刻转变,促进人民美好生活的实现成为中国共产党更高的奋斗目标。依法治国与以德治国相结合作为治国安邦的重要方略,其本身也是实现人民美好生活的重要保障。因此,只有把法治建设与道德建设紧密结合起来,才能保障社会稳定,维护国家长治久安,满足人民对美好生活的期盼。以美好生活为视角,研究当前我国法治与德治相结合的问题,以此来说
自“一带一路”倡议提出以来,北京市OFDI快速上升。“一带一路”倡议为企业走出国门搭建了良好合作平台,在持续推进“一带一路”建设背景下,企业恰当的OFDI策略能充分利用双方资源,促进国际产能合作,推动经济发展。因此,研究企业OFDI策略显得尤为重要。本文首先分析企业对沿线国家OFDI情况,再从行业选择、区位选择、进入模式选择三方面分析北京企业OFDI策略。关于OFDI行业选择,以促进北京市产业升级
中国传统文化蕴含着中华民族特有的精神内涵,具有强大的生命力与感召力。家风作为中华传统文化的重要产物,反映着社会文明发展历程,并在很大程度上维系着传统社会的稳定和谐与发展绵延,其中心价值是塑造利家利国的正向道德理念与实践取向。但随着现代化进程的展开,社会转型、家庭结构、价值观念等的深刻变化,使传统家风的存在环境发生巨大改变,只有依据现代社会的特性与需求展开合理的创造性转化,充分激活传统家风育人、感人
霍克海默的社会批判理论是对马克思政治经济学的补充,是实践批判原则在意识形态批判中的运用。霍克海默基于辩证哲学方法,由反对形而上学的体系出发对理性工具化进行批判。一方面批判唯心主义脱离具体的历史语境而抽象地谈论理性,另一方面批判唯物主义机械地把理性看做是某种物质本原的附属品。霍克海默对唯物主义和唯心主义的“两条战线作战”的方法,奠定了法兰克福学派批判理论的总基调。这种内容与形式看似冲突的批判,恰恰是
高新技术企业在促进科技创新、创造就业岗位、推动经济社会发展等方面有突出的贡献,但是也因为研发和投资风险大、无形资产占比高、经营波动大等特征,加之财务数据难以获取,导致信用评价难度大,给获取外部融资带来困难。随着越来越完善的公共信用信息被披露,如何基于这些公共信用信息背对背为企业进行信用评价,显得更具理论及现实意义。本文首先分析了高新技术企业的发展现状和特征,着重分析了信用现状及影响因素,梳理了高新
汉斯·凯尔森是20世纪著名法学家,是法律实证主义的代表人物,是20世纪最具有想象力和最富有原创力的法学家之一。他的两版纯粹法理论在法学理论学界具有极高的学术地位,其中蕴含着丰富的理论思想至今仍具有巨大的研究价值。相比纯粹法理论,作为纯粹法理论的有机组成部分的凯尔森法律与国家同一论却缺乏深入的研究。本文的重心放在解读凯尔森法律与国家同一论,并对凯尔森的同一论提出两个批评。本文首先介绍了凯尔森的纯粹法