基于股民评论情感分析的个股股价预测研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:Sunmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用机器学习方法探究股民评论情感极性,建立包含股民每日情感极性特征在内的多特征结合的个股股价涨跌分类模型,为证劵从业人员决策提供参考。总体流程分为三个阶段:首先,通过语法分析和支持向量机的方法,计算股民评论文本的情感极性数值;之后,通过聚类算法从每日股评情感数据集中选择具有代表性的评论极性特征;最后,建立基于股民情感极性特征与多种特征结合的股价涨跌分类预测模型。本文的主要研究内容和贡献如下:(1)基于语法分析和支持向量机的股民评论文本情感极性分析模型的研究针对目前股民评论文本情感极性分析的方法需要大量人工标注的语料的问题。本文提出了一种基于语法分析和支持向量机的股民评论文本情感分析模型,用来获取评论语句的情感极性。模型通过计算词语相似度的方法对情感词典扩充,并利用基于情感词典的语法分析方法计算评论文本的情感极性。考虑到部分评论文本无法通过基于语法分析的方法得到其情感极性,本文利用支持向量机方法对剩余文本二次分类,来获取剩余评论文本的情感极性。由于训练集通过基于情感词典的语法分析方法得到,因此避免了人工标注。实验结果表明,模型能达到76.5%的分类精度。(2)基于NNBSC聚类算法的股民每日评论文本情感极性数据特征提取的研究考虑到股民每日评论文本极性数据集数据量与数据数值大小不同,需要对每日评论文本极性数据集进行特征提取。为了反映每日情感极性数据集的分布和统计特征,本文提出了一种基于邻域空间的聚类算法(Nearest-Neighbor-Based Spatial Clustering,NNBSC),对股民每日评论文本情感极性数据聚类,计算数据集的类簇及类簇中心。之后,结合统计方法实现对每日评论文本极性数据集的特征提取的目的。针对聚类过程中类簇边界样本点判断不准确的问题,本文提出了样本点近邻域相似可达概念。之后,为更好地适应几何分布、高斯分布的数据类型,所提算法在近邻域相似可达判定中引入了权重系数,以改变类簇边界样本点的判断条件。实验表明,NNBSC聚类算法对6种数据类型聚类,平均FMI最高可达0.988,能够有效地获取每日评论极性数据集的类簇以及类簇中心。(3)基于改进Ada Boost算法的股价涨跌分类预测模型的研究为了对包含评论极性特征与多种特征结合的数据进行股价涨跌分类预测,本文提出了基于改进Ada Boost算法的分类预测模型。所提模型针对传统Ada Boost分类算法对异常值敏感与联合决策投票阶段部分子分类器权重过高的问题做出了改进。所提算法,在训练阶段,采用基于随机子空间的判决式特征选择方法对样本特征属性随机采样,对子分类器进行训练;在联合投票决策阶段,采用了融合了样本属性精度和子分类器的精度的投票决策机制。实验结果表明,改进的Ada Boost算法具有更高的分类精度。
其他文献
进入21世纪以来,我国社会不断发展,经济更是呈快速增长趋势,在这种经济形势不断变化中,一些国有上市企业难以应对如此变化速度。而随着“员工持股计划”的提出为国内外不少上市公司的发展开拓出了一条新的道路。在我国资本市场中,员工持股计划的发展并不顺利,而且受到多方面因素的影响,比如上市公司对其员工持股计划设计不够完善,再加上监管力度不够等,使员工持股计划的实施效果不明显——缺乏对员工合理的中期奖励,导致
近年来,基于高Al组分AlGaN及其低维量子结构的深紫外(DUV)短波长发光二极管(LED)引起了极大地关注,在日常照明、杀菌消毒、智能家居和光治疗等领域具有广泛应用价值。目前,国际上DUV-LED虽然取得了较大的研究进展,但总体的器件性能仍然不高,其原因,除了高A1组分AlGaN的晶体质量控制和掺杂技术的限制外,合理的器件结构也至关重要,特别是依赖于器件结构的载流子的纵向输运特性的调控是提高深紫
专用汽车产业为国民经济建设提供特种车辆装备保障,是汽车工业的重要组成部分。当前,我国专用汽车产品同质化问题严重,市场竞争十分激烈,积极向产业价值链后端服务环节延伸,
文言文作为语文教学的重要组成部分,是中华民族古老的优秀文化的载体,承载着前辈先贤几千年来智慧沉淀的精华。目前语文教材中所选的篇章都是经过几千年读者眼光过滤而留下来的具有很强代表性的典范性文章,以此可以感知我们民族传统文化的精深与博大。学习文言文也是我们传承祖国优秀古典文化的必要方式。先贤留下传世至今的文献典籍,大多由文言写成,因此要想充分挖掘古典文化的精华,必须要加强文言文的学习。本文利用问卷调查
停车困难的问题日益严峻,不仅反映了停车站点现存资源的规划缺乏一定的科学性,也体现了企业对于大量停车数据信息分析利用的不完整。充分应用相关数据进行分析并制定正确的决策需要完整、科学的企业解决方案系统,现有的企业级数据管理系统更偏向于数据的查询以及存储功能,面向业务数据分析的应用仍具有一定的不足,而商务智能系统在具备数据存储、数据查询功能的技术基础上提供了面向用户的多维数据分析操作,通过运用商务智能系
线控转向系统(Steer-By-Wire System),简称SBW系统。SBW系统融合了智能控制技术与电子技术,取消了转向盘与转向前轮之间的机械连接,解决了传统转向系统的局限性。驾驶员模型
丙氨酸-乙醛酸转氨酶(Alanine:glyoxylate aminotransferase I[AGT])催化中间代谢产物乙醛酸转化为甘氨酸,这个反应是一种有效的解毒反应。食肉动物在肝细胞线粒体中催化羟脯氨酸转化为乙醛酸,植食动物在肝细胞过氧化物酶体中将乙醇酸转化乙醛酸,乙醛酸虽然本身不一定有害,但很容易氧化代谢产生草酸,生成的草酸在动物的肾脏累积,最终生成肾结石,危害机体健康。本论文通过对哺乳
主管的管理方式对整个组织的发展有着至关重要的影响,人性化的管理方式在现代企业管理中更加受到人们的重视。离职倾向作为一种消极的态度倾向,对组织的长远发展十分不利,而辱虐管理这种负性的管理方式更会激起组织成员的排斥心理,它不仅会影响焦点员工的心理和行为方式,并且会对感知到辱虐管理的第三方造成不同程度的消极影响。以往的辱虐管理研究中,很少有学者立足第三方的视角来探究辱虐管理的作用机制,对替代性辱虐管理缺
伴随《普通高中地理课程标准(2017年版)》的颁布,地理教科书迎来了新一轮的修订。新教科书的修订以培养地理核心素养为主要目标,教科书的结构、案例选择、呈现方式均有较大改
Stieltjes微分方程适用于统一描述右端不连续微分方程和脉冲微分方程,在生物学和物理学等领域有广泛的应用。本文主要研究Stieltjes微分方程解的存在性、连续依赖性与稳定性。首先,给出g-函数一致收敛与极限函数的连续性结果,单调函数极限和积分可交换的充分条件,以及线性Stieltjes微分方程对应的g-指数函数的性质。其次,研究非线性Cauchy问题,通过选取BCg([O,H],R)工作空间