基于互联网数据挖掘的投资者情绪与股市收益统计研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:lwzeta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,微博、微信、贴吧等社交媒体充斥着整个互联网。在整个社交媒体中,个人既是信息发布者也是信息的传递者以及接受者。互联网从一个简单的信息发布平台进化成为社会化媒体交流平台。尤其是对我国股市而言,尽管自成立沪深两市以来一直保持飞速发展,股票交易技术也达到了国外发达国家的水平,但是在市场交易环境、交易机制以及政策监管方面仍需不断改进,具体表现在市场呈现非理性,“政策市”、“交易市”充斥着整个股市。社交媒体中关于股市信息鱼龙混杂,大量虚假负面信息广泛传播,汇集成为一种强大趋势乃至产生“羊群”效应,困扰着我国股市的健康发展。在2015年第十二届全国人民代表大会第三次会议上,李克强总理提出“互联网+”的新概念,推动移动互联网、云计算、大数据、物联网等与现代制造业相结合,将互联网技术的重要性提高到了一个新的战略高度。因此,如何更为准确的识别网络信息对股市收益的影响,厘清互联网信息与股市之间的关系,为政策提供依据,就显得意义十分重大。基于以上的研究背景,我们将互联网数据作为数据源量化投资者情绪,研究其对股市收益的影响。本篇文章作为应用经济学论文,遵循一般的提出问题、分析问题和解决问题的思路。通过对现有文献的梳理,发现主要存在两方面不足:一方面是理论方面不足,另一方面是在量化投资者情绪上并没有充分利用信息。针对第一个问题,本文整理发现,传统金融学对股市收益的影响因素分析较为成熟,但是对主观因素的考虑较少,而行为金融学理论可以弥补其不足,因此本文引入三因素模型弥补现有理论基础的不足。对于第二个问题,本文通过抓取股票论坛中的数据量化投资者情绪,将其引入模型,分析其对股市收益的影响程度。根据网络数据存在形式的不同可以分为文本型数据和数值型数据,由于中文语义复杂,个人在处理过程中难度较大,而现有的情绪分析软件在质量上参差不齐,难以保证分析的质量和效果,故摒弃现有的情感分析软件,自己编写爬虫程序爬取网络数据,进一步量化投资者情绪并作分析。本文主要的研究内容如下:首先进行对投资者情绪的定义和相关理论的阐述(包括已有文献的梳理和评价),其次研究投资者情绪与上证综指的成交量、收盘价、收益率之间的相关性,按照两两变量发生时间的不同分为同步、领先、滞后三类相关性研究。之后采用VAR建模分析投资者情绪与股市流动性之间的相关关系。最后上证50为例,首先建立传统三因素模型,之后加入投资者情绪建立扩展的三因素模型,对比两个模型得出结论。基于以上分析问题的思路,得到如下的结论:1.在投资者情绪与上证综指同步相关性研究上,投资者情绪与交易量存在一定的正相关关系,投资者情绪与收盘价存在反向相关关系,投资者情绪与收益率也存在负相关关系。投资者情绪与上证综合指数的超前与滞后相关关系研究上,投资者情绪对未来的股市收盘价有一定的预测作用,该指数要领先于股市收盘价;投资者情绪与股市交易量指标的结果与上面相反,投资者对未来股市股价发生预期变化时并没有立刻反应在成交量上面,该指标有一定的惯性和延迟性;从投资者情绪与收益率的超前与滞后时间看,两者的相关系数并没有发生大的变化。2.投资者情绪与股市上涨期以及下跌期的相关性研究,我们发现在上涨阶段与下跌阶段,投资者情绪与上证综合指数的收盘价负相关系数达到负最大值。相对于全年区间的秩相关系数,投资者情绪与股市交易量、收益率的值差异也较明显。3.投资者情绪与股市流动性相关分析的研究上,我们发现投资者情绪与上证综指以及深证成指非流动指标之间的因果关系是单向的,投资者情绪与非流动性指标存在负相关关系,即当投资者情绪高涨时,非流动指标值下降,也就是流动性增强。4.基于三因素模型,以上证50指数的50支成分股为研究对象,研究将投资者情绪引入三因素模型后该模型对股票收益率的解释能力是否出现显著提高。通过对比发现,在引入投资者情绪建立扩展的三因素模型后,发现每个组合模型的拟合优度都有所提高,模型的检验更显著,也有更多的系数通过了显著性检验,并且对趋势部分拟合明显改善,以投资者情绪为代表的“网络舆论信息”确实对股票价格有明显影响。股票价格的决定具有无法排除的主观性质,人的行为、心理感受等主观因素在金融投资决策中起着不可忽视的作用。本文存在的特点可有以下三点:第一,在研究问题的切入点方面,基于互联网数据挖掘建立投资者情绪,分析网络舆情对股市的影响,为监管部门认识股价波动、把握舆论导向提供了一个值得借鉴的思路,同时也为相关研究提供新的思路。第二,在研究方法上,摒弃对情绪分析软件的依赖,基于R编写网络爬虫程序,形成自己的数据库,创造了采用论坛舆论量化投资者情绪的方法,为下一步的文本数据分析积累经验。第三,研究结论上,与相关的研究结论相比,本研究得出网络舆论信息对股票价格确实存在一定的预测价值,并且当股票处于上涨或是下跌幅度较大时,网络舆论预测作用显著。本文仍需进一步完善和改进的地方:首先,需要提高自己数据爬取的能力和效率,编写出能够自动抓取数据的爬虫软件,同时基于现在市场上情感软件的质量问题,开发出专门用于股市情感词分析的词典,这样就会提高分词以及情感分析的质量和效果。其次,在实证分析阶段,本文仍然立足于传统的FF模型分析投资者情绪对股市收益的影响,这种分析方法可以促进理论进一步研究,但是在对于指导投资者的具体投资上收效甚微。在下一步研究上,可以针对不同的股市板块开发相应的选股模型,发现股市涨跌的规律,建立收益率高于市场的股票组合,指导散户投资者进行理性投资,及时的避开股灾,保证预期收益。
其他文献
近年来,我国农业生产的发展已位居世界先列,各种农作物产量也在持续升高,尤其是水稻产量,其与人们的日常生活有着密不可分的关系,所以,为了保证水稻种植户的经济效益,提高水
目的探讨血清胆红素与尿酸对冠心病患者的检验价值。方法选取60例冠心病患者设为观察组,招募60例健康人作为对照组,比较两组的血清胆红素水平(总胆红素T-BIL、直接胆红素D-BI
棋盘沟钨矿体属于镇安县月河一带钨钼多金属成矿带核心区,前人对镇安月河一带钨钼矿的矿床成因、成矿规律、年龄测试等方面都进行了大量的研究,而对石英脉型钨铋多金属矿床矿
在辽宁自贸区挂牌成立后,辽河老街再一次适逢发展机遇。文章以见证辽河老街辉煌的大屋子建筑为视角,从建筑风格、建筑结构、建筑材料三个方面进行论述,最终总结出大屋子建筑的历
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
虚拟实践与思想政治理论课具有内在耦合性,它符合思想政治理论课育人目标,有利于破解思想政治理论课实践教学现实困境。反之,思想政治理论课固有属性促逼其与信息技术深度融
随着资本市场的快速发展,目前,我国上市公司的规模逐渐庞大,为了能够在市场上提升自已的竞争力,许多上市公司经历了重组、收购、兼并,经营模式发生了质的改变,企业与企业之间
探讨了以无机盐氧氯化锆为前驱物 ,以双氧水为水解促进剂 ,通过溶胶 -凝胶法制备氧化锆溶胶的工艺条件。探讨了双氧水的作用机理 ,通过研究胶凝过程中双氧水加入量对溶胶粘度
建筑工程施工质量是建筑施工单位的生命,文章结合自己的工程实践,对建筑施工质量控制中存在的问题提出了相应的对策。
随着社会的发展,科学技术的发展也有了很大的提高。目前,连续梁的常用施工方法有支架现浇、悬臂浇筑、预制顶推等,鉴于特殊地段,如跨河、跨路及地质较差处多采用悬臂浇筑和转