多视角主题模型的研究和应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yilongfengyue5656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的爆炸式发展,公开网络的资源与数据越来越丰富,其商业价值也不断地被发现与探索。数据的纷繁复杂是目前价值分析的主要壁垒,随之而来的分析模型应运而生,其中文本信息处理因数据格式、蕴含意义等特点是最为复杂但又极具价值的。在应用方面,财经信息最为丰富,至今中国深户A股市场已有超过2300支股票并且几乎每天都有新股上市,对于投资者来说机会增多的同时风险也迅速增大,难以管理。相关财经信息、新闻都是影响因素,投资者需要关注市场大量信息对于普通投资者来说是十分困难的。本文希望设计自动挖掘系统可以对相关股票进行分类和推荐。本文针对文本信息处理进行主要研究,通过主题模型对海量数据进行分析、运用,并与时间序列数据进行结合,形成多视角主题模型并在最为复杂的财经数据上进行分析与应用,比如股票分类预测、群众参与程度等进行实验与总结。本文通过自动爬虫收集了所有沪深A股市场上2344只股票的信息基本面与2年的相关财经资讯,通过文本与价格时间序列信息对股票进行分类并和领域专家标注的行业分类结果比较其有效性,获得了更高的相关性以及推荐价值,并分析了相关股吧论坛中投资者对个股、话题的关注度和股票价格、成交量关系等结果,对投资者、关注者以及市场热点、走向都提出了新的建议视角与方向。
其他文献
汽油机电控系统是指以发动机电控单元ECU为核心,通过各类电子传感器进行信息采集,在ECU中分析处理后输出合理的电子信号来控制汽油发动机在各种工况下的运行,具有良好的稳定性、
本论文旨在深入探索免疫网络机制与非我选择机制,在现有人工免疫网络模型以及非选择算法的基础上,设计出更高效快速的实用性算法,并应用于实际的异常检测。 具体而言,本文的研
随着计算机技术的发展及计算机网络的日益普及,利用计算机实现网上在线考试、在线测试等已成为教育改革的热点之一。论文介绍了计算机在线考试系统的工作流理论模型、用例分
学位
面向对象数据库技术是面向对象技术和数据库技术相结合的主流技术。尽管面向对象数据库系统作为数据库家族中的一个新兴的研究和开发领域,尚缺乏完整的理论支持,但其在数据库
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(如SBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。以往词语对齐方法对双语词典在对齐中的作
  CORBA作为当前流行的分布式对象技术,凭借其平台独立性和编程语言独立性等优势,为异构环境下分布式应用提供了强有力的支持,成为越米越多的企业级分布式应用系统构建的平台
多小波是今年来小波分析发展的一个新分支。多小波是小波分析的推广,具有其自身的特点,多小波可以同时拥有对称性、紧支撑、正交性和高阶消失矩,而传统的小波是不可能同时具
本文研究了基于信任的网格资源调度,并对相关算法进行了理论分析和模拟实验。 本文的主要工作如下:通过对已有的基于经济模型的调度算法的分析,利用效益函数的概念,把处理时间
《防空指挥辅助决策系统》是为防空导弹战术单位(由多种不同类型的防空导弹作战单元及火力单元混合编成的武器系统)自动化指挥系统设计的一个子系统,按功能又可分成目标识别、威