基于文本挖掘和潜在狄利克雷分配的科学管理热门话题提取与预测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yesw04
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
管理科学是一个广泛的跨学科领域。如果研究者们不了解新兴话题,在这个领域进行研究会非常具有挑战性。本项研究的首要目标是通过减少仅以确定管理科学领域当前热点问题为目的多次初步阅读,解决学者选择研究方向的困难。通过分析管理科学领域的出版物,研究将有助于确定热门话题,绘制管理科学中核心领域地图。学者一但开始一项研究活动,他们的研究在科学领域具有意义和重要性是非常重要的。本研究的第二个目的是通过提供基于已确定趋势的热度预测工具,来更好地定位学者的研究活动来满足学者的科研需求。因此,学者们可以根据个人兴趣和学术前景,明确研究管理科学领域的研究侧重点。因此,这项研究的重要性在于它将为科学管理领域的同仁提供一个热门话题框架,以便更好地指导他们的研究工作。他们将能够识别短期和长期趋势,熟悉并建立管理科学领域的知识框架。此外,它可能会激发他们对忽视了的话题的兴趣,揭示未来需要研究的话题。本研究的结果还将提供一个审评人员对管理科学领域的兴趣概况,有助于期刊等出版物的传播。这项研究的结果也可能有助于研究人员熟悉管理科学中的主题发展链。这项研究将介绍用于分析如科学出版物等的文件的各种技术,这些出版物可能会使读者获得该领域的知识。根据许多其他学者谁在其他学科做的类似研究,文本挖掘方法在研究领域图谱是是有价值的工具。文本挖掘是处理结构化,半结构化甚至非结构化数据集(如文本文档)的特定类型的数据挖掘。文本挖掘是属于人工智能领域的一系列技术,它结合了语言学,语义学和语言学,统计学和计算机科学等领域。主题建模是文本挖掘的一种变体。主题建模方法基于的假设是:文档由主题构成,并且主题是基于词汇的分布。主题建模是一组统计方法,用于通过分析原始文本的文字来揭示贯穿整个语料库的话题。单个文本或文档可能包含多个主题。最流行的主题建模方法是潜在狄利克雷分布(LDA)。LDA是一个语料库的生成模型,其中文档是潜在主题的随机混合,其中每个主题的特征是词汇的概率分布。每个主题中概率最高的单词通常会对该主题的内容给出一个好主意。LDA在不同领域展示了在巨大信息和科学文献中确定隐藏结构的有效性,因此它是本研究选择的方法。为了缩小研究领域,分析INFORMS数据库中包含的出版物是一个妥当的选择。INFORMS(运筹学与管理科学研究所)是运筹研究(OR)管理科学以及分析领域学者的国际性论坛。INFORMS与ES发布所有相关的管理科学领域的学术同行评议期刊。因此,为了更好地达到研究目标,我们对2008年至2017年的INFORMS的文章出版物进行了十年的分析。大多数先前的研究使用摘要或关键词作为出版物的代表。然而,标题,摘要和关键词是更好地描述文章内容的特征。本研究中的方法是首先收集INFORMS期刊上发表的研究论文的标题,摘要和关键词,然后应用具有潜在狄利克雷分布的文本挖掘技术以识别管理科学领域的热门主题。为了测试热度预测工具的性能,收集了来自不同科学领域(包括管理科学)的各种来源的20份研究论文摘要,以便更好地评估该工具根据相关领域或非相关领域论文工作来确定热度的能力。开展这项研究的第一步是收集相关数据。使用网络爬虫来从Informs网站收集出版物元数据{标题,摘要和关键词}。共有6749篇研究论文,摘录自十年内(2008-2017)十二个学术期刊:《决策分析》,《信息系统研究》,《INFORMS计算学报》,《INFORMS教育交流》,《界面》,《管理科学》,《制造与服务运营管理》,《营销科学》,《运筹数学》,《运筹学》,《组织科学》,《服务科学》,《战略科学》,《运输科学》。收集出版物后,它们被存储在My SQL数据库中。下一步就是通过去除无价值的信息来清理数据。对收集的数据进行了四个主要操作:大小写字母统一,非字母字符移除,停用词移除,罕见字移除LDA模型的一个重要输入是推断的主题数量。初步分析表明,12种主题可以保证模型质量。LDA模型的输入是词向量语料库,主题数量和一些调整参数。经过连续的训练,LDA模型帮助发现了管理科学学科的12个主题。主题0与交通规划和交通管理有关,主题1与线性规划有关。主题2与运营管理和决策系统支持有关。主题3与数字营销有关。主题4与组织行为有关。主题5与数学优化有关。主题6与决策有关。主题7与知识管理有关。主题8与服务运营有关。议题9与财务风险有关。主题10与供求关系密切。议题11与博弈论有关的。在这些话题中,话题0,话题2,话题4.话题7,话题9.话题10,对应于管理科学领域中的著名研究领域。其余主题是与用于支持管理科学研究的数学,计算方法和理论相关的一般主题,但也用于解决许多其他科学应用中的问题。对往期期刊的分布在LDA模型的结果进行分析,有助于发现2013年至今,金融风险,数字营销和运输计划及交通管理是热门话题。从2008年到2001年,热门话题是知识管理,服务运营和供求关系。从2011年到2003年,最热门的话题是组织行为。对这些主题及其相关期刊的进一步分析有助于发现类似内容的期刊,例如:《INFORMS教育交流》和《界面》都是教育相关;《信息系统研究》和《组织科学》。也被发现了具有独特内容的期刊《决策分析》和《运输研究》。发现的热门话题主要与以下期刊有关:《市场营销科学》,《信息系统研究》和《交通规划》与《交通管理》,也进一步证实了此前有关这些主题的研究的预测。从LDA模型的输出结果中可知,构建的预测工具,将主题分配给新文档并预测热度。在该工具上进行的测试证实了它在分配主题,期刊和预测管理科学相关论文的热度方面的表现。遗憾的是,由于该学科的广泛性以及与其他学科的交织,该工具无法确定论文是否与管理科学有关。尽管进行的分析的有一定的有效性,但也发现了一些研究的局限。数据集的大小并不能确保对管理科学中的所有出版物进行分析,因此,其他一些热门话题可能还没有被发现。进行的预处理步骤是自定义的,可能不完美。用不同方法对相同数据集进行的其他研究可能会导致不同的结果。为了利用本研究并提升研究效果,可以在其他科学领域进行类似的分析。从获得的结果中,可以建立协作学术研究工具来帮助各学科的学者进行他们的研究。这个协作工具可以通过推荐热门话题以及领域专家。它也可以预测提交论文的热度,并最终建议出可以发表论文的期刊。总的来说,这项研究已经证明了主题模型在发现潜在话题方面的有效性,它有助于发现管理科学领域的一些热点话题,并提出了一种帮助管理科学学者进行研究活动的工具。
其他文献
民族音乐学视野下的"音乐"与"认同",是学科研究的重要的一个话题。音乐是人类为表达思想感情、交流信息而创造和选择的,以音乐和噪音为表现媒介和载体的一种超越语词之外的成系统
本文对测绘工程进行探究分析,阐述了GPS技术在地籍测绘中的应用,,并提出相关优化地籍测绘工作的方法。
结合江西省铜鼓县实际,分析新农村建设发展存在的问题,并提出对策。
从上个世纪80年代末开始,广西省环江县有计划地组织一些生产生活条件比较恶劣山区的贫困居民迁入自然条件较好的地方居住,实行易地安置扶贫。经过20年的努力,该县安置本县贫困群
用户在使用关键词搜索时,对于一些不熟悉的领域,无法给出准确的关键词.为了解决这个问题,该文在开源全文检索工具包Lucene的基础上,设计并实现了搜索关键词辅助系统,对用户的
今年是我国全面取消农业税的开局之年。这意味着:延续了两千多年的这一古老税种要彻底退出历史舞台,中国从此跨过了构建社会主义和谐社会的又一里程碑,进入了后农业税时期,广大农村将进一步走向繁荣和谐的发展道路,农民生活将更加安康富裕。但另一方面,取消农业税后乡村两级机构却陷入另一种困境一一乡村债权债务成为一个难以破解的难题。农业税取消后,随着土地、林产等一些项目的收费权力上移,乡村两级财政收入锐减,经济拮
莲花县地处江西省西部,位于罗霄山脉中段,井岗山北麓辖13个乡镇,1个垦殖场,157个行政村,全县总人口25.57万人,总面积1062.6平方公里,地形属山地丘陵,“七分半山分半田,一分水面和庄园”
往返于世界各地,站在时尚潮流的风口浪尖,了解行业规范,熟悉各地市场,极具货品辨别能力,关注各种信息,掌握大批量的定单,不停地和各种供应商联系,规划组织好新一期货源,满足
本文介绍了采用低成本的民用级无人机,对小范围地区进行多航线、多角度、大重叠度的拍摄,使用Context Capture软件对拍摄的影像数据进行处理,生成点云数据,建立三维模型,生成数字表面模型(DSM)的方法。该方法具有成本低、自动化程度高、操作简单、效率高等特点,可以作为快速生产DSM的有效补充。
地理信息系统简称GIS,是一个利用计算机和现代信息技术,为获取、储存、分析、处理数据而建立的数字化计算机数据管理系统。国土资源具有范围广、地质复杂等特点,对它的勘探管理不同于其他资源的勘探管理。根据国土资源的特点,利用GIS技术建立网络空间数据库,有利于为国土资源勘探工作者提供有效的土地和地籍管理信息,不仅能够满足地籍管理数据化的要求,还能完成地籍属性及空间信息的查询,并未及时维护做好准备。