【摘 要】
:
产学研数据平台的建设推动了企业与高校学者的交流合作,平台中学者的研究兴趣是企业等用户认识学者和与其合作的重要参考。对学者研究兴趣及时全面地刻画,不仅可以为平台提供初步筛选学者的依据,还可以丰富学者画像的研究兴趣标签,根据研究兴趣标签为其推荐相应企业,同时为学者社区的划分提供数据支持,增加检索结果判断依据。然而,及时全面地更新和分析学者研究兴趣,极大地增加了平台工作者的工作量,并对其相关专业知识提出
论文部分内容阅读
产学研数据平台的建设推动了企业与高校学者的交流合作,平台中学者的研究兴趣是企业等用户认识学者和与其合作的重要参考。对学者研究兴趣及时全面地刻画,不仅可以为平台提供初步筛选学者的依据,还可以丰富学者画像的研究兴趣标签,根据研究兴趣标签为其推荐相应企业,同时为学者社区的划分提供数据支持,增加检索结果判断依据。然而,及时全面地更新和分析学者研究兴趣,极大地增加了平台工作者的工作量,并对其相关专业知识提出了较高要求。因此为提高运维人员维护效率,进而提升平台运营效率,构建一个高效获取学者研究兴趣数据,全面展示学者研究兴趣的数据抽取工具,具有极高的应用价值。本文设计并实现了学者研究兴趣发现系统,将学者研究兴趣发现所需的工作流程进行封装,帮助运维人员在不了解数据处理技术和专业知识的前提下,高效地完成维护数据的工作。该系统利用主题模型对文献进行数据抽取得到学者研究兴趣,并扩展如研究兴趣演变和相似学者推荐等功能,最终以Web形式完成了数据可视化,在提高工作人员的工作效率前提下,普通用户也能更直观了解学者。本文主要工作如下:(1)在ETM主题模型的基础上,提出基于数据预处理的ETM模型输入优化策略。利用垂直爬虫从网络上采集所需数据,提出基于相似文献的伪长文本聚合策略,即借助相似文献对所处理的数据进行伪长文本扩展,将相似文献与原文献结合作为输入文档,同时提出基于术语的科技文献主题抽取,并实现术语识别模型和专用停用词抽取功能,进而在主题建模时引入专业术语和专用停用词作为先验知识。实验结果表明,基于优化策略的模型在主题一致性和结果可解释性等评价指标上,均有较大程度地提升。(2)基于ETM优化策略,提出一种用于研究兴趣抽取的ECK模型。首先,依据困惑度选择较大主题数进行ETM建模,完成细粒度主题抽取;然后,将处理后的主题词分布作为输入,通过Canopy算法自动获取学者研究兴趣簇的个数;最后,利用KMeans算法聚类出研究兴趣簇,并实现文献主题与研究兴趣簇的对应,以获取文献研究方向。深入分析结果数据,最终得到学者研究兴趣分布、研究兴趣演化以及相似学者推荐等,完成对学者研究兴趣的全面刻画。实验结果表明,ECK模型提高了文献研究方向的准确率,进而保证了学者研究兴趣数据的准确性。(3)根据软件工程思想,本文设计并实现了学者研究兴趣发现系统,主要包括数据采集模块、数据预处理模块、研究兴趣抽取模块和数据可视化模块,并对系统进行了功能等相关测试。测试结果验证了系统的可用性和有效性,系统可较好地完成预期研究目标。
其他文献
近年来我国城市轨道交通网络的建设方兴未艾,桥梁作为其中的关键结构,由于其桥位环境的特殊性,潜在风险源多,一旦发生工程事故,将造成巨大的经济损失和社会影响。实践证明,很多事故或问题都与设计存在一定的相关性,然而,我国目前城市轨道交通桥梁的风险评估方法研究尚处于起步阶段。为降低轨道交通桥梁设计安全风险,有必要加强对其安全风险分析与对策研究,建立和完善设计风险控制体系。本文系统性地研究城市轨道交通桥梁在
London Underground,better known as the Tube,has 11 lines covering 402 km and serving270 stations.The Tube handles up to five million passenger journeys a day.At peak times,there are more than 543 trai
无线Mesh网络是一种高容量、高速率的分布式网络,拥有自组织、无基础设施、扩展性强、自愈性强等特点,被业界认定为将提供更好服务的下一代无线通信网络。作为无线Mesh网络各节点间进行互连和数据传输的关键,路由协议对提高网络整体性能有着非常重要的意义。无线Mesh网络路由协议的主要职责是建立和维护网络中各节点的多跳路由,为数据报文的转发提供可靠依据。路由判据是路径选择和切换的重要判断因素,其采用合理的
预应力自复位结构通过预应力钢绞线的预拉力实现结构功能的快速恢复,地震中能防止主结构的损伤,减少残余变形。预应力自复位结构通过设置耗能元件来消耗地震能量,以往研究多采用单一耗能元件,如利用角钢的弯曲变形耗能、钢板剪力墙的斜向拉力场耗能、摩擦连接件的滑移摩擦耗能。然而,单一耗能元件在地震中往往损伤严重,甚至引发断裂。本文提出一种能同时以摩擦和弯曲方式联合耗能的T型钢作为自复位结构的耗能元件,在提高结构
Over the years,efforts have been made to study stress as a potential human psychological aspects that possibly effect the routine life of people in different ways.There still exists a wide gap for suc
Real-time and accurate queue length information is very imperative in evaluating the performance and to develop adequate queue management systems,especially under the congested condition in an advance
目前的5G技术以及未来无线通信的发展趋势都对通信系统的峰值速率和频谱效率提出了非常高的要求,但现有的主流无线通信系统都工作在较低的频段,使用着非常有限的频带资源。视频流本身具有高速和大数据量两种特性,非常适合用于研究无线系统的性能,而毫米波所在的频段和其本身带宽也适用于这种场景。本文研究了超高速毫米波硬件平台的数据传输与空口波束成型的实现,搭建了一个功能完备且能够稳定传输视频流的系统。1.针对毫米
纤维增强聚合物(FRP)因其卓越的优点,如高受拉强度-重量比、耐腐蚀、易于搬运和施工以及工作温度范围广,而在土木工程中得到广泛的应用。这些FRP复合材料具有线弹性应力-应变关系,在较小的断裂应变下会发生脆性断裂破坏(CFRP通常在1.5%左右及以下,GFRP在2.5%左右及以下,AFRP在3%左右及以下)。多年来,工程师和研究人员一直在探究如何改造或加固现有的有缺陷的钢筋混凝土柱,以满足新规范的要
近年来,分数阶微积分理论的迅速发展促进了其在反常扩散、湍流、粘弹性力学等领域的应用与研究,由于分数阶导数具有非局部特性,因此分数阶模型能够更准确地描述许多物理过程.本文主要针对两类时间分数阶微分方程,基于Caputo分数阶导数的快速数值算法构造了高效的数值求解模型,通过Chapman-Enskog分析的方法证明了模型的正确性和有效性,并利用丰富的数值算例进行了验证.对于具有Caputo时间分数阶导