【摘 要】
:
应用于信息挖掘的话题模型和话题标签抽取近年来受到越来越多专家学者的关注。话题可以表示文档集合中潜在的语义信息,话题标签则关注于如何让话题更具可解释性。传统话题模型通过对输入语料的训练,得到话题词项概率分布信息,并通常用概率分布的前十个词项来描述话题。例如话题“snow,weather,service,heavy,airport,closed,flights,storm,power”,这样的描述方式
论文部分内容阅读
应用于信息挖掘的话题模型和话题标签抽取近年来受到越来越多专家学者的关注。话题可以表示文档集合中潜在的语义信息,话题标签则关注于如何让话题更具可解释性。传统话题模型通过对输入语料的训练,得到话题词项概率分布信息,并通常用概率分布的前十个词项来描述话题。例如话题“snow,weather,service,heavy,airport,closed,flights,storm,power”,这样的描述方式较为简洁,但在可解释性上存在不足。针对这一问题,研究人员提出了多种话题标签抽取方案,比如基于特征的方案、基于摘要算法的方案、人工生成标签的方案等,旨在生成话题的更具可解释性的标签。本文在前人研究的基础上,进一步提出了基于词向量的话题标签抽取方法,利用短语作为话题的解释性标签。一方面,将词向量方法引入到话题标签抽取中,另一方面,对主流的词向量方法进行了实验和研究。本文主要在以下方面进行探索:1.将词向量方法引入到话题标签抽取中;2.提出了一种计算机自动生成话题标签标准答案并评测话题标签结果的方法;3.对Letter trigram,Word2vec,GloVe,Paragraph2vec词向量模型进行实验和研究。通过实验研究我们发现Letter trigram和GloVe向量对语料的不敏感性最好,CBOW在规模较大的语料上结果较好,Skip-gram在语义集中度较高的语料上结果较好。
其他文献
个性化推荐作为解决信息过载的一个有效手段已经成为工业界和学术界研究的热点,根据反馈信息的不同,可以划分为面向显式反馈和面向隐式反馈的推荐。其中,前者是个性化推荐的主流,而后者的普遍性使得此类推荐方法有更高的研究和应用价值。然而隐式反馈的若干缺陷给推荐带来了很大的挑战。论文首先分析了隐式反馈的特点,随后分类阐述了当前主流的面向隐式反馈的推荐方法的特点:包括单类协同过滤、基于学习排序的推荐以及其他结合
在我国新型城镇化进程加速推进和经济转型升级不断深化的背景之下,具有新时代标签意义的特色小镇应运而生。作为当下新型城镇化建设和供给侧结构改革的创新发展模式,持续稳定
本文在对最新的国内外相关自动化设备情况进行梳理汇总的基础上,对折弯机器人工作站的结构组成、工作原理以及相关控制方式进行说明,为机器人在钣金加工领域的实际应用提供一
量子弹球和量子图是量子混沌领域中的两个重要模型,它们常常被用于量子系统能谱特性的数值和实验研究。到目前为止,有很多工作对具有经典混沌动力学的量子系统进行了研究。在
改革开放以来特别是党的十八大后,中国的经济综合实力和科技实力显著增强,但中国社会发展现状没有改变,仍处于社会主义初级阶段,生产力水平还有待提高,技术与经济的融合还不
随着人工智能技术的崛起,利用深度学习开展计算机视觉领域的研究已经取得了令人瞩目的发展和进步。生成对抗网络的提出为文本生成图像任务的研究提供了新的思路。该任务要求
现代社会,信息化高速发展,档案在各行各业被利用的越来越多,价值功能的体现也日益丰富。在新闻领域,随着现代新媒体技术的进步,新闻产品的更新速度越来越快,产生的新闻档案也越来越多。新闻档案的增多以及新闻档案载体形式的多样性增加了新闻档案的管理难度,同时也为新闻档案服务社会进步提供了更多种可能性。本文基于当前社会新闻档案服务社会进步的社会功能表现,分析新闻档案服务社会进步的作用意义以及相关障碍因素,并从
注塑制品具有易于成型、化学性能稳定等特点,广泛应用于医学领域。但注塑制品受模具结构、不同材质、成型工艺多方面因素影响,易出现翘曲、划痕、麻点、应力痕等缺陷,因此在
随着Kinect等深度传感器的普及和深度学习在计算机视觉领域的广泛应用,基于多模态图像的室内场景解析虽然已经取得了长足进步,但在实际应用中仍然存在不足。一方面,绝大多数算法在训练和测试阶段都依赖RGB-D图像,但彩色图像对用户隐私的侵犯性,以及光学成像导致黑暗环境下失效的局限性,使得研究在测试阶段只依靠深度图像工作的算法更具现实意义。另一方面,深度学习算法十分依赖人工标注的训练样本,为减少在陌生场
表面等离子激元是指在金属表面存在的自由振动的电子与光子相互作用产生的沿着金属表面传播的电子疏密波。由于它们具有破坏衍射极限的能力,表面等离子体已经在传感,波导,和