基于神经网络的印尼语相似新闻推荐的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:watersss1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似文本推荐在信息的检索和自然语言处理等相关领域都有着重要的应用,在个性化服务时代,其进化升级版的个性化推荐更是为个人提供着更高效和直接的信息资源。在某些领域对用户隐私或行为信息要求较严,因此需要只在纯文本的信息中进行相似文本推荐。最为传统的方法仅仅依靠基于统计信息的关键词,没有考虑文本中词的语义信息和文本本身的语义信息。随着近年来机器学习和深度学习兴起,词向量在表示词汇语义信息上取得了较好的结果。利用词向量表示文本,通过距离度量函数来寻找相似文本。这种词汇上语义信息的叠加表示文本信息还是不能很好的总结长文本的信息。本文主要考虑统计与神经网络的结合,提出了关键词与其带权关键词量化文本相结合的相似文本度量方式,实验结果表明了这种方法的有效性和可行性。本文主要研究基于神经网络的印尼相似新闻推荐,在纯文本上提出了新的相似度量方式。神经网络主要是利用其词向量模型在词汇语义上的有效表示,印尼语为应用的语种。全文的工作内容如下:(1)在使用关键词表示文本进行推荐和甄别中,详细介绍了基于统计信息的关键词提取算法TF-IDF、基于主题模型的关键词提取算法LDA以及基于词图模型的关键词提取算法TextRank。实验表明更加简单的TF-IDF算法,其提取效果并不差于考虑了更多文本上下文联系和隐含主题等信息的LDA和TextRank算法。(2)对文本进行量化并用于相似的推荐中,主要介绍了基于神经网络的词向量模型以及文本向量模型Doc2vec。实验结果表明词向量加和平均量化文本的方法在文本量化中表现最差,带权词向量平均和Doc2vec模型表现更优,Doc2vec其劣势在于测试新闻同样需要训练的过程。(3)分析了印尼语特点,结合语言特点在数据处理上做了相应改变,提出了结合文本关键词和文本向量的相似度量方式。实验结果表明,该方法相较单一的使用关键词技术或文本向量技术的推荐效果要好,验证了权衡这两种方法可以结合两者的优点。(4)将本文提出的方法在中文和英文上进行实验,实验结果表明该方法同样有效。
其他文献
本报消息(记者 徐朝晖)8月9日阿里研究院发布2016年度全国电商服务竞争力榜单,其中浙江高居省份排行榜首位,杭州居城市排行榜首位。浙江省内除杭州外,金华也跻身城市排行榜25强,排
报纸
绍兴一家电商企业的相关负责人在自行考察浙江菁英电商产业园区的时候,路过电商办公区域的投缘创客咖啡吧,他坐下来喝了杯咖啡,然后便决定落户菁英。$$为何一杯咖啡有这样的神奇
报纸
<正>天府国际机场天府国际机场是国家"十三五"期间开工建设的最大民用运输枢纽机场,将使成都成为继北京、上海后,全国第三个拥有两个国际机场的城市。2017年,天府国际机场工
随着社会和时代的发展,电气自动化控制应用技术开始得到人们的广泛应用,尤其是在矿山生产中,更是在某种程度上替代了煤矿机械化和现代化发展的程度,对当前的矿井安全和矿产生
近年来,许多观察性研究发现维生素D与心血管疾病密切相关,维生素D与心房颤动(AF)之间的关系也已成为近年来新的研究热点。目前主流的观点认为,维生素D水平与AF的发作风险密切
随着纳米技术的发展,对聚合物的研究由宏观材料向微纳米材料转变。当聚合物薄膜厚度降低至与高分子链尺寸相当时,其结晶行为会偏离本体。这种行为因聚合物超薄膜分子链运动能
投影机通常的使用方式是将影像映射在屏幕上或平坦的墙面上,但随着数字技术的发展,现在可以通过软件来调整影像画面的透视及多边形矫正,使其可以与空间中的各种形状完美贴合
为积极融入"一带一路"战略,贵州省通过每年举办中国-东盟教育交流周,为贵州教育走出国门,加强与东盟国家在教育领域的国际合作创造了有利条件。本文通过梳理近年来黔留学生招
繁荣是社会经济发展的一大目标,然而,繁荣背后却也可能存在问题和隐患。本文从生产供给、消费需求、失业率以及繁荣时期的例外——农业等四个方面综合分析了柯立芝繁荣时期的
<正>河北省黄骅市是一座以英雄黄骅的名字命名的滨海小城,英雄虽逝,但英雄的事绩深深融入了这片土地。黄骅县政协文史资料委员会副主任王新华经过多年的苦苦寻觅,终于找到了