阿拉伯文文本预处理方法研究综述

来源 :情报探索 | 被引量 : 0次 | 上传用户:yingying0615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]旨在促进阿拉伯文文本挖掘的研究与应用,为其他学者提供参考。[方法/过程]概述阿拉伯文的基本特征与语法规则,从分词、词性标注、词干提取、词形还原四个方面对比分析阿拉伯文文本预处理方法及主流应用,并指出现有研究的不足与未来研究方向。[结果/结论]未来研究中,可以通过完善词典、改进词义消歧效果等方法进一步提高阿拉伯文文本预处理的效率和准确率。
其他文献
本文提出了一种用于技术融合与演化路径探测的新方法,即技术群相似度时序分析法,并将其应用于增材制造领域的技术发展路径分析。首先,以增材制造技术专利数据为分析对象,从专利文献记录层面、技术层面和技术域层面,依次对该技术领域整体变化趋势进行测度;再次,基于IPC (International Patent Classification)分类号共现原理,利用社区探测算法识别技术群,并通过余弦相似度关联相邻时间区间的技术群;最后,通过可视化技术展示不同时间区间内技术群之间的融合和扩散演化关系。研究结果表明,增材制造
[目的/意义]探讨机构知识库(IR)可持续发展影响因素来源及关系,为国内IR实践与推广提供借鉴。[方法/过程]从可持续发展影响因素、因素关系和应对策略等方面对国内外相关研究进行梳理、总结和述评。[结果/结论]国内IR可持续发展的关键在于完善IR本体并与主客观环境的协调发展,实践要遵循长期筹划、协调各方、互利共建、协调融合的原则。
[目的/意义]基于爱思唯尔旗下数据库Scopus和分析平台SciVal,比较“中国科技期刊卓越行动计划”领军期刊与世界一流科技期刊的国际影响力,以期为领军期刊进一步提高国际影响力提供参考。[方法/过程]首先,以22种“卓越计划”领军期刊2015-2019年发表的文献为研究对象,分别从文献总量、总被引频次、篇均被引频次、CiteScore、篇均阅读量、国际合作比例等指标对这22种领军期刊的国际影响力进行分析;其次,根据CiteScore排名,找出与这22种领军期刊对标的世界一流科技期刊并分析其相应的国际影响
[目的/意义]探讨不同阅读媒介下读者阅读能力的差异,以及读者年龄、学历等因素对阅读能力的影响。[方法/过程]以图书馆读者为研究对象,采用深度访谈方式记录和跟踪受访读者的阅读行为和感受,对不同阅读媒介下读者阅读能力差异原因进行分析。[结果/结论]纸质文献更符合人们的阅读习惯,带给读者更直观的阅读体验;与文献载体相比,读者年龄和文化差异对阅读能力的影响更大。信息素养也是影响阅读习惯的因素之一,当信息素养无法与新的阅读行为相匹配的时候,就极易出现阅读能力差异的现象,这种差异不会自动消亡。文化素养是阅读能力的核心
[目的/意义]对相关文献空间信息进行挖掘,进行区域分布和研究热度的集成分析,有助于深入分析与地理环境密切相关区域的研究发展态势,找出潜在的研究相对缺乏的区域。[方法/过程]以知网(CNKI)为数据源,采用Jieba分词器提取了1161篇文献,并对文献中的地理位置信息进行了可视化;在此基础上绘制了地震卫星遥感的研究区域热度分布图,并与现有地震分布图相比较,得到了潜在的研究相对缺乏的区域。[结果/结论
本文在以诺贝尔奖关键论文集为代表的优质论文数据集中发现了“天鹅群”模式及其“伴随睡美人”现象。以诺贝尔物理学奖和经济学奖为数据参照,研究揭示“天鹅群”模式能同时适用于物理学和经济学领域,占比分别为39.56%和28.81%,其比仅适用于自然科学类诺贝尔奖的“黑-白天鹅”模型更具有普适性;“天鹅群”类型分布在物理学和经济学具有一致性,“类型2”占绝大多数。同时,研究发现“天鹅群”中存在“伴随睡美人”现象,在物理学和经济学中分别占比4.00%和6.78%,表明优质论文中存在较高
[目的/意义]以高等学校数字素养教育为目标导向,以专业课程体系为具体实践情境,将数字素养融入高校专业课程体系建设,形成动态的数字素养教育和专业课程体系的反馈链条。[方法/过程]通过梳理国内外相关领域的研究现状,分析数字素养教育与专业课程体系建设的关系,提出以数字素养教育为导向的专业课程体系协同建设方案。[结果/结论]从知识图谱绘制、复合群落构建、专业课程体系协同团队建设及协同教学平台打造等四个维度论述了以数字素养教育为导向的专业课程体系协同建设方案。
[目的/意义]我国公共图书馆事业在第六次全国公共图书馆评估定级工作的推动下,取得了实质性进步。后评估时代,我国学者对智慧图书馆的研究日益深入,实践工作也取得了一定成果。智慧图书馆评估研究对当前智慧图书馆建设中的自评和下一次全国性公共图书馆评估具有重要的理论与实践意义。[方法/过程]文章通过文献回顾归纳了智慧图书馆的概念和要素,梳理了智慧图书馆相关研究成果和实践工作,总结出当前我国公共图书馆智慧化发展的三种模式,并对智慧图书馆评估问题展开了讨论。[结果/结论]在总结智慧图书馆概念、核心要素和相关研究的基础上
在同一学科领域内,国内外的研究水平与层次存在着差异,并在某种程度上表现出滞后性。本文通过分析在同一学科领域中国内外期刊论文所表征的研究主题与数量滞后性,有助于实现同一学科领域的横向对比,明确科学研究发展的水平与方向。本文设计了基于核心期刊论文的国内外同一学科领域研究主题滞后性和数量滞后性测度的方法与步骤;以数据挖掘领域为例,收集1996—2019年CNKI (China National Knowledge Infrastructure)数据库和WoS(Web of Science)数据库收录的有关数据挖
学术论文语义结构的解析可以广泛应用于信息抽取、论文检索等多个问题。本文通过机器学习的方法,自动标注论文全文中每个子句的语义类型,以实现对论文语义结构的识别。本文使用了论文的宏观篇章结构,以及每个子句的语法、词汇信息作为特征,训练了支持向量机、条件随机场、随机森林、梯度提升分类器和随机梯度下降分类器5种机器学习模型,并将其中效果较好的支持向量机、条件随机场、梯度提升分类器3个模型进行集成,最终得到适用于学术论文全文本子句语义类型标注的集成模型。实验证明,无论在论文全文还是仅包含“结果”的章节中,与对照模