基于新词发现的古典文学作品分词方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:huhaiyan1953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于中文文本的分词研究来说,现有的分词方法和技术较多都是针对现代汉语,现代汉语的分词方法和体系已经很成熟,但对古代汉语的研究较少。由于古文的特殊性,将现代汉语的分词方法技术直接用于古汉语时,无法得到分词准确的理想效果,目前对古汉语分词方法的研究还未形成成熟的体系。文中提出一种基于新词发现的古典文学作品分词方法,即从大量古典文学作品语料中发现新词,构建古汉语分词词典,在此基础上再对古文文本进行分词。以《三国演义》古文文本处理为例,验证了基于新词发现的古典文学作品分词方法能有效提高古文分词的准确率.
其他文献
针对深度卷积神经网络中经典的AlexNet网络模型中激活函数ReLU在网络模型训练时易产生神经元"死亡"和均值偏移的问题进行研究以及改进,通过结合反正切函数和对数函数的优势,在传统激活函数ReLU基础上提出了一种新的激活函数sArcReLU,并在后续训练过程中进一步调参。并将文中改进后的激活函数sArcReLU用于AlexNet网络模型训练,将使用新激活函数训练的深度卷积神经网络模型应用于公开数据
在推荐系统中,针对推荐准确度问题,提出了一种融合协同过滤和CatBoost的混合推荐算法(UCF-CB)。在协同过滤模块中对用户相似度计算公式进行改进,加入时间衰减因子以及热门物品惩罚项,利用改进后的协同过滤算法对用户项目评分矩阵进行评分预测,得到用户对物品的一次评分。对协同过滤一次评分进行降序排序,选取评分最高的前k项物品,形成召回集。对原始数据集进行预处理,挖掘潜在特征增加特征维度,利用CatBoost算法对用户和项目特征进行训练,对召回集数据进行预测,得到二次评分预测。对于没有评分记录的新用户,利用
针对边缘计算环境下边缘节点间资源差距过大且任务分配的负载不均衡等问题,提出了一种基于蚁群优化算法的任务调度方法。方法以不同任务对于CPU、内存、带宽等计算资源的需求情况的差异作为任务选择边缘节点的约束条件,以边缘云达到整体的负载均衡为目标,通过改进启发式因子、信息素的更新等条件提高算法的整体计算效率,降低计算时间,最后通过利用蚁群算法实现任务在边缘环境下的合理分配得出最优分配方式。方法能够避免相同类型的任务部署在同一节点中以提高任务执行效率和运算资源利用率。仿真实验结果表明,该算法在相同的节点数量下可以分
针对计算机视觉领域的运动目标跟踪问题,在间隔贝叶斯估计框架的基础上结合空时目标运动边界提出一种在线视觉跟踪方法。首先在初始帧建立感兴趣目标的整体和局部双层外观模型;然后利用目标驱动和数据驱动的双层视觉注意力模型提取目标在下一帧内的运动边界,将目标运动边界视为状态预测间隔的上限;在预测间隔内采用多尺度匹配原则寻找最优的目标框选窗口,并利用局部模型判断目标的遮挡状态;根据目标局部子块的匹配权值提出基于
逆时偏移方法作为目前最先进的地震资料成像方法之一,已经广泛应用于地震数据成像领域;基于地震资料的庞大数据量,该方法仍存在计算需求较大的问题,通常需要借助集群系统来完成运算。在异构集群环境中,各个节点的性能不同,节点的处理能力也会存在差异,在进行数据运算时容易出现负载不均衡的现象。为了提高并行计算的工作效率和异构集群系统资源的利用率,结合负载均衡技术,提出了一种异构集群环境下的自适应节点两级计算任务调度算法,将节点间和节点内的计算任务尽可能合理地划分。通过实验验证,同传统的Min-Min和Max-Min算法
支持低功耗广覆盖的广域网新兴技术的窄带物联网(NB-IoT)是物联网市场中增长最快的领域之一,其中的关键技术信道估计是准确恢复发送信号的重要步骤。传统的常数插值、线性插值和DFT等插值算法存在着估计精度和算法复杂度之间的问题。针对NB-IoT系统低功耗的要求,提出一种改进的反距离权重(IDW)插值算法。该算法引入距离权重,将周围已知点与待估点之间的距离进行加权平均,即在时域方向上利用周围导频点对非
随着计算机技术和网络技术的不断进步,现代信息化技术在各行各业得到了广泛应用。销售服务系统作为客户管理系统的重要组成部分,在销售服务类企业占有十分重要的地位,极大地提高了企业的工作效率。随着社会经济的不断发展,服装销售类企业作为经济社会发展的第三产业得到快速的发展。为进一步提高服装销售企业的现代化管理水平,以服务销售企业为例,从销售服务系统需求分析、系统功能设计、数据库设计以及系统开发与实施几方面详细介绍了基于.NET架构的服装销售服务系统的设计与实现。通过系统测试与实际运行,该系统运行稳定,具有良好的兼容
对于天气现象的模拟在许多领域有广泛的运用,例如对云雾、雨电、风雪、海浪等自然场景的模拟,对这些自然场景的真实性的提升十分重要。其中雨的模拟仿真包括了对雨滴粒子的形状、大小、轴比、取向(又称倾角β)等微物理特征的描述。天气雷达强度受雨滴倾角影响较大,因此雨滴倾角是天气雷达测量精确度的重要影响因子。文中通过研究雨滴的物理特性及其运动过程,得出了雨滴倾角与雨滴大小成反比,与风力大小成正比的结论。在Unity3D引擎中使用粒子系统模拟雨滴降落过程中受风力影响产生倾角。提出了联动了雨滴大小与风力的方法,结合图形用户
近年来,随着旅游类互联网产品的兴起,网络上产生了大量针对目的景点的主观评论,使用深度学习算法对相关评论进行意见挖掘,帮助游客快速了解景区特点并为旅游监管提供依据,已然成为一个新的趋势。如何将细粒度意见挖掘方法,如方面级情感分析,应用到旅游评论中,成为一个迫切需要解决的问题。针对上述问题,结合方面级情感分析中意见词抽取和类别分类两个子任务,文中提出了一种针对旅游评论的基于BERT的端到端意见挖掘方法。首先利用BERT对旅游评论进行编码,再经过下游指针网络解码后对相应的旅游评论进行序列标注,得到<意见词
太赫兹成像中的隐蔽物体检测是公共安全和反恐的迫切需要。由于太赫兹成像质量差,在太赫兹图像上的目标检测比在计算机视觉领域常用的公共目标检测数据集上要困难得多。文中收集了一个多目标的主动太赫兹成像数据集。针对样本不平衡问题,对比了RetinaNet使用交叉熵和Focal Loss作为损失函数时的检测性能。针对那些检测效果较差的目标,利用难例挖掘技术来增强训练模型。由于传统的难例挖掘技术是在二阶段目标检