基于非参数贝叶斯模型和深度学习的古文分词研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zhouyonge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古汉语文本中,汉字通常连续书写,词与词之间没有明显的分割标记,为现代人理解古文乃至文化传承带来许多障碍。自动分词是自然语言处理技术的基础任务之一。主流的自动分词方法需要大量人工分词语料训练,费时费力,古文分词语料获取尤其困难,限制了主流自动分词方法的应用。该文将非参数贝叶斯模型与BERT(Bidirectional Encoder Representations from Transformers)深度学习语言建模方法相结合,进行古文分词研究。在《左传》数据集上,该文提出的无监督多阶段迭代训练分词方法获得
其他文献
编码问题是目前DNA计算中的重点和难点之一,该文介绍了影响编码的各种因素及模板编码的基本思想。在此基础上分析了移位杂交出现的原因,提出了提高模板结合移位距离的一种新算法。该算法一方面降低了搜索空间,另一方面筛选了那些自身移位距离性质差的序列因而提高了算法的效率。计算结果表明模板集合的性能明显提高。此外,在保持01含量基本不变的情况下,适当扩展模板集合的搜索范围可以增加模板的数量。
文章主要介绍WLAN发展现状,并通过WLAN系统的特点及机构分析其面临的安全威胁。文章通过实例介绍WLAN无线接入设备安全漏洞的原理及验证方法。以Netcore NW 705P设备的越权下载配置文件为例,讲解如何在非授权的情况下获取设备配置文件并解密出管理员账号及密码。最后在管理和技术两个方面提出安全建议。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
该文针对目标检测中宽带雷达信号发射-接收联合优化的问题,提出基于相位调制的宽带雷达波形优化方法。该方法充分发挥了雷达发射机的发射能力,即对于固定的发射机来说,以发射更大的能量来得到更大的输出信干噪比。仿真结果表明在同样的条件下,与已有方法相比,该方法输出信干噪比有1.8dB左右的提高,尤其是在杂波功率谱密度相对较小的时候效果更为明显。
中、青年不少人喜爱饮酒,醉酒后眼外伤也较常见.此类眼外伤临床表现较复杂,并常因醉酒而影响伤情判断及处理.现将我院1996~2000年接诊的酒后眼外伤213例246眼分析报告如下:
大数据很忠诚,它记录着人的行为轨迹,深藏功与名;大数据很理性,它的分析有依有据,拒绝任性妄想。这次新冠肺炎疫情既是对国家治理体系和治理能力的一次大考,又是对我国大数据
福建海岛众多,总数为1546个,其中:有人居住岛102个,人口132.2万;无人居住岛1444个。海岛蕴藏着土地、港口、生物、矿产、旅游、海水、海洋能和空间等资源,已开发利用的海岛少,
随着社会的不断发展,养老保险的管控也不断规范化,机关事业单位也逐渐摸索出养老保险的管理经验。但是在实际操作过程中,仍然有一部分机关事业单位对于养老保险的内控存在一
传统的包冲突解析(PCR)方案一般采用抛弃重传策略,性能差强人意。该文对基于虚拟多入多出技术的广义混合转发PCR方案进行了研究,建立了此类方案的一种理论分析模型,对已有的两类协同节点选择算法进行改进,提出了两种广义混合转发PCR方案,并对方案的平均容量、丢包率、时隙等效吞吐量及节点最佳发送概率进行了理论分析和推导。所提方案可以支持任意个节点同时接入信道,通过选择协同节点构建等效并行通道,解决了包冲
2001年起执行的由财政部制定的<企业会计制度>中,首次将"实质重于形式"原则规定为企业进行会计核算应当遵循的基本原则之一.该原则的执行对企业日常经济核算有着深刻的影响.