中文合成词识别及分词修正

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：oo789458

【摘要】

：

提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。最后,采用核心属性渗透理论对合成词标注词性,同时修正分词结果。实验结果表明,合成词识别正确率达到了91.60%,且分词修正效果良

【作者】

：

刘兴林郑启伦马千里

【机构】

：

华南理工大学计算机科学与工程学院,五邑大学计算机学院

【出处】

：

计算机应用研究

【发表日期】

：

2011年08期

【关键词】

：

合成词词共现有向图词性标注分词修正自然语言处理 compound-word word co-occurrence directed graph pa

【基金项目】

：

广东省自然科学基金资助项目（9451064101003233）, 广东省科技计划资助项目（2010B010600039）, 华南理工大学中央高校基本科研业务费专项资金资助项目（2009ZM0125 2009ZM0189 2009ZM0255）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一个基于中国剩余定理的群签名方案的密码学分析与改进

在基于中国剩余定理的群签名方案分析的基础上,发现现有方案在防伪造、防陷害、抗联合攻击以及满足非关联性方面还存在不足之处。通过对不足方案进行密码学分析,综合应用RSA和Schnorr签名算法,并使群中心参与到群签名的验证与打开过程中,进而提出了一种改进的群签名方案。在RSA和离散对数假设下,证明了新方案能有效地抵御伪造、陷害、联合攻击,而且满足了群签名的非关联性。

期刊

群签名中国剩余定理非关联性伪造攻击联合攻击group signature Chinese remainder theorem non-releva

改进的SVM解决背景知识数据中的类不平衡

针对背景知识数据集中存在的类不平衡对分类器的影响,根据背景知识数据集样本量小、数据维数高的特性分析了目前各种方法在解决背景知识数据中的类不平衡问题时的缺陷,提出了一种基于分类后处理的改进SVM算法。改进算法引入权重参数调整SVM的分类决策函数,提高少类样本对分类器的贡献,使分类平面向多类样本倾斜,从而解决类不平衡对SVM造成的影响。在MAROB数据集上的实验表明,改进算法对少类的预测效果要优于传统

期刊

类不平衡支持向量机背景知识恐怖行为方式预测MAROBclass imbalance SVM context knowledge terroris

一种新的基于奇异值分解的小波域盲水印

如何增强鲁棒性水印抵抗几何攻击尤其是旋转攻击的鲁棒性,是水印研究者研究的难点。为此,结合奇异值分解的特性和小波变换的优点,提出一种新的基于奇异值分解的小波域盲水印算法,对于常见的几何攻击具有很强的鲁棒性。首先对小波分解后的低频子带分块,以提高水印的嵌入容量;再对各子块进行奇异值分解,将Arnold置乱后的水印嵌入到奇异值中,并使用量化方法增强水印的鲁棒性。实验表明,该算法对于常见的几何攻击,特别是

期刊

盲水印奇异值分解小波变换ARNOLD变换几何攻击信号处理blind watermarking singular value decompositi

基于手势数据分析的地方手语动画合成方法研究

为了在现有的手势数据基础上合成新的地方手语手势,采取对这些手势数据进行运动相似性分段和动态聚类自动获取具有时序特征的基本手形类数据以及结合手臂状态数据的方法,最后生成新的地方手语手势动画数据。这不仅节省了重新采集数据需要的昂贵设备和大量工作,而且也能达到手势表达准确性的目的。

期刊

地方手语动画合成手势词根运动分段动态聚类dialect sign language animation synthesis gesture roo

基于语义角色的中文时间表达式识别

提出了一种中文时间表达式识别方案。该方案在抽取传统特征的同时,根据中文时间表达式的特点,新加入语义角色(semantic roles,SR)特征构建特征向量,然后采用CRFs(条件随机场)进行识别。在SemEval-2010评测的TempEval-2任务数据上进行实验,该方案识别中文时间表达式的F1(F1-measure)值达到85.6%,与未加入语义角色特征相比提高了5.2%。实验表明提出的方案

期刊

语义角色特征特征向量条件随机场中文时间表达式semantic role features feature vector conditional ra

一种用于DIBR的去隔行算法

提出了一种适用于DIBR的去隔行算法。该算法首先采用一种基于方向的场内插值算法对隔行参考图像及其深度图像去隔行,这种场内插值算法能够通过对插值方向进行自适应的选择,有效地消除锯齿现象;然后算法会根据逐行的参考图像及其深度图像进行三维图像变换,得到逐行的目标图像。实验表明,所提出的去隔行算法能得到画质较高的逐行新视图,且算法性能是鲁棒的。该算法适用于基于DIBR的3D视频的去隔行。

期刊

3D立体电视基于深度图像的绘制(DIBR)去隔行深度图像三维图像变换场内插值3D TV depth image based rendering（D

结合灰色理论和粒子群算法的归一化图像分割

为了对多目标图像进行有效分割,使用灰色关联分析来衡量像素点间的相似性,并将normalized cut准则推导为双阈值分割准则,最后使用粒子群算法优化该准则,得出最佳的分割阈值。实验表明该方法计算速度快,能有效分割多目标图像。

期刊

灰色关联度归一化划分准则粒子群算法双阈值图像分割grey relation grade normalized cut criterion parti

一种基于多径相对时延的密钥生成方法

利用TDD系统上下行信道特征的一致性提取密钥,克服了现行密钥机制需要预分发的弊端,是保障物理层安全的一种新思路。针对宽带系统多径时延满足信道互易性的特点,设计了一种新的密钥生成方案。该方案在多径合并的同时提取各径间的相对时延,并计算相对时延与平均时延的差值生成密钥,具有较强的健壮性。超宽带信道的仿真结果表明,当信噪比等于15 dB时,密钥生成一致性可达95%。

期刊

物理层安全信道互易性多径相对时延密钥生成超宽带physical layer security channel reciprocity multip

一种基于CF树的k-medoids聚类算法

当存在噪声和离群点时,k-medoids算法具有较好的鲁棒性,但是对于大数据集,算法的计算代价比较高。CF树是Birch算法中常用的一种结构,对于大数据集的聚类有较好的可伸缩性,但是对于非球形的数据,聚类结果较差。因此,在两种算法的基础上,提出一种基于CF树的k-medoids算法,先用数据集构建CF树,形成微簇,改进了欧式距离计算式,最后使用k-medoids算法对微簇进行聚类。当数据点较多时,

期刊

聚类K-中心点CF树微簇clustering k-medoids CF-tree micro-cluster

基于节点数据密度的分布式K-means聚类算法研究

P2P(peer-to-peer)网络分布式聚类算法是利用P2P网络上各个节点的计算、存储能力以及网络的带宽,将算法的时间复杂度和空间复杂度平摊到各个节点,使处理和分析海量分布式数据成为可能,从而克服传统基于单个服务器的集中式聚类算法在数据处理能力等方面的限制。提出一种基于节点置信半径的分布式K-means聚类算法,该算法通过计算节点上数据分布的密度,找到同一类数据在节点的稠密和稀疏分布,从而确定

期刊

点对点技术K-MEANS聚类自适应置信半径P2P K-means clustering self-adjustment confidence ra

中文合成词识别及分词修正

与本文相关的学术论文