语料库中基于出现环境的词的抽取和词性推定

来源 :1998中文信息处理国际会议 | 被引量 : 0次 | 上传用户：gudujian13

【摘要】

：

该文运用统计的方法，对从汉语语料库中判别抽取词作了研究。并从计算抽出的词的候补之间的环境相似度出发，探讨了自动标注词性的可能性。作者认为，抽取词的判别方法有助于利用计

【作者】

：

谢军兵藤安昭

【机构】

：

国岐阜大学工学部应用情报学科

【出处】

：

1998中文信息处理国际会议

【发表日期】

：

1998年期

【关键词】

：

汉语语料库环境相似度抽取标注词性判别方法计算机辅助编辑运用统计辞典词作

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文运用统计的方法，对从汉语语料库中判别抽取词作了研究。并从计算抽出的词的候补之间的环境相似度出发，探讨了自动标注词性的可能性。作者认为，抽取词的判别方法有助于利用计算机辅助编辑辞典的工作。

其他文献

舒肝解郁胶囊对心肌梗死后抑郁大鼠行为学表现及心室电生理的影响

目的研究舒肝解郁胶囊对心肌梗死后抑郁大鼠行为学及心室电生理的作用.方法通过结扎冠状动脉前降支制备急性心肌梗死模型以及慢性不可预见性温和应激建立抑郁模型,将65只SD

期刊

心肌梗死后抑郁行为学心室电生理舒肝解郁胶囊实验研究

汉语组块分析算法

该文提出了一种高效的汉语组块分析算法，它通过采用基于规则的有限状态成分组分极和基于统计的界块界定预测相结合的处理策略以及多个有限状态成分组转换器相互配合的处理机制

会议

汉语组块有限状态处理机制自动识别真实文本汉语句子分组分析算法处理策略转换器组分预测统计实验规则

词性标注中难归类词语分析

该文依据２００万了字经过人工校对的分词和词性标注的语料，对其中的词性标记不一致但不属于兼类或同形的词语进行分析，文章根据这些标记不一致的词语的产生原因将它们分成三大类，并具

会议

词性标注人工校对词语词性标记语料分词

汉语词性标注中兼类词排歧算法探讨

该文对词性标注的几种算法：ＣＬＡＷＳ算法、ＶＯＬＳＵＮＧＡ算法、遗传算法做了比较，分析各自的时间复杂度，并针对文本中的每个ＳＰＡＮ用遗传算法算法对其兼类词进行词性标注，实验结果证明此方法是可行的。

会议

汉语词性标注兼类词遗传算法复杂度证明文本实验方法

基于ＮＡＡ的词性自动标注模型

该文提出了一种基于ＮＡ假设的词性自动标注方法。该方法采用基于ＮＡ假设自动从无标注语料库中抽取性三元组数据，训练词性标注统计模型所需参数，对稀疏数据进行平滑处理。对词典中未登

会议

词性标注未登录词标注语料库最大概率稀疏数据统计模型平滑处理标注方法测试结果准确率上下文三元组开放性训练评估词典抽取参数

一种基于约束规则与无监督学习的词类分析方法

该文介绍一种基于约束规则与无监督学习的词类分析方法。在模型实现中，以独立于语料库的手工制作的约束规则为出发点，然后合并从训练语料库中以无监督方式所学习的约束规则，语言

会议

词类分析无监督学习约束规则消除歧义

关于“新的产业革命”部分名词解释汇编

会议

产业革命名词解释

大规模语料库中词语接续对的统计与分析

词语接续对的数据库（接续库）对于词语层面的语言处理具有重要意义。为了建立接续库，我们对一个１亿字左右的大规模语料库中的词语接续对进行了统计。该文分析了统计结果，并着重讨论

会议

语料库规模词语接续统计结果语言处理频率分布完全解数据库可靠性垃圾干预

甘蔗茎尖脱毒培养研究初报

研究试验结果表明 :参试的四个甘蔗品种 ,茎尖脱毒培养效果从好到差的顺序依次为拔地拉 >F134 >粤糖 57/ 4 2 3>桂糖 11号。而同一品种不同的培养基、外源激素、培养方式和培

期刊

茎尖脱毒甘蔗甘蔗茎尖脱毒培养桂糖培养效果酚害茎尖培养预培养茎尖

词语搭配在文本中的分布特征

确定搭配候选的观察窗口是词语搭配自动抽取工作的基础。该文首先在大规模汉语语料中统计了名词、动词、形容词的搭配词语的分布情况，得出抽取这三类词搭配词语的最佳观察窗口

会议

词语搭配词汇获取语料库语言学

语料库中基于出现环境的词的抽取和词性推定

与本文相关的学术论文