语料库中基于出现环境的词的抽取和词性推定

来源 :1998中文信息处理国际会议 | 被引量 : 0次 | 上传用户:gudujian13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文运用统计的方法,对从汉语语料库中判别抽取词作了研究。并从计算抽出的词的候补之间的环境相似度出发,探讨了自动标注词性的可能性。作者认为,抽取词的判别方法有助于利用计算机辅助编辑辞典的工作。
其他文献
目的 研究舒肝解郁胶囊对心肌梗死后抑郁大鼠行为学及心室电生理的作用.方法 通过结扎冠状动脉前降支制备急性心肌梗死模型以及慢性不可预见性温和应激建立抑郁模型,将65只SD
该文提出了一种高效的汉语组块分析算法,它通过采用基于规则的有限状态成分组分极和基于统计的界块界定预测相结合的处理策略以及多个有限状态成分组转换器相互配合的处理机制
该文依据200万了字经过人工校对的分词和词性标注的语料,对其中的词性标记不一致但不属于兼类或同形的词语进行分析,文章根据这些标记不一致的词语的产生原因将它们分成三大类,并具
该文对词性标注的几种算法:CLAWS算法、VOLSUNGA算法、遗传算法做了比较,分析各自的时间复杂度,并针对文本中的每个SPAN用遗传算法算法对其兼类词进行词性标注,实验结果证明此方法是可行的。
该文提出了一种基于NA假设的词性自动标注方法。该方法采用基于NA假设自动从无标注语料库中抽取性三元组数据,训练词性标注统计模型所需参数,对稀疏数据进行平滑处理。对词典中未登
该文介绍一种基于约束规则与无监督学习的词类分析方法。在模型实现中,以独立于语料库的手工制作的约束规则为出发点,然后合并从训练语料库中以无监督方式所学习的约束规则,语言
词语接续对的数据库(接续库)对于词语层面的语言处理具有重要意义。为了建立接续库,我们对一个1亿字左右的大规模语料库中的词语接续对进行了统计。该文分析了统计结果,并着重讨论
研究试验结果表明 :参试的四个甘蔗品种 ,茎尖脱毒培养效果从好到差的顺序依次为拔地拉 >F134 >粤糖 57/ 4 2 3>桂糖 11号。而同一品种不同的培养基、外源激素、培养方式和培
确定搭配候选的观察窗口是词语搭配自动抽取工作的基础。该文首先在大规模汉语语料中统计了名词、动词、形容词的搭配词语的分布情况,得出抽取这三类词搭配词语的最佳观察窗口