中文文本聚类的研究与实现

来源 :第一届学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:liongliong423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本聚类中,聚类的最终结果应该是一棵树的形式.然而,随着互联网的普及,面对海量的电子文献,学科分枝的越来越细化,树的分枝粒度越来越小,逐层聚类必然会花费巨大的时间.本文讨论并提出了针对特定领域扁平聚类和分层聚类相结合的思想,并且对于文本预处理和具有较强实用性的ISODATA扁平算法给出了VC++的实现.
其他文献
迄今为止,统一的输入法只有汉语拼音输入法,它得益于字母化的《汉语拼音方案》,线性组合的拼音字母,可对应字母键盘实现"无编码"输入.同理,统一字形输入法的基础是统一汉字的
机器翻译使用的形式语法既要能排除自然语言的歧义,又要能覆盖特定自然语言的全部现象.这种情况一直困扰着机器翻译的研究与开发.迄今为止,国际上还没有十分完满的解决办法.
由于开发英汉机器辅助翻译系统的需要,我们调查了许多用户;调查结果发现,用户需要系统提供对英文原文的语言辅助分析支持,尤其是英文长句子的句法分析支持和英文词汇包括对生
本文介绍作者对于一个英汉机器翻译系统消歧功能测试的结果.测试工作分词汇歧义测试和结构歧义测试两个方面.首先选择有代表性的例句用这个机器翻译系统进行全自动的翻译,然
本文首先介绍了我们在"面向新闻领域的汉英机器翻译系统"中语言资源建设的总体框架,然后着重介绍了其中扩充词典的建设方法.扩充词典是相对于核心词典而言的,特点是词汇量大,
会议
离合词是汉语中很有意思的一个词类.本文把离合词分为四类,探讨了离合词在汉英机器翻译中的分析,表示翻译等处理策略,并作了初步实现.
由于传统文化观念的影响、彼此信息的非对称性以及打工经济导致信贷主体的缺失,小额信贷在少数民族地区受到了一定的制约。为此,促进民族地区文化观念的转变、巩固民族地区借
山东黄金集团三山岛金矿新立分矿副井,现采用JKM-2.8*4(Ⅰ)E型多绳磨擦井塔式提升机,首绳为4根6V*33+FC,左右捻各2根,绳径φ28mm,绳长730米,井深693米,最深中段为-667中段.
期刊
句法分析是自然语言处理和机器翻译的基础.目前头驱动英语句法分析模型是公开发表的效果最好的模型之一.本文分析了头驱动模型的特点,并针对其不足提出了用极大熵原理估计依