面向未切分文本的领域术语抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:www359795792
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域术语自动抽取是自然语言处理中的一项重要任务,特别是中文术语的自动抽取是中文信息处理的一项基础性的课题,术语抽取可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域中,为进一步细致处理自然语言研究的各个问题,构建一个领域术语自动获取系统是十分重要的。  本文分析了目前已有的术语抽取技术,结合汉语术语的特点,提出了一种从原始未切分文本中自动抽取领域术语的方法。主要研究工作如下:  第一,本文对汉语术语的抽取进行了一定的研究,并对统计模型和规则模型进行了分析和比较,设计了一个统计方法和规则方法相结合的汉语专业领域术语抽取算法,并具体实现了领域术语的抽取。该方法将规则模型和统计模型有机的结合起来,避免了单纯使用一种方法进行术语抽取的局限性,有效地实现了领域术语的抽取。  第二,系统在用统计方法抽取候选术语之前,利用规则的方法对要处理的文本进行了预处理,主要包括仿词处理、标点符号和停用字的过滤。实验证明,这对于提高整个系统的效率是有帮助的。  第三,本文比较分析了已有的统计参数的优缺点,提出了用信息熵和似然比两个统计参数结合进行领域术语的抽取的算法。实验结果表明,把这两个统计参数结合起来可以充分发挥两个参数的优点,取得了较好的效果。  第四,本文利用通用词典过滤掉高频通用词汇并用置信度的方法对最后的候选术语进行过滤筛选,过滤掉候选术语中很多没有意义的字符串,进一步提高了领域术语抽取的准确率。  本文的领域术语的抽取系统既不需要分词及词性标注,也不依赖于专业词典,不限于某一个领域,不需要语料库训练,操作简单且易于实现。该系统对计算机领域和金融领域两个领域的语料进行了实验,并对计算机领域的抽取结果进行了分析,其中候选术语抽取的准确率为72.8%,实验结果表明,利用论文中提出的方法可以准确有效地抽取出特定领域的专业术语。
其他文献
目前乒乓球机器人系统普遍存在两个难题:首先,乒乓球高速运动时,机器人较难在短时间内做出反应;其次,机器人无法识别来球类型(如下旋、上旋、无旋等),不能判断来球是否旋转以及
万维网地理信息系统(简称WebGIS)是Internet技术与GIS技术相结合的产物,为公众获取GIS数据和地理信息服务提供了一个有效的手段。但是从WebGIS的应用现状可以看出,这项技术远未
功能磁共振成像(fMRI)技术能够实时地对大脑神经功能活动进行成像,且由于其具有较高的空间分辨率、时间分辨率、无辐射损伤以及可在活体上重复进行检测等优势,已成为当今用于脑
软件构件技术是当前软件复用研究的焦点,被视为实现复用的关键因素之一。目前大多数开发的系统都存在难于进行业务扩展和系统升级等问题,因此,我们采用基于构件的软件开发方
随着国际互联网的普及和信息技术的发展,网络中的信息资源也在迅速增长,这些信息资源种类繁多、形式各异,存在于不同的信息系统中,这些特点给信息的消费带来很大的困难。为了
本文研究细分方法在图形学中的应用,细分方法近年来已成为图形学领域的一项重要研究内容。但是,要进一步拓广细分方法的应用范围(尤其在CAD领域),还有很多工作要做。本文先简单
针对某企业的生产需求,实际生产调度中存在位置限制及一些特殊的工序间关系约束,最小化最大完工时间是其最终的优化目标。由于该类问题与实际生产的效率与投入成本密切相关,
电子投票作为传统投票的电子化,不仅可以节省人力和物力,而且方便、灵活和安全,同时保证了投票者的利益和投票结果的公正。因此,电子投票越来越受到欢迎,成为投票领域发展的
人脸识别是当前一个热点研究领域,它作为一种身份验证的技术在信息安全、出入控制等领域有着广泛的应用前景,但同时人脸识别作为一个经典的高维小样本问题,对模式识别算法的
随着微电子技术、计算技术以及无线通信技术的进步,低功耗多功能的传感器得到了快速的发展,而且无线传感器网络已经被广泛地应用。数据聚集是无线传感器网络应用中一项重要的