【摘 要】
:
中文分词是中文信息处理领域内的一个重要课题,传统的分词方法多基于统计模型,尽管可以取得不错的效果,但是统计模型依赖大量有标注样本,具有人工标注样本代价高的缺点。主动
论文部分内容阅读
中文分词是中文信息处理领域内的一个重要课题,传统的分词方法多基于统计模型,尽管可以取得不错的效果,但是统计模型依赖大量有标注样本,具有人工标注样本代价高的缺点。主动学习方法在解决分词问题时会根据处理进程,选择最合适的少量的样本进行人工标注,从而达到通过使用大量无标注样本来提高分词效果的目的。因此,本文将主要研究基于主动学习的中文分词方法。本文首先介绍了中文分词的研究背景、研究意义和常用的分词方法。接下来介绍了条件随机场模型和主动学习方法,并对如何把条件随机场模型和主动学习方法引入到分词领域中做了阐述。最后重点介绍了本文提出的三种基于主动学习的中文分词方法:1.提出了基于委员会投票的主动学习分词方法。该方法的核心思想是通过集成学习方法来帮助构建委员会,选择委员会投票分歧度最大的样本作为最有价值的样本进行人工标注。2.提出了一种基于分层选择策略的主动学习分词方法。该方法的主要特点是在不确定性选择方法基础上,把分词过程中的专有字符与其它汉字字符分开分别进行样例选择,另外该方法还可以通过计算实例间的差异性来解决重复标注问题。3.提出了一种基于邻域规则的主动学习分词方法。该方法的与众不同之处是利用未标注样本的邻域集合熵值来进行样例挑选,并且利用计算未标注样本同训练集合的欧氏距离来增加样本集合的多样性。
其他文献
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够快速、有效地发现资源和知识的工具。近年来针对文本数据的文本聚类已逐渐成为
随着科学技术的发展,越来越多的现代化教学设备被引入课堂,先进的数字化教学工具被广泛地应用到教学的各个领域。当今大学教学中,教师和学生都已经熟悉了多媒体教学。但是,课
当前,随着园区网络,尤其是校园网的飞速发展,传统宽带接入认证方式(如:PPPOE)越来越凸显出其固有的缺陷。而基于IEEE802.1x协议的以太网接入认证技术,实现了分散的用户控制和
目前,随着信息技术的高速发展,智能人机交互系统的广泛应用,自动人脸检测和跟踪已经成为了计算机视觉和模式识别领域的一个热门的研究话题,具有越来越广泛的实用价值和研究意
网络学习已经成为重要的研究和应用领域,吸引了大量研究者和实践者的关注。目前,不同的机构按照各自的方式组织、包装和发布学习内容,网络学习内容形式各异,分散、大量的重复
近年来,随着无线通信和网络技术的迅速发展,移动通信技术应用越来越广泛,服务日趋多样化。下一代无线网络将承载语音、数据、视频等多种业务,这些业务具有不同的带宽需求和服
随着现代信息网络技术的快速发展,用户对网络服务能力的要求也日益提高。由于受到网络带宽、网络设施等因素的限制,如何提高网络服务的效率成为现代网络急需解决的问题。内容
节点自定位技术是无线传感器网络的主要支撑技术之一。在大多数无线传感器网络应用中,确定传感器节点的物理位置是最基本的要求。目前现有的无线传感器网络节点自定位算法普
中医医案蕴藏着丰富的知识,它们作为中医药理论与经验的载体,贯穿并指导着临床实践,其学术价值和实用价值经久不衰。因此对医案的合理开发利用是中医研究中一项必不可少的工
互联网的迅猛发展使得计算机技术在各个领域的应用有了突飞猛进的发展,尤其是在实时控制、信息处理、信息传输、技术支持等领域广泛应用更是体现了其快速发展的特性。计算机