论文部分内容阅读
命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质,识别难度大于英文。本文从数据源的角度出发,针对各种不同数据源的特点,分别进行了中文命名实体识别研究,并实验总结了较为适合的识别方法。 对条件随机场相关理论进行了研究,分别对人名、地名和组织机构名提取了相关特征,训练了条件随机场命名实体识别模型。研究并实现了自动模板抽取的命名实体识别方法,对模板识别、模板匹配等过程,提出了效率较高的算法;对于实体过滤,提出了过滤规则与贝叶斯分类器结合的方法。 长文本包括新闻类文本和机构类网站两大类数据源,本文采用了以上两种识别方法,分别对两种数据源进行了研究。研究表明,新闻类文本采用条件随机场能达到较好的识别效果,而机构类网站则更加适合采用自动模板抽取进行识别。 以微博为代表,对短文本数据源进行了实体识别研究和实现。提出了以条件随机场为基础,辅以规则过滤、微博结构分析及用自动模板抽取进行结果提升的命名实体识别方法,达到了较好的识别效果。