面向对话语料的标签推荐

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:Tianjun9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛增长,人们希望海量文本能被标记上合适的词标签,即用一个或几个词对文本内容进行描述,这样可以极大地加快人们的浏览速度。而且,好的标签对于提高文本分类、信息检索等自然语言处理任务的性能也具有极大的帮助。因此,出现了不少自动生成文本标签(标签推荐)的研究。与此同时,即时聊天、twitter、微博等各种方式的社会化网络迅猛增长,人们基于这些工具表达和交流他们的观点,这类数据与已有的网页文本有很大的差异,比如都具有一定的对话的特点、通常文本较短、结构松散(经常会有多人参与从而成为多方对话)。这些特点使得其标签的遴选存在更多的困难。目前直接针对这类文本的标签推荐研究还很少见,针对一般网页文本的标签推荐方法能否在这类数据上具有良好的性能仍然未知。本文关注于这类具有多方对话特性的短文本,就标签推荐、关联词挖掘及对话特点做了深入的研究,并提出了一种自动标签推荐方法。该方法首先在基于多项加权的框架下进行关键词抽取;再根据预先定义的POS模板序列进行过滤得到高频二元关键词;然后使用Apriori算法从大规模文本语料中挖掘出关联规则进行社会化标签拓展。最终,在同一度量标准下,从关键词、二元关键词和社会化标签中推荐top-n的标签。为此,本文的主要研究内容如下:1)对本文要处理的对话数据对象的关键特点进行了详细的分析。主要从对话格式、话语方式、话语风格、话语范围和话轮转换五个方面进行了阐述;2)针对对话数据的特点,在关键词抽取的研究中考虑对话者特征,并结合频率权重、句子权重以及位置权重,提出了基于多项加权的关键词抽取方法。进而根据预定义的POS模板序列进行过滤得到了二元关键词,在两类不同数据的比较评测实验中都表明了其有效性;3)将典型的关联规则挖掘算法-Apriori算法用于社会化标签拓展中,实验结果表明了其有效性;
其他文献
随着互联网的不断发展和革新,传统互联网本身的系统结构局限性产生了越来越多的问题,网络规模指数级增长、多宿主、流量工程、服务提供商的独立性等需求导致了路由可扩展问题
随着民用航空业的迅速发展,这对机场管理的各个方面都提出了新的要求,如不同航站楼生产管理系统信息的交互,不同的体系结构的融合,信息更新频率的设定等。互异分布式系统消息
目前,我国的电信行业已经进入了全业务运营的实施阶段。各电信企业在完成业务的重组,建立新的竞争优势的同时,更把目光投向未来,瞄准了一些发展潜力巨大的战略性新兴市场。在