论文部分内容阅读
全过程计算机辅助动画自动生成技术由中科院陆汝钤院士于上世纪90年代提出,该技术是将故事以受限语言的方式输入计算机,并在计算机的辅助下完成从开始到动画最终生成的每一步。2008年,中科院张松懋研究员又提出在手机短信上应用动画自动生成技术的想法,设计并实现了手机3D动画自动生成系统,该系统旨在根据发送者的短信自动生成与短信内容相符的动画,并将结果发送给接收者。根据短信生成动画,首先要对短信内容进行信息抽取。该步骤能否提取关键信息,对系统能否生成符合短信内容的动画有直接的影响。系统目前主要采用基于规则的方法进行信息抽取,该方法正确率高,但覆盖面窄。为了弥补基于规则方法的不足,系统亦采用了机器学习的方法,针对系统动画可展现的内容,主要解决了信息抽取模块的两方面问题:短信情感分类和主题分类。这种方法虽然提高了覆盖面,却降低了正确率。经统计,从2014年3月至2014年5月,系统测试短信共计280条,其中短信情感分类正确的有109条,短信主题分类正确的有162条,两者的正确率分别为39%、58%,没有达到实用的目标。鉴于目前情感分类和主题分类均采用的是单分类器方法,所以考虑将多个分类器集成在一起来提高正确率。本文的主要工作包括以下两部分:第一,设计并实现了中文短信情感分类异态集成系统。该系统用于分析短信中的情感倾向并加以分类,为后续动画情节规划提供情感元素,主要分为两个步骤:一是主客观短信分类,以NB、SVM、KNN和C4.5作为基础分类器,选取不同的组合进行集成;二是主观短信的喜、怒、哀、惧多标记情感分类,以RAKEL、CC、MLKNN和BRKNN作为基础分类器,选取不同的组合进行集成。第二,设计并实现了中文短信主题分类异态集成系统。该系统用于分析短信所要表达的主题,以指导后续动画情节的规划,以NB、SVM、KNN和C4.5作为基础分类器,选取不同的组合进行集成。通过运用11种组合方式,进行了9600条短信的情感分类实验和17035条短信的主题分类实验。实验表明:相对于采用单一的分类器,异态集成在分类效果上有明显提高。其中情感分类中,由RAKEL、MLKNN和BRKNN集成的效果最好,正确率最高可达63%,相对于原来的版本提高了24个百分点;主题分类中,由SVM、KNN和C4.5集成的效果最好,正确率最高可达89%,相对于原来的版本提高了31个百分点。两部分都达到了实用的目标,并已应用到手机动画系统中。本文的工作使得手机动画系统能够同时使用基于规则和机器学习的方法,来互补地进行信息抽取。这两种互补的方法极大地提高了短信抽取的覆盖面和正确率,使得最终生成的动画更能符合短信内容。我们进一步的工作包括:在多标记分类实验的训练语料中增添更多的多标记语料、尝试更多的分类算法、采用更多的异态集成方法。