中文微博中的问题检测技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:alex_juve
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,社交媒体,如Twitter1, Facebook2,新浪微博3等,越来越融入现代人的生活,成为人们生活中的一部分。微博不仅仅是用来发布信息,很多时候也用来寻求帮助或寻找信息,越来越多的人会在微博上提问。人们在微博上提问一般基于两个原因:1.传统搜索引擎无法获取准确的答案;2.人们更倾向于从专家或朋友获取答案。本文专注于自动检测中文微博中的问题。首先,由于分词往往是中文文本处理的第一步,如果效果不好,会造成错误传播,影响最终的结果。所以考虑到中文微博中的未登录词比较多,本文提出基于字聚类特征的中文分词方法,能够较大幅度提高未登录词分词的准确率。其次,不同于英文,中文问题更具有多样性,一方面中文中疑问词很多,其次中文句式更复杂。本文提出了基于依存句法树模式的特征来检测问题微博,我们的方法能够很好地同时考虑词法和句法的信息。除了判断是否是问题,本文还会进一步判断问题是否是完备的,完备问题是指那些不需要确认其他信息,就能够给出答案的问题。本文随机选取两天的中文微博作为数据集,实验表明本文提出的方法对判断中文微博是否是问题是非常有效的。对比其他方法,该方法具有更好的效果。在判断问题完备性上,本文提出的方法比其他方法效果提高的更多,这说明我们的方法在判断复杂任务上更具有优势。
其他文献
随着计算机产业朝着分布式处理,并行处理,网络化和软件生产工程化方向发展,软件工程方法不断更新。自80年代以来,面向对象(Object-Oriented)技术蓬勃发展,成为最热门和最有前
随着无线网络技术的成熟以及无线设备性价比的提高,嵌入式设备的无线互联成为可能。通过无线网络连接嵌入式设备,进行信息传递、远程控制,将极大地提高企业效率,方便人们的生活。
信息系统风险评估是信息系统安全保障机制建立过程中的一种评价方法,是建立完整安全体系的一个重要环节,其结果为信息系统风险管理和决策提供依据,对提高信息系统安全防护能力,保
随着工农业生产发展的需要和人们生活质量的提高,气象条件的变化已越来越多地影响到人们的生产和生活而备受关注,能否及时、广泛、正确地提供气象预报、传递和普及气象知识,从而
在当今大数据时代的环境下,互联网上的数据量愈发庞大,且其增长速率还有着不断加快的趋势。高速增长的数据量催生了各种各样以数据为中心的应用,而这些应用在丰富了互联网用
该课题对嵌入式GUI的研制作了一定探索.首先,完成嵌入式GUI的需求分析和总体设计.通过研究应用领域,尤其是移动通信终端领域,来确定系统边界,明确系统责任;在总体上,从可裁减
随着IP网络及其关联技术的发展,Everything over IP已经不再是一句口号,而是不争的事实。从上世纪90年代VOIP的初步尝试,到今天视频会议、IPTV,甚至移动业务,无不已经或者即将具备
相对许多行业而言,信息处理技术正在飞速发展。随着计算机硬件技术的发展,软件技术也是日新月异。从目前的情况来看,电信企业已经建立了相对完善的OLTP(联机事务处理)系统。随着
随着下一代网络技术的发展,传统PSTN网络上的语音业务将逐步迁移到IP网络上。VoIP技术为基于IP网络的语音通信提供了强大而有效的手段,以该技术为基础的语音通信将成为下一代
本文为多智能体系统定义了一个称之为知识结构的逻辑框架,来进行智能体的知识推理.在知识推理过程中,使用”变量忘记”(VariableForgetting)来作为基本操作,并证明算法上可以用