基于字分析单元的辅助阅读系统

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:LOVER1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一个基于字分析单元的辅助阅读和学习系统.该系统是为汉语学习者提供即时的辅助翻译和学习功能.在汉语网页中,该系统首先对所有的文本进行分词处理,并进行新词发现,然后对于常用词通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例.对于通用词典未收录的新词(例如:专业术语、专有名词、词组和固定短语),系统提出基于语义预测和反馈学习的方法在Web上挖掘出地道的译文.该系统关键技术包括:基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统.实验表明该系统在各方面都具有良好的性能.
其他文献
运用正交试验方案研究了60Coγ射线不同辐照剂量对茶树菇贮藏过程中的开伞率、PPO活性及体现茶树菇品质的主要成分粗纤维和VC质量分数的影响.结果表明,茶树菇采用60Coγ射线辐照处理有助于抑制贮藏过程PPO活性,但会诱发引起茶树菇膜脂过氧化.采用适宜剂量(0.8kGy)辐照并结合低温贮藏,可有效抑制各种生理代谢活动,延缓其衰老进程.采用指数方程拟合的不同辐照剂量的茶树菇VC质量分数随贮藏时间变化的
本文介绍了厦门某食品公司的高温冷藏库改造成气调库的工艺设计实例.对高温库改造成气调冷库和直接建造气调库的异同进行分析比较.在对该具体实例进行设计调研和费用计算基础上,对一般高温库改造为气调库的典型问题,包括库房结构,制冷设备、气调系统选择和气调方式确定等进行了分析探讨.提出了高温库改造为气调库时注意的问题,对于非大宗短期贮藏、多品种、多批量的情况,柔性气调库方式的经济效益尤其明显,建议推广应用.
当真空预冷设备结构一定时,预冷工艺过程主要由预冷果蔬品种及装载率决定.通过分析预冷过程中槽内压力的动态变化过程,讨论了质交换系数及装载率对槽内压力影响.在此基础上,进行了白菜、生菜及蘑菇的真空预冷实验,装载率分别为53.6%、3.76%、11.2%和20.5%.实验结果表明装载率较大时,槽内压力能保持在一个较高的值,从而防止预冷果蔬表面结冰现象;对于质传递系数较大的果蔬,装载率可以低一些,从而可以
本文对冷库氨压缩机房氨气浓度自动测量装置的漏氨报警浓度值、报警与联动控制等内容进行了探讨,以进一步提高冷库安全生产水平。
在历时20年的自然语言处理与计算语言学的研究历程中,笔者注意到,中文信息处理学界尚未涉及自然语言中最美、最富想象力的文学语言.自然语言处理的最高境界是自然语言理解,而文学语言对自然语言理解研究会提出严重的挑战.笔者从几年前开始对于隐喻给予了较多的关注.隐喻作为一种修辞手段,可以归于文学语言的范畴,但从认知语言学角度观察,隐喻无处不在,因此它又不限于文学语言的范畴.隐喻以及其他类型的文学语言与人们日
在这篇论文中,我们为联机手写识别提出了一种新的特征提取算法,它是针对我们以前用8-方向特征的工作[2]一种改进方案.这个新方法和老方法关键一点不同在于,在新方法中,非线性变化后的联机手写字符轨迹上每个特征点上的方向并不是由它本身决定的,而是通过找到非线性变化前后轨迹之间的对应关系后,最终轨迹的方向取了非线性变化前的方向.这点改进带来了约10%的错误减少率.我们的新方法不仅指出了前人在提出非线性归一
本文中,对富士通中文语音合成系统尤其是韵律实现进行了描述.该系统是一个以音节为基本合成单元,在韵律参数预测即音长和基频的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系统.从提高合成语音韵律的角度出发,本文围绕音库建设、韵律结构分析、音长预测、基频预测等方面对该系统进行了详细的描述.最后,给出了韵律评测和系统评测的结果.
本文通过对知识管理和机器翻译相关技术的对比分析,提出了以翻译知识库的构建为核心,以翻译知识的采集积累、加工处理和共享应用为手段,构建开放、动态的机器翻译系统的新思路.通过翻译知识的网络化采集、自动化积累和多策略的共享应用,改善翻译系统对知识的获取能力和应用能力,从而提高机器翻译系统的智能性和实用性.
针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL.该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型.在更新话题模型的过程中,尝试确定性和不确定性相结合的方式作为样本选择标准.通过在TDT4的中文语料上测试,实验结果显示,采用基于主动学习的自适应技术,话题追踪的性能有所提高.
随着互联网(World Wide Web,简称Web)的发展,我们处在一个搜索无处不在的时代.据不完全统计,在互联网和企业内部,以网页、邮件、格式化文档、音视频文件为主的非结构化数据占其全部数据的80%以上.以搜索引擎为代表的互联网公众信息服务正成为新一轮网络圈地运动的生力军,以垂直搜索、企业内部搜索、桌面搜索、文本信息挖掘与融合等为代表的个性化检索技术已经成为企业智能和内容管理不可或缺的重要组成