基于互联网多语种分布情况的研究与分析

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:qq68813172
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的普及,人们越来越习惯于通过互联网来获取和传播信息,同时,由于国际化的需要,越来越多的文档、网页采用多种语言的形式在互联网上传播。互联网是一个日益增长的重要信息源,也是一个潜在的巨大的多语种语料库,她呈现出多种多样的特征。这些特征有的比较容易获取,比如:通过统计注册IP地址获知注册主机数;但也有些特征比较难识别,只能通过取样和推断等来加以估计,比如:互联网上文本的多语种性特征。多语种现象成了互联网发展过程中的一个重要特点,研究互联网上多语种特征因此也成了近年来计算机领域的一个热门课题。本文描述的内容正是基于互联网上多语种分布情况的研究与分析。 文章首先分析了此次研究工作的背景;简要介绍了本文的研究内容、研究方案以及有关国内外的一些研究现状;概述了有关搜索引擎和信息检索的基本理论知识,为展开研究工作提供理论依据。 本文研究工作的重点是提出一种对互联网页语种进行自动识别的方法和实现对互联网上多语种分布情况的统计与分析。主要有三个方面的研究内容:一是针对各语种中不同文字被使用频率不同的特点给出高频字定义,并从大量已有的训练文本集中统计估算出各语种的前10个高频字及其使用频率;二是以各语种的前10个高频字作为
其他文献
本论文针对流程工业中进行远程实时监控的现实意义,设计了基于Web的远程实时监控系统。在整个监控系统的整体设计上,采用了DCOM分布式对象技术作为系统的基本构架,以实时数据
进行无纸化网络考试是计算机基础课教学改革的一项重要措施,而自动评卷是考试系统的关键。 为了缩短开发周期,采用面向对象程序设计方法,利用VB作为主要开发工具来完成课题的
现代互联网已经与人类生活非常紧密,人们在享用网络便利的同时,也面临着来自互联网上恶意程序传播所带来的安全隐患。而恶意程序行为分析正是安全研究人员关注的重点。  传统
本文概述了计算机应用的进展,特别是,基于计算机的数据获取与处理系统在核技术领域中的广泛应用,其中包括医疗、科研、工业、能源、国防、环保等方面的应用。计算机技术与核技术
现代战场上,精确制导武器发挥着重要作用,但是导弹发动机推进剂产生的羽烟会衰减微波、激光及红外等制导信号,影响导弹的跟踪和识别,减少导弹的命中精度,因此,推进剂配方及其
随着计算机技术的发展,嵌入式系统已成为计算机领域的一个重要组成部分,并成为近年来新兴的研究热点。本文以A R M 7 T D M I内核的高效、低功耗R I S C处理器--S3 C 4 4 B 0
视觉跟踪是计算机视觉中一个研究热点,它在很多领域都有应用,例如人机交互、安防监控、高级驾驶辅助系统等。基于检测的跟踪是视觉跟踪中的一个流行的框架,它利用机器学习中
课题来源于大庆油田测试技术服务分公司,主要任务是开发原油中转站计量系统,并以软测量技术为中心对提高原油含水率的估算准确度进行有关的理论和应用研究。软测量技术为工业
市民卡数据共享交换平台是北京市科委立项的项目,市民卡数据交换平台系统依托于北京市民卡工程,通过制定数据标准及数据交换标准,建立市民卡数据共享中心的数据交换系统,实现与劳
随着城市整体发展速度的不断加快,日趋紧张的交通问题给人们带来了巨大的效率,能源和生命上的损失。为了有效得改变现状,智能交通系统作为主要的解决方案开始受到各界关注,从而迅