论文部分内容阅读
随着计算机和互联网的普及,人们越来越习惯于通过互联网来获取和传播信息,同时,由于国际化的需要,越来越多的文档、网页采用多种语言的形式在互联网上传播。互联网是一个日益增长的重要信息源,也是一个潜在的巨大的多语种语料库,她呈现出多种多样的特征。这些特征有的比较容易获取,比如:通过统计注册IP地址获知注册主机数;但也有些特征比较难识别,只能通过取样和推断等来加以估计,比如:互联网上文本的多语种性特征。多语种现象成了互联网发展过程中的一个重要特点,研究互联网上多语种特征因此也成了近年来计算机领域的一个热门课题。本文描述的内容正是基于互联网上多语种分布情况的研究与分析。
文章首先分析了此次研究工作的背景;简要介绍了本文的研究内容、研究方案以及有关国内外的一些研究现状;概述了有关搜索引擎和信息检索的基本理论知识,为展开研究工作提供理论依据。
本文研究工作的重点是提出一种对互联网页语种进行自动识别的方法和实现对互联网上多语种分布情况的统计与分析。主要有三个方面的研究内容:一是针对各语种中不同文字被使用频率不同的特点给出高频字定义,并从大量已有的训练文本集中统计估算出各语种的前10个高频字及其使用频率;二是以各语种的前10个高频字作为