藏文网页采集技术研究

来源 :第十一届全国民族语言文字信息学术研讨会 | 被引量 : 0次 | 上传用户:liongliong550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过分析目前存在的网页采集程序的构造模式,设计了的藏文网页采集模块TibetSpider.提出了采集的藏文网页在数据库中的存储模式和通过URL树的创建来构造相似网页集合的方法,为研究藏文网页信息抽取技术所用的藏文网页资源库的建立提供了工具.
其他文献
从语言分类看,朝鲜语和汉语是不同的语族。直接翻译方法通常带来质量低的结果。本文提出了在朝汉机器翻译上出现的转换的难点,并按照语言学的层次上分类和自然语言处理的观点
本文从语料的选取.加工、标注、应用等四方面,探讨了筹建一部藏英汉词汇对照语料库的设想和方法.重点介绍了语料库的选词标准、数据格式、译文的优先选择原则以及藏语源词条
本文在分析用藏文格助词进行句子分块的基础上,探讨了藏文切分的策略,并给出了一种基于格助词和词典库的切分算法.
1958年5月全国科联等科学机构,邀请一位广东的防治白蚁专家李始美同志来北京作报告,并举行一系列座谈会,引起广大科学界的注意,我以昆虫学工作者的一员,参与盛会,体会更较深
文章介绍了藏文古籍保护技术的定义,元数据的重要性,结合藏文古籍保护技术设计的实际情况,设计出了数字资源的元数据结构和基于元数据的检索系统.
由于信息处理技术突飞猛进的发展,藏义拉丁转写标准的确立显得十分迫切,但是目前存在的藏文拉丁转写方案仍不完善。本文叙述了藏文的历史和特点,阐明了藏文拉丁转写的必要性
根据广东省的地理条件和经济状况 ,选择了 5个农产品化学污染监测网点 ,分布于我省东南西北中。每年夏秋两季在监测点的主要农贸市场现场随机抽样检测 ,2 0 0 0年~ 2 0 0 2年
本文从藏文古籍保护技术体系结构的建设角度考察元数据方案,元数据方案在很大程度上决定了藏文古籍保护技术各类对象的数据结构,影响着数字资源的管理方式和构件模型。同时元
会议
藏文的版式规范为内容管理系统的实现带来了很多技术上的困难。本文依据信息处理用藏文文字特征,阐述了设计藏文内容管理系统的关键技术及其系统实现。
1 概述儿童性虐待 (childsexualabuse)是指成年人利用 16岁以下儿童获得性的满足 ,造成儿童明显的心理或精神创伤的现象。目前西方学者对性虐待的认识意见不一。Mrazek1980