彝文搜索引擎中网页信息采集技术研究

来源 :云南民族大学 | 被引量 : 0次 | 上传用户:ig226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,我们处在互联网突飞猛进的大数据时代,网络资源的增长呈现爆炸式的状态,彝文网站也随之逐步发展起来,但是针对少数民族语言文字的搜索引擎的研究才刚处于起步阶段。就目前的国内外中英文搜索引擎研究现状来说,除了大部分用全文搜索技术实现对中英文网页的采集和搜索外,还包括垂直搜索和元搜索等。最主要的搜索还是全文搜索,如谷歌和百度等,但无法做到对少数民族语言文字(如彝文)的采集和搜索。因此本文需要在中英文成熟技术的基础上找到一种适合的网页采集和搜索引擎技术,网络爬虫是搜索引擎的基础和核心,主要有通用爬虫和主题爬虫,因此需要设计合理的爬虫来实现彝文网页的采集。  本文在研究中英文搜索引擎的基础上,分析当前彝文网站特性和彝文字特点,采用垂直搜索技术,并结合彝文主题爬虫,同时为了避免采集陷入循环,采用广度优先搜索策略对彝文网页进行采集,从而达到更好的彝文网页采集效果。  本文采用垂直搜索方法设计了适合彝文的搜索引擎架构,并开发一套彝文网页信息采集系统。本文首先以彝文网站首页为起始URL种子,对其实现单线程采集;其次设计基于彝文网页文本和链接特点的网页判别算法,并通过正则表达式解析相应的网页内容;然后在彝文文本保存中采用编码转换,做到彝文的文本存储;之后建立了汉—彝词库,结合词频统计创新性的研究了汉—彝词同时对应显示的理论算法;最后以彝文标题匹配方式进行检索,并达到了满意效果。  本文通过对彝文网页采集系统运行和测试,得到了转化率在80%以上,识别率都在95%以上,对彝文初探的研究中达到了理想结果。通过与目前已有的中文采集系统相比,本系统的优势在于它提高了采集效率,并为彝文网页采集提供了新思路,具有很好的实用性。
其他文献
对全片层γ-TiAl(Ti-47.5Al-2.5V-1.0Cr)合金进行了在不同表面粗糙度和不同温度条件下的抗弯性能测试,总结了表面粗糙度值和环境温度对该合金抗弯强度的影响规律,室温环境下
The Liangzhu civilization is an important archaeological culture in the Yangtze delta, China. It is highly developed but discontinued. This essay provides a bri
目前的小学美术学习还都是处于小学教学的边缘化,很多美术教学内容的缺失,都是造成学生美术学习动手能力也不足的重要重要原因,因此对于小学美术教学中的问题分析解决是非常
期刊
TBM在掘进过程中振动剧烈,经常导致主机系统关键部件失效.针对TBM在掘进过程中振动剧烈问题,提出一种基于磁流变原理的TBM主机系统抗振方案.首先基于ADAMS多刚体动力学仿真平
不断增长的频谱需求和有限的频谱资源之间的矛盾越来越成为限制无线通信发展的首要因素。认知无线电技术作为解决这一矛盾的方法之一,它具有感知周边频谱环境和自适应频谱环
在小学阶段的教学过程中童话是必不可少的一个教学内容,同时也比较容易激发学生的想象力.所以,教师在对学生开展童话阅读教学的时候不能只是单纯地在意学生是不是学会了这一
期刊