论文部分内容阅读
当下,我们处在互联网突飞猛进的大数据时代,网络资源的增长呈现爆炸式的状态,彝文网站也随之逐步发展起来,但是针对少数民族语言文字的搜索引擎的研究才刚处于起步阶段。就目前的国内外中英文搜索引擎研究现状来说,除了大部分用全文搜索技术实现对中英文网页的采集和搜索外,还包括垂直搜索和元搜索等。最主要的搜索还是全文搜索,如谷歌和百度等,但无法做到对少数民族语言文字(如彝文)的采集和搜索。因此本文需要在中英文成熟技术的基础上找到一种适合的网页采集和搜索引擎技术,网络爬虫是搜索引擎的基础和核心,主要有通用爬虫和主题爬虫,因此需要设计合理的爬虫来实现彝文网页的采集。 本文在研究中英文搜索引擎的基础上,分析当前彝文网站特性和彝文字特点,采用垂直搜索技术,并结合彝文主题爬虫,同时为了避免采集陷入循环,采用广度优先搜索策略对彝文网页进行采集,从而达到更好的彝文网页采集效果。 本文采用垂直搜索方法设计了适合彝文的搜索引擎架构,并开发一套彝文网页信息采集系统。本文首先以彝文网站首页为起始URL种子,对其实现单线程采集;其次设计基于彝文网页文本和链接特点的网页判别算法,并通过正则表达式解析相应的网页内容;然后在彝文文本保存中采用编码转换,做到彝文的文本存储;之后建立了汉—彝词库,结合词频统计创新性的研究了汉—彝词同时对应显示的理论算法;最后以彝文标题匹配方式进行检索,并达到了满意效果。 本文通过对彝文网页采集系统运行和测试,得到了转化率在80%以上,识别率都在95%以上,对彝文初探的研究中达到了理想结果。通过与目前已有的中文采集系统相比,本系统的优势在于它提高了采集效率,并为彝文网页采集提供了新思路,具有很好的实用性。