论文部分内容阅读
各研究领域内的名词和标准术语之间的相似度计算,是开展各个专业领域内的数据挖掘、自然语言处理的前提和基础。Web-PMI是一种基于搜索引擎的命中数计算术语相似度的算法,利用搜索引擎对术语检索的返回命中数就可以对术语对的相似性进行量化地计算。但基于大型的通用搜索引擎对特定的领域限定术语检索命中数不足,这往往对术语的相似度计算造成影响,本文旨在通过建立交通主题的垂直搜索引擎系统,提高术语检索命中效果,从而提高术语相似度的计算精度目的。论文首先研究并实现了基于交通主题的垂直搜索引擎的构建。其主要工作是在交通领域内对包含交通术语的网页进行抓取,论文在开源爬虫程序Heritrix项目的架构下自主开发了交通主题的网页抓取程序,实现了交通主题限定的网页抓取。其次完成了对抓取的网页信息进行格式解析,过滤掉网页中的冗余信息,构建了检索系统的索引库。本文建立的索引库是在开源Lucene条件下编写索引程序,对解析后的交通主题网页建立有序的索引,并能实现交通术语在索引库中的全文检索,检索后返回术语在索引库中具体的命中数值。最后利用Web-PMI算法进行交通标准术语的相似度计算的实验,在算法中重新构造了基于交通术语的检索式,加入检索运算符,减少检索结果中的歧义发生,提高检索结果的领域相关度,提升算法效果。对实验结果进行分析,改进后检索式提升了术语的检索命中数,消除了一定的术语偶然共现情况对术语相似度计算的效果影响。本文提出的方法,在“交通信息一致性检测研究”项目中进行了应用,应用结果证明,基于本文建立的交通垂直主题的搜索引擎系统,对交通领域内的生僻术语进行相似度计算时能起到很好效果,较商业搜索引擎Alta Vista的计算准确率也略高。本文提出的方法也同样适用于其他专业领域内术语相似度计算,同时也可对术语标准化、识别同义词与近义词、语义检索、术语标准类比检测等方面的工作进行有效地支持。