【摘 要】
:
随着互联网的飞速发展,越来越多的人使用网络获取信息。信息也因此变得多元化,来源也日渐丰富,如何在浩如烟海的网络资源中,快速而又准确地找到信息满足不同用户的需求,搜索引擎在
论文部分内容阅读
随着互联网的飞速发展,越来越多的人使用网络获取信息。信息也因此变得多元化,来源也日渐丰富,如何在浩如烟海的网络资源中,快速而又准确地找到信息满足不同用户的需求,搜索引擎在解决这一问题中起到至关重要的作用,但矛盾也日益凸显,尤其表现在支持中文分词的搜索引擎中:网络信息的多样化使中文词变得日益丰富,出现了大量了网络用语,如何做好中文分词技术以满足用户的中文搜索需求,在理论研究上和实际运用中都有待进一步完善。在大数据的网络时代背景下,本文首先从认知的角度简单概括了搜索引擎,然后又从理论技术层面系统地综合分析了搜索引擎,力求对搜索引擎全面的理解。本文重点从中文分词技术方面开展详细地研究工作,对中文分词在搜索引擎中的重要作用、中文分词技术的结果评价、中文分词的难点以及算法等方面的进行论述。在搜索引擎开源项目上,通过对比,选择了对本文研究重点更具有实际意义的Nutch搜索引擎系统,全面分析了Nutch搜索引擎的理论原理,并搭建开发环境在技术上实现了Nutch搜索引擎。最后通过进一步分析Nutch搜索引擎自带的中文分词和插件体系结构,对Nutch搜索引擎中文分词中的单词切分法、二元切分法和词典分词法进行了测试实验和中文分词效果比较,利用Nutch系统插件体系结构对Nutch搜索引擎进行了二次开发,对比测试了Nutch搜索引擎中文分词改进前后的效果区别。本文在理论上分析了搜索引擎技术,以Nutch搜索引擎为实例,从中文分词算法的技术角度改进Nutch搜索引擎,实现并比较了改进前后的中文分词效果,具有一定的理论和现实意义。
其他文献
逆瑞利分布在寿命试验与可靠性研究中发挥着重要而广泛的作用,目前,基于该分布的统计推断问题也处于不断的完善和发展中. 在统计推断理论中,贝叶斯分析是其重要内容之一,
该论文的主要内容是关于无约束全局最优化问题的研究.研究人员无约束全局优化问题影响算法策略选取的特征进行了分析,在此基础上对无约束全局优化问题进行了分类,同时指出了
理想收敛是统计收敛理论中重要的研究内容,本文的主要内容是研究理想I可加性(additive property,缩写为AP)的等价刻画、I-A-统计收敛的刻画以及B(W,S)上算子的分解. Kosty
多维双曲守恒律问题是目前计算流体力学领域的重要研究内容之一。求解双曲守恒律方程的熵稳定数值格式具有较强的物理背景,能够有效地避免一些非物理现象的产生。本文详细研究
该文的主要内容有以下几个方面:利用张鸿庆教授提出的AC=BD法求解了一些偏微分方程的解析解,并对此方法作了一些改进,利用Mathematica软件编写此方法求解偏微分方程的程序,使
波动方程声速的反演传统解法是依据散射和逆散理论,在一维空间该问题已经有了许多成功的结果,但是在高维的情况许多理论和算法还有待去研究,和传统方法不同的是我们根据解的
近年来,逆问题已成为数学规划领域中一个非常重要的研究方向。研究二次规划问题的逆问题及其求解方法具有广泛的应用价值。针对一类二次规划逆问题的决策变量数目多,为了降低问
该文基于波前法,提出了一种针对三维Trimmed参曲面的有限元网格剖分方法:首先根据曲面边界线的曲率离散曲面参数域的边界曲线,然后引入曲面上的曲率参数并定义结点密度函数,
本文的研究主要隶属于经典的 Brunn-Minkowski理论和 Lp-Brunn-Minkowski理论范畴.主要利用Lp-Brunn-Minkowski理论和泛函分析、实分析、积分变换等中的相关知识,对 Lp-空间