【摘 要】
:
根据艾瑞iUserTracker监测数据显示,2017年1月PC端网站类别中,搜索引擎类稳居月度覆盖人数榜首位置,占比为98.4%。可见,虽然如今互联网呈现出爆炸式、多元式的增长,搜索引擎
论文部分内容阅读
根据艾瑞iUserTracker监测数据显示,2017年1月PC端网站类别中,搜索引擎类稳居月度覆盖人数榜首位置,占比为98.4%。可见,虽然如今互联网呈现出爆炸式、多元式的增长,搜索引擎作为第一大流量入口的地位仍不可动摇,值得人们投入更多的关注。然而,搜索引擎多存在领域漂移的问题。所谓领域漂移,即指网页内容与查询关键词领域无关的现象,严重影响了用户的使用。文本数据是在网络这个庞大的信息库中占信息比重最大的,且多数用户使用搜索引擎时都是根据关键字进行搜索。基于此,本文对网页文本信息进行深入挖掘,结合文本分类相关技术,为解决领域漂移及相关改进算法需要人工建立领域向量的问题,提出了基于文本分类的网页搜索排序算法。论文主要工作如下:(1)本文研究了基于堆叠自编码器的文本分类方法。该方法通过堆叠自编码器的降维建模,解决了传统机器学习方法在处理文本问题时会出现的维数灾难问题。实验结果表明,该方法减少了原始数据的维度,提取出了更高阶的特征,获得了更高的分类准确率;(2)本文提出了基于文本分类的网页搜索排序算法。该算法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练softmax回归分类模型,训练好的模型用来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果表明,该检索算法无需人工建立领域向量,即可达到较好的网页排序结果。
其他文献
目的探讨心肺联合超声与脉搏指数连续心输出量(PICCO)监测在心力衰竭(HF)患者体液管理中的应用。方法采用前瞻性自身对照研究方法。选取2018年3~10月入住新疆维吾尔自治区人
全美幼儿教育协会根据准幼儿教师的不同学历、不同水平,制定出了全国统一的核心标准和三套层次化的培养标准,指明了幼儿教师的培养方向,提高了幼儿教师的入职起点,为幼儿教师
介绍了SMT工艺中最常见的一种BGA焊接不良的原因分析。以一款客诉PCB BGA焊接不良为例对其产生的原因进行分析和讲解,最终寻找到导致该款PCB BGA焊接不良的真正原因,并针对焊
<正>随着今年以来建设体育强国、发展体育产业的各项利好政策密集发布,我国体育产业将开启新一轮的爆发增长期。为顺应体育市场潮流发展,深挖年轻消费潜力,由中国纺织工业联
依托中国电影市场的蓬勃发展,个性化电影推荐系统需求也应运而生,构建更为精准的个性化电影推荐系统越来越重要。为了克服传统推荐算法的局限性,本文尝试使用神经网络技术,开
21世纪以来,全球经济向服务经济转型的趋势愈加明显,随着工业服务化逐渐模糊了生产和服务的界限,实施服务创新有助于产业调整,丰富产业价值链,实现产业优化升级。国家从战略新兴产业角度肯定了建筑业产品应属于“伴随有形实物的服务”,肯定了其服务属性。对于建筑业企业而言,怎样提高服务创新能力在产业变革中得以生存成为关键的现实问题。在如今信息时代下,改造提升传统产业,进行建筑业转型升级,要着力推动建筑业企业信
目的:建立酒龙胆质量标准,有效控制酒龙胆的质量,确保临床用药安全有效;通过比较龙胆酒制前后在大鼠体内组织分布情况,来探讨酒龙胆的性味归经,为进一步临床应用提供理论依据。方法:采用HPLC法测定酒龙胆中龙胆苦苷含量;建立一测多评法测定酒龙胆中3种环烯醚萜类成分含量;用紫外分光光度法测定酒龙胆总黄酮的含量测定;采用LC-MC法测定龙胆生品/酒龙胆水煎液中龙胆苦苷在大鼠体内的组织分布;CCK-8法测定酒
目的:分析快速康复在胃肠外科围手术期护理的方法及效果。方法:选取普宁市华侨医院体2016年6月至2017年6月收治的96例拟行手术治疗患者作为研究对象,将其随机分为干预组和对
协同过滤能够根据个人先前的行为数据信息,准确预测个人将来所需的数据。随着计算机科学技术的普及和应用,在互联网中产生了大规模的数据,给人们的选择带来了极大的困难。因此,研究协同过滤推荐具有理论意义和应用价值。本文在详细分析协同过滤推荐现存问题的基础上,针对稀疏数据问题进行研究,主要工作包括:第一,针对数据稀疏环境下相似性判断策略失效的问题,本文提出基于用户评分偏好的策略。首先,分析用户间评分值信任关
近年来,一些不法分子利用特殊人群进行毒品犯罪获取巨额利润的行为已经成为毒品犯罪领域中又一新特点。涉毒特殊人群在公安司法实践中主要是指参与吸贩毒违法犯罪活动的“两怀”(怀孕妇女或者怀抱婴儿妇女)妇女、艾滋病、肝病等严重传染性疾病患者以及肾病、癌症等其他高危疾病患者或者身患残疾等特殊人群。政府在治理涉毒特殊人群过程中面临着诸多困难,这些困难也是全国各地治理该类问题普遍存在的。主要体现在三个方面:首先法