基于大规模搜索日志的中文长句查询分析研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:LIU_XX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文利用大规模搜索日志对用户中文长句查询的情况进行了统计研究.通过分析搜索日志中的中文长句查询确定了经常发生的查询类型特点,并对用户搜索行为与查询长度、查询类型和查询频率的关系进行了研究.进一步了解了session中用户查询词修改情况,总结了用户查询修改方法和长度修改方面的特征和规律.最后,将不同长度的查询放到了三个商业搜索引擎中分别进行检索,计算其重叠率.通过以上的分析研究发现虽然目前大部分查询都是短查询,但短查询并不能满足用户所有的检索需求,特别是在搜索引擎向语义检索不断发展的今天,长句检索的分析和利用能够从更深层次上了解用户的查询用语特点和搜索点击行为,这对于查询技术的改进和语义空间的构建都具有积极的作用.
其他文献
为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX
针对传统优化方法提高径向基函数神经网络(RBFNN)分类能力存在的问题,提出一种基于合作型协同进化群体并行搜索的CO-RBFNN学习算法.该算法首先利用K-均值算法对最近邻方法确
研究了两类相关风险模型中生存概率φ(u)的问题,将其中一个风险由一个复合Poisson过程推广到了广义复合Poisson过程, 求出了索赔额分布为指数分布时生存概率的明确表达式,并
为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7
研究了噪声对动态局域的影响.发现当局域条件变得严格时,局域化的抗噪声能力并没有改变,这意味着在真实环境下,可以在较长的量子点链中取得满意的局域效果.因为长时间平均占
为了进一步探索胞元材料力学性能与材料拓扑构型的相关性,分析了不同二维和三维胞元材料的拓扑构型特征以及材料的模量与强度,得到了拉伸主导型和弯曲主导型胞元材料的力学性
提出了一种打击乐器--管钟的音高的计算方法.该方法以有限单元法为基础,通过计算管钟振动的各阶模态确定其定音频率.使用该方法研究了管钟音高特征与管长、管径和壁厚等几何
针对以对等模式协商的分布式实时多代理(Agent)系统,从设计和实现的角度出发,提出了一种通用对等协商实时Agent的控制结构,研究将本地环境的感知、基于消息的协作与协商、基
The need for AIDS vaccine has been emphasized by the increase of HIV-1 prevalence in sexual transmission which bridges the spreading of HIV-1 from high-risk pop
Heme oxygenase-1 (HO-1) system catabolizes heme into three products: carbon monoxide, biliverdin/bilirubin and free iron. It is involved in many physiological a