名人网页的相关度评价

来源 :全国搜索引擎和网上信息挖掘学术讨论会 | 被引量 : 0次 | 上传用户：hudie8707180910

【摘要】

：

本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.

【作者】

：

昝红英郑州大学信息工程学院(河南郑州) 苏玉梅孙斌俞士汶

【机构】

：

北京大学计算语言学研究所(北京)

【出处】

：

全国搜索引擎和网上信息挖掘学术讨论会

【发表日期】

：

2003年3期

【关键词】

：

相关度检索服务信息提取特征信息名人网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

七号窑工程建设与投产达产情况汇报

七号窑工程于2000年4月立项,经过紧张的报批手续,于2000年8月4日举行了开工奠基典礼,9月2日正式破土动工,历经9个月27天的奋力拼搏,至2001年6月29日竣工点火,投料试生产,于9月18日顺利达产.七号窑工程为一条日产1500t熟料生产线及其配套项目,采用湿磨干烧工艺,年产P.0525R硅酸盐水泥49.5万t.工程项目总投资11626万元,实际总投资7882万元(八号磨待建),七号窑工程

会议

七号窑工程湿磨干烧工艺线水泥行业

交流变频器在回转窑控制方面的应用

在我国水泥行业中,回转窑是主要的大型设备,其调速系统的好坏,将直接影响回转窑的使用寿命、产品的产量和质量,该设备多年来一直沿用直流电机及其直流调速系统.水泥厂环境恶劣,粉尘大,直流电机长期工作在高热辐射的环境中,其碳刷、整流子损坏严重,这不仅需要大量的维修费用,而且对生产造成了极为严重的影响;回转窑属特殊负载,低速启动力矩大,在窑体大修烘炉期间,直流电机长时间低速运行,需要较大的励磁电流,致使低速

会议

水泥行业交流变频器回转窑

基于网页内容的网站地理位置信息提取

随着互联网的快速发展,对网上信息的研究方兴未艾.其中,自动建立网站网址和其拥有所属地的对应关系是一项特别有意义的工作.本文通过总结网页中地址信息的出现规律,给出了一些自动识别地理位置的规则.利用这些规则,可以很方便地识别一个中文网页的所在地.同时,这些规则在实践中是很容易被扩充和完善的.同时我们对应用这些规则而得到的结果进行了检验,得到了令人满意的覆盖率和正确率.

会议

网站地理位置信息提取关键字规则

多尺度网络时序数据挖掘

网络安全日志数据库是一种历史数据,对它的分析具有十分重要的实际价值.作为一种时序数据库,针对它的信息挖掘已研究出许多方法.本文提出了一种新的对此类时序数据库的信息挖掘方法,即将数据库中要分析的某一个属性序列首先进行信号化,信号化后的数据可以应用信号分析领域的处理方法对其进行分析和信息挖掘.为避免傅里叶变换在时域上无局部化能力的弱点,本文采用小波变换多分辨率分析的方法,对信号化后网络安全日志数据库中

会议

小波变换信号化网络安全日志数据库数据挖掘时序数据库

kNN与NB算法在中文网页分类上的比较研究

针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定的分类算法,kNN的分类质量受领域的影响不大.

会议

机器学习中文网页分类kNNNB评测数据集

Web文本检索中信息的分布特性与检索策略研究

本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综

会议

Web信息检索检索模型主特征空间分段检索链接文字URL网页分布

文本分类中一种基于词类间概率分布的特征选择算法

特征选择在文本自动分类中扮演了比较关键的角色,本文在词的类间概率分布基础上,使用分布函数的区分度和相似度,将噪声词的去除和保留词的聚类相结合,提出了一种新的文本特征选择算法,实验结果表明,该算法具有较好的性能效果.

会议

文本分类特征提取类间分布词聚类区分度相似度

一种基于信息表征的图像检索方法

随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.

会议

信息表征信息测度特征提取图像检索因特网

网页分类技术研究及系统实现

万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改

会议

网页分类网页表示特征提取贝叶斯算法SVM支持向量机

SLMBSVMs-KNN:一种新的网页分类算法

本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.

会议

支持向量机KNN分类器结构损失最小化网页分类

名人网页的相关度评价

与本文相关的学术论文