中文信息过滤技术的研究与应用

来源 :辽宁科技大学 | 被引量 : 18次 | 上传用户：yaozhongli00

【摘要】

：

Internet的迅速发展在给人们的生活带来极大方便的同时，也带来了诸如“信息过载”“信息迷向”等问题，信息过滤技术应运而生。信息过滤就是根据用户的信息需求，在动态的信息流中

【作者】

：

李东林

【出处】

：

辽宁科技大学

【发表日期】

：

2006年01期

【关键词】

：

信息过滤文本过滤向量空间模型特征抽取用户模板相关反馈

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet的迅速发展在给人们的生活带来极大方便的同时，也带来了诸如“信息过载”“信息迷向”等问题，信息过滤技术应运而生。信息过滤就是根据用户的信息需求，在动态的信息流中搜索用户感兴趣的信息，屏蔽其它无用和不良的信息。本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值，随后综述了信息过滤的特点、模型，信息过滤系统的体系结构、分类、实现技术和评估方法。文本是当前Internet上信息最主要的表现形式，中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上，给出了一个基于向量空间模型的中文文本过滤的逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程，本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。用户信息需求是文本过滤的依据，本文探讨了获取用户信息需求的方式和方法，给出了向量空间模型下用户模板的表示方法，并对采用相关反馈技术进行用户模板的优化和更新策略进行了讨论。针对中文文本层次结构的特点，本文提出了一种基于N层向量空间模型中文文本过滤方法，实验表明该方法比传统向量空间法具有更好的过滤性能。在文本过滤中，查全率和查准率是一对矛盾。本文在引入了用户主题不相关配置文件和不相关阈值的基础上提出了一种两重过滤方法，并以此方法为基础设计并实现了一个基于N层向量空间模型的文本过滤系统，系统对流入文档进行两重过滤。实验证明，该方法提高了文本过滤性能。

其他文献

浅谈工贸企业有限空间作业安全风险管理与对策

工贸企业的生产作业往往是在一个有限的封闭或者半封闭的空间内进行生产加工的,这就要求工贸企业必须十分重视在有限空间内进行生产加工时有可能会发生的诸如火灾、中毒等一

期刊

工贸企业有限空间安全风险管理策略

影响600MW机组热经济因素的定量分析研究

应用汽轮机内效率、热耗率及等效热降方法对扬州第二发电厂2台600MW机组存在的问题进行计算和分析,论述这些问题对机组经济性的影响程度、产生的原因、改进的措施及处理结果.

期刊

600MW机组热经济定量分析汽轮发电机组thermal power unitsfactors affecting thermal ec onomicsq

火电厂入炉煤采样方式比较研究

为研究火电厂入炉煤粉与入炉原煤的代表性问题,对某电厂入炉原煤和煤粉同时进行采样,所得样品分别进行工业分析、发热量分析、元素分析及粒度分析等试验.利用成对t检验法对试

期刊

火电厂锅炉给煤机细粉分离器入炉煤采样方式coal-fired power Plantas-fired pulverized coal sampler

血战十字岭

今年5月25日是左权将军殉国60周年忌日。左权将军的女儿左太北同志曾于5月下旬亲赴十字岭祭奠,回京后,又将此文稿推荐我刊,现予以登载,以资纪念。

期刊

左权将军八路军杨立三

分散控制系统在火电厂电气自动化上的应用

结合桂林虹源发电有限公司新建2台火电机组采用分散控制系统(DCS)实现机炉电一体化控制的工程实践,介绍电气自动化系统纳入DCS的范围、DCS系统特点和功能实现情况及工程实施

期刊

火电厂分散控制系统电气自动化

基于支路暂态势能和两端电压识别临界机群的新方法

简便而准确地识别大扰动下的电力系统分群模式是电力系统动态安全分析方法如TEF、EEAC、Hybrid TEF和HybridEEAC等诸多动态安全评价方法中非常重要的问题之一.提出一种识别电

期刊

支路暂态势能电压识别临界机群电力系统暂态稳定性dynamic security assessment critical machinecritical

中文信息过滤技术的研究与应用

其他学术论文