中文信息过滤技术的研究与应用

来源 :辽宁科技大学 | 被引量 : 18次 | 上传用户:yaozhongli00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅速发展在给人们的生活带来极大方便的同时,也带来了诸如“信息过载”“信息迷向”等问题,信息过滤技术应运而生。信息过滤就是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。 本文首先介绍了信息过滤技术的提出背景、发展历史、研究现状和应用价值,随后综述了信息过滤的特点、模型,信息过滤系统的体系结构、分类、实现技术和评估方法。 文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型研究的基础上,给出了一个基于向量空间模型的中文文本过滤的逻辑模型。 中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需要经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于位置加权的特征项权重计算方法。 用户信息需求是文本过滤的依据,本文探讨了获取用户信息需求的方式和方法,给出了向量空间模型下用户模板的表示方法,并对采用相关反馈技术进行用户模板的优化和更新策略进行了讨论。 针对中文文本层次结构的特点,本文提出了一种基于N层向量空间模型中文文本过滤方法,实验表明该方法比传统向量空间法具有更好的过滤性能。 在文本过滤中,查全率和查准率是一对矛盾。本文在引入了用户主题不相关配置文件和不相关阈值的基础上提出了一种两重过滤方法,并以此方法为基础设计并实现了一个基于N层向量空间模型的文本过滤系统,系统对流入文档进行两重过滤。实验证明,该方法提高了文本过滤性能。
其他文献
工贸企业的生产作业往往是在一个有限的封闭或者半封闭的空间内进行生产加工的,这就要求工贸企业必须十分重视在有限空间内进行生产加工时有可能会发生的诸如火灾、中毒等一
“我们要把滨州打造成‘中国家纺之都’.2010年实现销售收入2043亿元。”8月18日,山东省滨州市纺织工业协会副会长张建新如此描绘滨州纺织业的未来。按照这个目标.滨州人在未来
应用汽轮机内效率、热耗率及等效热降方法对扬州第二发电厂2台600MW机组存在的问题进行计算和分析,论述这些问题对机组经济性的影响程度、产生的原因、改进的措施及处理结果.
为研究火电厂入炉煤粉与入炉原煤的代表性问题,对某电厂入炉原煤和煤粉同时进行采样,所得样品分别进行工业分析、发热量分析、元素分析及粒度分析等试验.利用成对t检验法对试
今年5月25日是左权将军殉国60周年忌日。左权将军的女儿左太北同志曾于5月下旬亲赴十字岭祭奠,回京后,又将此文稿推荐我刊,现予以登载,以资纪念。
中国自来水笔产量已居世界第一位, 而自来水笔的外观和内在质量与国际先进水平相比较仍有一定差距.究其原因,是结构设计的理论的不足还是工艺技术水准的落后?从1958年开始,经
结合桂林虹源发电有限公司新建2台火电机组采用分散控制系统(DCS)实现机炉电一体化控制的工程实践,介绍电气自动化系统纳入DCS的范围、DCS系统特点和功能实现情况及工程实施
“第一时间,我在!”伴随中国国际应急医疗队(上海)宣传片发出的庄严承诺,5月27日下午,国际医学创新合作论坛(中国——上海合作组织)公共安全与应急救援分论坛在防城港市召开
简便而准确地识别大扰动下的电力系统分群模式是电力系统动态安全分析方法如TEF、EEAC、Hybrid TEF和HybridEEAC等诸多动态安全评价方法中非常重要的问题之一.提出一种识别电
泰国提出了12项旨在降低能源消耗的新规则,有关方面计划将该节能方案提交给内阁会议批准。