文本过滤关键技术研究

被引量 : 63次 | 上传用户:wuheman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和存贮技术的提高,计算机可读的文本信息也越来越多。而对于特定的用户而言,所需要的信息往往只占其中极小的一部分。大规模的可用网络资源和特定用户对特定的信息的需求使得大规模文本信息处理软件成为信息用户的迫切需求。而要从大规模的网络信息中抽取有用的信息资源,对信息处理的智能性、速度和精度都将提出极为严格的要求。文本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信息资源。 论文的工作主要集中在文本过滤尤其是自适应文本过滤中的关键技术上,设计并实现了大规模文本过滤的实验平台,参加了两届国际文本检索会议(TREC10、TREC11)并取得了好成绩。以此为基础,我们实现了多个实用系统,包括中文文本过滤系统、因特网话题信息检索系统等均达到了非常好的效果。 在文本表示方面,我们用向量空间模型来表示文本,以词汇、概念、术语等作为向量空间模型的特征项,并根据文本中的统计信息来计算项的权重。我们尝试将WordNet应用到英文过滤系统中,使用其中的语义信息,并对消歧进行了研究;对中文系统,我们设计开发了HowNet接口并首次将其应用到中文过滤系统中,在中文过滤系统中使用HowNet概念信息使得向量维数得到大幅削减并提高了系统性能。 自适应文本过滤中的机器学习方法包括模板学习和阈值学习。我们对自适应文本过滤中的阈值调整进行了深入的研究,并在TREC10中提出了一种全新的阈值调整学习算法,该算法能使用极少的正例对自适应过滤中阈值进行快速、有效的调整。 在主题描述信息的处理方面,我们在TREC11中针对用户描述信息提出了新颖的使用winnow分类器的算法,对用户描述信息中的词汇构造winnow分类器辅助自适应过滤使得系统性能得到大幅度的提高。
其他文献
伴随着文化传统、认知方式、民族意识、价值取向与交往环境的冲突,少数民族大学生的心理辅导具有发展性辅导的内在本质和要求,需要顺应民族特有的心理动力定型结构,遵循“消极到
<正>1研究目的教育部在新制定的《全国普通高等学校体育课程指导纲要》中提出,将体育课程从以往增强学生体质、传授运动知识的目标,扩展到促进学生心理健康、提高社会适应能
会议
物理概念是对物理现象及过程特征属性的概括和描述,是物理思维的基本形式。物理概念既是物理学的基础,又是物理学的重要组成部分。中学物理概念教学是中学物理教学的重要组成部
本文在大量市场调查和实践基础上,对美国WMGD公司在华的经营现状和营销方式进行了全面分析,并运用了环境分析、五种竞争力分析等先进的市场营销理论,提出了项目化管理营销的思路
目的探讨胆道镜下体内冲击波碎石治疗术后肝胆管残石的疗效与安全性。方法总结2005年4月至2008年3月间采用胆道镜下体内冲击波碎石治疗胆道术后残石患者48例(观察组)资料,同
目的 探讨肝胆管结石术后残留结石的相关因素,及等离子冲击波对肝胆管残留结石的应用效果.方法 回顾性分析60 例肝胆管残留结石患者各项临床资料,总结其结石残留相关因素;考
目的探讨HIV/AIDS患者外周血T淋巴细胞亚群与血清HIV RNA病毒载量的相关性。方法选取2017年1月-2018年6月在杭州市西溪医院就诊的艾滋病感染者40例以及AIDS患者32例,在未经抗
“细胞”一词最早见于日本宇田川榕菴的《植学啟原》(1834),但据沈国威研究,《植学啟原》中的“细胞”是指小胞,非cell.真正用来指cell的“细胞”始见于韦廉臣和李善兰合译的《
随着我国国民经济的快速发展,对交通运输的的需求在不断增加,公路建设随之得到了迅猛的发展。在行车荷载和自然因素等多重作用下,公路基础设施各方面的性能会发生改变,特别是
高压水射流辅助掘进机截割,能够大大提高掘进机的掘进能力。本设计探索了加入高压水射流辅助截割系统后,掘进机水系统的设计方法。以EBZ75型掘进机为例,对于水路的管路布置、水