一种基于新词发现的Web文本表示方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:gongshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。
其他文献
进行二外日语教学,需要教师激发学生的积极情感,利用场面会话活跃课堂氛围,并注意教学方式的灵活多样化。
全球环境变化和生物多样性丧失的背景下,生物多样性与生态系统功能成为研究热点。而生产力作为重要的生态系统功能之一,其研究也备受关注。其中,内蒙古天然草原具有重要的生态价值、经济价值和文化价值。但近年来由于气候变化和人为干扰,生物多样性和生产力降低,退化面积不断增加,威胁我国北方的生态安全。本研究以涵盖了三个草原亚区的内蒙古草原为研究对象,利用群落调查、相关分析、方差分解、结构方程模型等方法,探究内蒙
目的:观察阿莫西林克拉维酸钾片联合热毒宁治疗小儿急性支气管炎的临床效果。方法:选取82例小儿支气管炎患儿,将其分成观察组和对照组各41例。对照组通过阿莫西林克拉维酸钾片进
本文从汉字中存在的图纹视觉符号入手,探讨了以情感因素角度分析图纹视觉符号在汉字的组成及构造形式上的运用。文章的撰写一共分为五个章节,第一章绪论部分讲述了中国汉字与
目的探索"以赛带教、以赛促学、以赛精艺"教学模式在中职护理技能教学中的实施效果。方法以河南煤炭卫生学校2009级三年制护理专业1、2班护生为实验组,在护理技能教学中实施"
市场经济是法制经济,法律素质是公民必备素质之一。调查表明,当代中国农民普遍存在着法律知识欠缺、法律意识淡薄、运用法律能力较差的问题。基于此,应在大力发展农村经济、
利用方向可控金字塔的方向可控性可以获取图像的方向信息,用来搜索最佳旋转变换参数,同时加入对平移量的搜索可以使这种方法能够处理具有平移和旋转变换的图像配准问题,采用
国内物权立法、学理研究、法律释义等不同层面对区分所有建筑物"管理规约"之认识仍未统一。该规约性质上实为民事法律"共同行为"及区分所有人团体私法财产"自治规则"。而与各
雷达信号的长时间积累技术是现代雷达的一项关键技术。对雷达信号有效的长时间积累可以大大增加雷达的威力,延长雷达的作用距离。本文首先介绍了雷达回波信号处理理论,对数字
口腔科颌面创伤治疗的主要工作集中在对颌面.骨折的处理,而骨折处理的中心内容是复位、固定.准确复位是恢复颌面骨功能与形态的基础,正确固定是保证复位效果的手段.以往复位