基于关系的文本特征抽取和特征学习

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:lewy540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主流的文本表示模型以向量空间模型(VSM)为主,以词和TF-IDF作为特征来表征文本。此模型在很大的程度上已经可以用来描述文本特征,但是同时忽略了文本的语义,上下文关联,组成元素前后顺序等特征,使得VSM能表达的信息量存在限制,在后续数据挖掘过程中永远达不到人类的分析能力。这是目前文本建模的难点。WAF(词激活力)是北京邮电大学模式识别实验室郭军教授提出的一种基于统计的描述词与词关系的算法,WAF不单纯是考虑的词之间的关联,还考虑了词前后顺序,词与词之间的距离,包含了概率和.语言规则两种信息量。本文利用WAF模型研究基于关系的文本特征抽取和特征学习方法。主要创新工作包括以下三点:一、提出一种新的基于WAF模型的词关系特征,即活跃边特征。在现有TF-IDF的词频权重基础上加入由WAF入链数和出链数得到的活跃边特征,并给出特征融合模型,使用SVM分类器进行分类,最后对结果进行了分析和讨论。二、提出一种实体结构化数据的关系特征抽取算法,并基于该特征实现实体聚类。首先提取出实体结构化数据的语义和语境特征,以此来文本建模,然后对每个属性基于WAF值进行相似度计算,最后进行实体聚类。三、提出一种基于WAF亲和度特征的实体表示模型。通过WAF算法计算出实体的亲和度值,由此得到实体的一维特征向量,然后采用余弦相似度计算实体和实体之间的相似度,并且通过层次聚类算法对聚类实体分簇,最后得到实体聚类关系图谱。上述模型在COSE系统中的老师实体关系挖掘中取得了良好的效果。
其他文献
最新研究结果讨论了溶解于离子液体的聚丙烯腈(PAN)新型纤维纺丝技术中的科学、试验及技术问题。研究喷丝头、凝固浴及不同后牵伸步骤中成纤条件的变化,重点关注凝胶状态及干
针对电气设备具有的重要作用,本文首先从人员、器具、设计、环境与过程等方面入手,提出设备安全调试要求及方法,并以此为基础,分析了设备维护保养制度。旨在为实际的电气设备
目的 通过健康教育指导其科学的饮食,预防心脑血管疾病。方法 选取东北某社区各阶层131例心脑血管疾病患者,统计其饮食结构,通过讲座,视频课件,书籍,微信等给与科学健康指导
无梁楼盖现已广泛应用于各类工程中,结合实际工程,对比分析了两种无梁楼盖体系在不同跨度下的受力特点及经济性,指出现浇空心无梁楼盖方案的优势,归纳总结了无梁楼盖设计过程
随着基础教育课程改革的不断深化,如何提升学生语文核心素养成为语文研究关注的热点和焦点。语文核心素养是学生在语文学科学习中逐渐形成的适应个人终身发展和社会发展需要的必备品格和关键能力,它具有奠基性、整合性、实践力、迁移力等特征,这与具有高阶思维、重视体验、力求整合、关注生成的深度学习有着彼此的契合性。因此,深度学习散发着独特的魅力,成为提升语文核心素养的重要路径,其在基础教育界发展的具体表征便是:中
明末清初的社会变革,给当时的学者们带来深深的刺激。朝代的更迭、社会的动荡等现实如同一记重锤深深地敲击在人们的心上,这记“重锤”敲醒了一部分具有先进思想和危亡意识的儒家学者,使他们幡然醒悟到主张读书、静坐的程朱、陆王之学在面对国家和民族的危亡时,已经发挥不了拯救时艰的作用。因而这些学者一反“良知”、“天理”之学,转而开始投向经世之学的研究和发展,颜元正是这些学者中的其中一员。本文立足颜元著作文献资料
目的了解乐清地区儿童感染肺炎链球菌对青霉素及其他10种抗菌药物的耐药性。方法收集2007年1月-2009年12月,医院儿科门诊及入院首日患儿送检的呼吸道标本中分离出的201株肺炎
<正>河北省献县现有结果苹果树1200公顷,随着种植面积的提高,苹果病虫害呈多元化和逐年加重趋势。被列为世界各国进出口检疫对象的苹果绵蚜于2006年经苗木私自调运传入献县。
针对已涂覆涂层的金属表面裂纹检测,本文提出一种基于开放式同轴腔的微波谐振无损检测技术,对同轴腔开路端辐射场作用下的带涂层金属表面裂纹进行建模分析,根据等效电路模型
随着市场经济持续稳定发展,跨国连锁零售企业涌入中国,规模不断扩大的我国零售企业市场竞争日趋激烈,迫使我国零售企业重新审视自身成本管理模式,以保持与增强核心竞争力。然