基于标签相关性的文本多标签分类算法的研究

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:dengggaowanyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网时代信息技术的不断发展与广泛应用,文本信息正呈几何级的形式爆炸增长,如何从海量文档中挖掘出对用户最有用的信息已成为研究焦点。而文本分类作为文本数据挖掘技术中的关键手段,能帮助人们快速理解、组织、管理文本信息。按照分类后标签的数目,文本分类又可以分为:单标签文本分类和多标签文本分类。多标签文本分类更加符合客观世界的规律和特性,而单标签问题也只是多标签问题中特殊情况,多标签问题则是单标签问题更普适、广义的衍生。因此,多标签文本分类问题拥有着更常见的应用场景,在自然语言处理领域有着重要的研究意义和商用价值。虽然多标签文本分类问题应用广泛,但是因为多标签问题对数据表达的复杂性和标签输出空间的指数性,导致给其解决带来了更多挑战。研究表明,利用标签之间的相关性能给多标签分类问题带来指导性的帮助。目前,机器学习技术方兴未艾,在文本多标签分类问题也产生了很多解决方法,这些解决方法在处理多标签分类问题时绝大多数都没有考虑到标签的相关性。因此,本文围绕文本分类领域中的多标签分类问题从标签相关性的角度展开研究。本文研究工作主要有:1、本文详细阐述了多标签文本分类中的关键技术,包括文本预处理、文本表示、文本特征提取、分类算法研究等。在此基础上,本文结合多标签问题的特点进行进一步的分析,阐述了目前解决多标签文本分类方法的诸多局限性。这部分的工作为后续关于文本特征提取和多标签分类算法的设计奠定了理论基础。2、针对目前文本特征提取中关键词抽取的不足,本文在TextRank算法的基础上进行优化,提出一种基于PMI加权的TextRank关键词抽取算法。利用词汇之间的逐点互信息对词汇间初始关系进行衡量,进而构造词与词之间的影响概率传递矩阵,通过迭代计算使词汇节点的权重收敛,将词汇权重进行排序获取最终的关键词。通过实验表明,该方法在关键词提取上对关键词的精确率和召回率上较原始方法有明显提升,验证了改进算法在文本特征提取上的优越性。3、本文将所提出的的关键词抽取算法运用到文本多标签分类问题中。通过word2vec对抽取出的关键词进行向量表征,接着将这些关键词进行加权累加作为文本的向量化表示,由此构建好基于关键词的多标签分类模型的输入。同时,将训练样本的多个标签同样用词向量进行表征,进行特征融合后作为模型学习的目标。利用余弦损失作为模型训练的代价函数,由此来进行网络的训练。在预测未知标签文档的多标签时,通过网络输出在所有标签的词向量空间进行近邻检索,将与网络输出向量余弦距离最近的前k个标签作为预测的多标签。通过对比实验,验证了该方法在文本多标签分类能力上的稳定性及在标签语义扩展性上的可行性。4、本文也考虑到了关键词对于文本信息表征能力的不足,尝试了利用卷积神经网络进行文本特征抽取,同时消除关键词抽取步骤中抽取出错给文本表征带来的误差。在预测未知标签文档的多标签时,通过训练好网络的输出在所有标签的词向量空间进行近邻检索,由此得到多标签分类结果。同时,通过实验佐证了基于卷积神经网络的文本多标签分类模型的可靠性和稳定性。
其他文献
科学合理地进行物流规划与管理是优化实现交通工程项目目标的重要保证。本文基于交通工程项目物流活动特点的分析,针对目前交通工程项目物流管理中存在的主要问题,提出了加强交
我国是一个多山的国家,有三分之二的地区为山区,山地传统村落分布广泛。山地传统村落由于自身所处的环境因素,造就了其村落形态独特,生态脆弱的特点。然而山区内的村落多处环境复杂、资源匮乏、经济落后、信息欠发达的区域,这类山地型传统村落受到的关注和保护较少,且西南地区尤甚,这使得许多山地型村落正走向消亡。本论文以云南省沧源县佤族山地传统村落为研究对象,其山地传统村落为了适应所处地域环境、气候特征、文化习俗
某机械制造公司在生产过程中会产生前处理废水、电泳废水和含磷废水,根据原废水特性及排放标准,采用好氧处理、曝气、离子交换、活性炭吸附、RO反渗透等综合处理工艺,使出水
<正>2013年10月23日,中国水产科学研究院渔业机械仪器研究所承担的"宁夏名优鱼类选育关键技术能力建设"项目通过专家验收。该项目是继渔机所与宁夏水产研究所签署渔业科技合
纳米金粒子(GNPs)作为一种新兴的电子计算机X射线断层扫描(CT)造影剂具有易化学修饰、组织兼容性好和独特的表面等离子共振等特点。不仅在同目前主流的碘造影剂相比,经生物分子
媒介人力资源管理指的是媒介对人力资源进行组织利用,开发和调配的过程和方法,目的是使之达到人、财、物的最佳结合,以充分发挥媒介人才的价值。我国媒介人力资源管理应借鉴
工程研究中心是科研成果验证与工程化的平台和基地,是下一代技术的发源地,是科研文化和产业文化的融合界面,是科研成果与市场沟通的桥梁。在中科院启动的"率先行动"计划中,明
<正>后母戊鼎是商后期(约公元前十四世纪至公元前十一世纪)铸品,原器1939年3月出土于河南安阳侯家庄武官村。据中国文物网记载,司母戊鼎是
长距离的管线敷设必然会出现与河流产生交叉的情况,通常采用典型穿越的形式来处理交叉。管线穿越河流,与穿越处的河床演变有着密不可分的联系。河床冲刷变化幅度直接影响到穿
为探究海萝藻中类菌胞素氨基酸(MAAs)成分的种类,采用紫外分光光度法、高效液相色谱法、高分辨液质联用技术分析海萝藻甲醇提取物,并对该提取物进行抗氧化性能体外测试。结果