【摘 要】
:
话题检测是处理互联网新闻数据的一种重要方法。主要任务是从新闻数据中自动检测和组织潜在的话题信息,对网络中分散的信息进行有效地汇集和整理,帮助人们从众多数据中发现未知话题事件,使人们能够从整体上了解该事件的详细内容,有效解决信息过载问题。在话题检测任务中,文本聚类思想是一种有效的解决方法,基于文本聚类思想的话题检测模型主要包括数据获取、特征选择、文本模型化以及聚类策略,本文主要从新闻文本的特征选择和
论文部分内容阅读
话题检测是处理互联网新闻数据的一种重要方法。主要任务是从新闻数据中自动检测和组织潜在的话题信息,对网络中分散的信息进行有效地汇集和整理,帮助人们从众多数据中发现未知话题事件,使人们能够从整体上了解该事件的详细内容,有效解决信息过载问题。在话题检测任务中,文本聚类思想是一种有效的解决方法,基于文本聚类思想的话题检测模型主要包括数据获取、特征选择、文本模型化以及聚类策略,本文主要从新闻文本的特征选择和文本建模表示两个方面对新闻话题检测进行研究。(1)针对原始新闻文本噪声特征较多,无监督度特征选择方法特征选择能力有限,而有监督特征选择方法无法直接以用于话题检测任务,提出一种基于多K-means聚类结果的特征选择方法(Feature Selection Method based on Multi-K-means Clustering Results,FS-MKCR)。该方法利用K-means聚类结果取决于集群数目和初始中心点的选取这一特点,通过在不同初始条件下的K-means聚类结果上采用有监督的特征选择方法过滤噪声特征,获得最优特征子集。该方法将有监督特征选择方法应用于新闻话题检测这一无监督的学习任务中,极大的降低噪声特征的影响,有效提高话题检测的准确率。(2)为了能够获得话题辨识能力强的特征词,引入类间集中度和类内分散度的概念对期望交叉熵进行改进,将改进后的期望交叉熵与FS-MKCR相结合构建新闻话题特征提取模型。该方法在考虑了特征与类别相关性的同时,注重特征项在类内分布和类间分布的情况,使得特征选择结果倾向于话题辨识能力较强的特征。进一步提高FSMKCR对新闻话题特征的选择能力。(3)考虑到语义信息以及特征对不同文本影响力在话题检测中的作用,将Word2vec模型与TF-IDF相结合,实现对新闻文本的模型化表示。该方法在利用、Word2vec获取文档隐含的语义相关关系的同时,通过TF-IDF保留了每个特征词对不同新闻文本的重要程度,从而获得更为准确的文本表示,进一步提高新闻话题检测的准确性。
其他文献
我国上市公司中普遍存在终极控股股东,他们往往通过其两权分离度实现对公司的控制行为。终极控股股东两权分离程度高低决定了其在公司中的“掏空者”亦或是“守护者”的不同角色,从而对公司的债务期限决策产生不同的影响。终极控股股东进行“隧道挖掘”,危害其他投资者的利益,最终对公司的长远发展产生无法弥补的损害。此时,大股东将联合外部债权人的力量,与终极控股股东的两权分离度产生抗衡,共同实现对终极控股股东的监督和
我国作为人口大国,早在本世纪初始就进入了老龄化社会,如何解决好老龄化问题,考验着我国的养老能力。中国几千年来奉行的都是子女赡养老人,可是青壮年的外出就业、家庭人口数量和结构的改变等原因已经使家庭养老在现阶段难以作为主要养老方式持续下去了。机构养老则存在费用昂贵、与传统主流思想冲突及监管存在困难的局限性。居家养老正是在这样一种背景下,借鉴国外先进经验并结合我国国情产生的养老模式。但在实践中,居家养老
信息安全一直是信息化发展过程中非常重要的环节,近年来,量子通信因其无条件安全性受到了学界的广泛关注。量子通信的安全性由量子力学基本原理保障,如今在理论和实践方面都取得了丰硕的发展成果。量子密钥协商是量子通信的重要研究分之,目的是由多方合作协商出用于安全通信的密钥序列。在量子密钥协商中,每个参与者对最终密钥的贡献都是相等的。量子密钥协商有四大特性,正确性、安全性、保密性和公平性,量子密钥协商协议都必
目的:研究色胺酮对MAPK信号通路、EMT细胞侵袭和转移、小鼠体内炎性肿瘤微环境乳腺癌的影响,应用非标定量蛋白质组学技术宏观探讨色胺酮抗乳腺癌的作用机制。方法:体外实验:采用不同浓度色胺酮和ERK、p38MAPK和JNK通路抑制剂处理MCF-7细胞,MTT法检测细胞增殖活性。细胞平板克隆形成实验检测色胺酮对MCF-7克隆形成能力的影响。H&E染色观察细胞形态变化。TGF-β1诱导MCF-7
回应人工智能带来的相关法律问题,必须首先确定人工智能是否具有法律人格。发端于古罗马社会的法律人格概念,是为了划分社会等级、维护统治阶级的利益而设立的,罗马法创立的“人”与“人格”相分离的技术,为法人等其他社会存在体获得法律人格提供了法技术支持。人格成为一种法技术手段,伦理性并非当然的是法律人格的赋予标准,因此,人格这种法技术就为人工智能获得法律人格提供了可能性。《德国民法典》正式确立了权利能力制度
飞速的工业化发展给人们带来了巨大的经济利益,但相应的环境问题也应运而生,最典型的就是含有多种重金属离子的工业废水被排放到环境中。在天然水体系中,当重金属离子含量超过一定浓度时将对人类和水生生物造成巨大危险。然而,重金属不能被降解,而是直接或通过食物链在生物体中积累。由于重金属离子的毒性较强,其在生物体中的累积能够引起生物体的紊乱和损伤。因此,水中重金属污染物的痕量检测尤为重要。然而,电化学方法由于
随着2013年宽带中国的战略实施,我国宽带业务进入了飞速发展的黄金时期。对于江苏有线TZ分公司而言,传统的有线电视业务面临着IPTV的巨大冲击,营收不断下滑。因此,开拓新业务,尤其是宽带业务,具有十分重要的意义。然而,近年来,TZ地区的宽带业务竞争十分激烈,各大运营商纷纷采取价格战、广告战、渠道战来争夺宽带用户,江苏有线TZ分公司在宽带市场的竞争中表现一般,根据公司内部资料显示,宽带业务收入和宽带
建筑业员工面临着高风险、高不确定性、高负荷、高压力的工程项目情境,这些特征因素易引发建筑业员工的工作领域与家庭领域之间的冲突问题,从而引发负面的心理状态和情绪,甚至出现情绪耗竭、成就感低落的工作倦怠感。这些问题不仅对个体身心健康有所损害,还可能造成离职倾向升高、工作绩效下降、工作满意度低等不利于组织的影响。目前针对中国情境下建筑业员工的工作家庭冲突与工作倦怠之间的作用路径和边界条件尚未明晰。基于资
公园是中国近现代城市公共空间一个重要的组成部分。不仅中国现代作家的许多文学、社会活动与公园有着密切的联系,现代文学中也出现了相当一批与“公园”相关的创作。而目前