文本分类相关问题研究

被引量 : 0次 | 上传用户:qq273683019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上的多媒体信息快速的增长。如何有效的组织、管理、挖掘这些信息,是一项是非常艰巨的任务。文本分类作为一种处理文本信息的有效手段,在过去十几年的时间里的,得到了广泛的关注和快速的发展。目前的文本分类方法中存在两个问题。首先,特征权重不能反映出特征对不同类别的分辨程度,而且正面特征和负面特征也没有有效地区分;其次,语义角色标注在短文本分类中作用显著,但是FrameNet的词汇覆盖率低,限制了其在其在大规模文本上的使用。因此,本文重点研究了有监督特征加权和词汇单元规约。基于统计机器学习的文本分类技术,由于具有速度快、分类效果好的特点,而成为主流。基于统计的文本分类,通常采用向量空间模型,将文档表示为特征向量。其中两个非常关键的步骤是特征选择和特征加权。在传统的文本分类过程中,特征选择和特征加权是分离的。有监督加权则将特征对于分类的重要程度包含到特征的权重中。我们在前人的基础上提出了三种新的有监督特征加权方法。第一种和第二种方法将传统的特征加权方法tf-idf与“单侧”特征选择方法(即奇异率和相关系数)结合,有效地区分了正面特征和负面特征,提高了正面特征的权重,改善了分类性能。第三种方法是将tf与我们提出的特征熵进行结合,这种方法简洁而高效。特征熵度量了特征在不同类别的分布情况。在Reuters-21578数据集上实验表明,我们提出的三种方法优于传统的tf-idf和前人提出的有监督加权方法(例如,tf×CHI和tf×OR)。语义角色标注指的是识别句子中的语义角色,是一种语义分析任务。它被证明能够显著改善文本分类的性能,尤其是对于短文本。语义角色标注有两个主要的人工标注的语料库,即PropBank和FrameNet。由于FrameNet中,不同框架的语义角色都是有意义的名称,因而FrameNet更适合于文本分类。但是FrameNet的词汇覆盖率较低,所以限制了其在大规模文本上的使用。所以,词汇单元规约是语义角色标注中的一个非常重要的任务。词汇单元规约是将词汇单元分配到正确的框架。之前的研究主要是利用WordNet来识别词汇单元的正确框架。但是,之前研究使用的特征类型有限,不能处理形容词和副词。因此,我们提出了一种新的特征表示方法,引入了更多类型的特征,覆盖了整个开放词类。另外,我们利用SemCor更准确的计算特征权重。我们在测试语料上测试了我们提出的方法,实验结果显示,我们的方法明显优于其他方法。
其他文献
目的:观察消渴漏微方对早期糖尿病肾病气阴两虚兼瘀证的临床疗效。方法:将72例患者随机分为2组,治疗组在基础治疗上加服消渴漏微方配方颗粒,对照组在基础治疗上加服伊贝沙坦
<正>动画是PowerPoint鲜活的灵魂,但如果使用不当,效果会适得其反。据笔者在听课和课件评审工作中观察,一线教师的PPT课件动画普遍存在以下问题:动画特效选用不当,与演示内容
王兴东是中国著名的主旋律电影编剧,他创作了多部脍炙人口的主旋律电影。早期的《孔繁森》、《蒋筑英》、《离开雷锋的日子》,近期的《建国大业》、《辛亥革命》等。王兴东的主
<正> 小时候,每逢清秋季节,就见到各大酒楼贴出"芜湖螃蟹上市"的告白招徕吃客。名楼老店门前往往车马喧阗,阔佬光顾。我只是看看而已,并不艳羡,亦激不起多大食欲。因为家里曾
<正> 记忆中好像在南京也看过一座类似的雕花楼,在几年前。于是,当我来到这苏州郊区的旧楼,立刻便泛起一种似曾相识的感觉。这种感觉恍恍惚惚既有隔世的遥远,又有眼前的分明,
期刊
<正>顾客让渡价值是指顾客总价值与顾客总成本之间的差额,是世界著名营销专家菲利普·科特勒在《营销管理》一书中提出来的。其中顾客总价值是指顾客购买某一产品与服务所期
为了提高高师声乐学生的素质与工作能力,突出“师范性”与“示范性”,应采取与专业院校不同的课程设置与形式,为中小学培养能力高、素质好的声乐教师。
家庭是社会的细胞,家庭是消费的主要单位,家庭整体收入水平将直接决定家庭成员的生活水准。税收与民生密不可分,在个税征收上忽略家庭的实际情况,仅将公民个人作为税收对象,
江西省小学体育教师职业倦怠现状为男教师个人成就感明显低于女教师;在情绪衰竭和去人性化上随教龄的增加呈降低趋势,在个人成就感上随教龄的增加先增强后下降;职称越低,情绪
<正>近年来,大家对酒后驾驶的危害越来越重视,但还有一只比酒驾更危险的"老虎"却被我们忽视了,这就是"毒驾"。所谓"毒驾",就是吸毒驾驶,指未戒断毒瘾的或正在使用毒品的人员
期刊