中文意见挖掘的特征层次构建和抽取算法

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zzggwd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的发展,网络上现存的主观意见表述文本陡增。主观WEB文本不仅能给其他用户提供客观的参考价值,并且产品生产方也可以及时根据用户的意见言论来调正自己的产品设计以及营销策略。因此主观意见文本的处理也随之受到人们的重视。近年来也成为了WEB数据挖掘的热点。在中文意见挖掘中,相关学者都将如何准确得到意见词的语义情感倾向作为他们的着手点,对准确获取特征以及特征之间的关系相对研究较少。而特征的相关层次关系分析将对后面的语义情感分析和对整篇评论的理解起到重要作用。因此,为了研究特征词的抽取方法和特征层次关系的获取方法,本文主要做了如下几方面的研究工作:①由于语料在中文文本挖掘中的重要作用,描述了不同语料在意见挖掘中的运用,分析了不同语料对于特征词提取的作用。并针对不同语料介绍了不同的特征词抽取算法。②描述了中文语料中能够体现概念上下位与部分整体关系的特定语法结构,并从统计的角度探索和深入地分析了汉语“的”字结构短语中的概念上下位关系,总结出一种利用Tdf/idf公式判定“的”字前后概念上下位关系的方法。③研究给出了基于网络的PMI统计算法的一种新应用。通过使用特定语法结构短语在现有比较成熟的网络搜索引擎中进行搜索,来获取词汇和加入特定语法结构的短语在网络中被搜索到的次数,用于判断词汇之间的关系。④分析了现有中文评论特征词与意见词所形成的词对的抽取算法。并将Bootstrapping算法和关联规则算法对特征词的抽取效果作了对比和分析。通过较充分的实验,验证了PMI算法用于特征层次提取的可行性和有效性。论文研究为基于网络的PMI算法在中文意见挖掘的应用提供了新的可供借鉴的方向和思路,具有较好的学术意义和一定的应用参考价值。
其他文献
随着近年来农村信息化的发展,农村社区居民可以随时享受到互联网所提供的农业、新闻、生活等各类资讯。然而,网络中各类资源总量正在以爆炸式的速度增长,“信息过载”等问题
二乘二取二计算机联锁系统近十年在铁路系统实时控制中得到了广泛应用。该系统从硬件结构、故障—安全及网络通信等方面都注入了全新的设计思想和方法,使区域计算机联锁和调
ZigBee技术是一种新兴的,具有统一技术标准的短距离、低功耗无线通信技术,主要应用于低速传输场合,可以作为无线传感器网络的通信协议。面向特定应用领域、功能强大、灵活可
随着网络的普及和电子商务的广泛应用,越来越多的信息充斥在互联网之中,用户在享受网上购物带来的便捷的同时也面临着信息过载问题的困扰。为了在大量的商品信息中找到符合用
微博作为社交网络中最火热的平台,每天产生的微博文本不计其数,并且涵盖了新闻、娱乐、美食、商品、军事等多个领域。因微博文本数据内容丰富,最能反应当下人们讨论的热点问
随着传感器制造工艺的发展和无线通讯技术的进步,无线传感器网络已经在军事、商用以及民用领域得到广泛的应用。无线传感器网络是由成百上千的无线传感器节点通过自组织的方
随着移动对象运动轨迹的采集越来越方便,催生了大量基于位置的服务(Location Based Service,LBS)。这些服务对于市民生活、道路规划和城市发展等具有相当重要的理论意义与实
随着语义网的发展,本体应用的范围越来越广泛。本体作为语义网的重要基础,用于描述计算机处理数据的语义信息,使语义网中不同系统间能够实现某种程度的知识共享和重用,以提高
蚁群算法是通过对自然界中真实蚂蚁的集体行为的观察、模拟而得到一种仿生优化算法,它具有很好的并行性、分布性。根据蚂蚁群体不同的集体行为特征,蚁群算法可分为受蚂蚁觅食
随着时代的进步和发展,人们对社会安全问题越来越重视。视频监控在其中发挥了重要的作用。随着计算机技术和硬件技术的不断发展更新,为视频监控技术的智能化发展提供了充分的