基于TF-IDF-Dis和AdaBoost-DS的情感分析算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:l13633332021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的爆炸式增长带来了大数据时代,如何从冰冷的网络数据中解读出情感信息成为了自然语言处理推动人工智能发展的关键。情感分析能区分积极和消极情感,以快速了解大众对于某事或某物的态度。但是网络数据具有庞大的数据体量和复杂的数据结构,现有的情感分析算法在分析这些数据时的效果往往不太理想。冗长数据难以提取有效关键词,传统特征提取算法对于权值的把握不太准确,过时数据计算平台的效率低下,一般的情感分析算法在准确率上不高。针对上述问题,首先改进并完善数据预处理方案,将文本中冗余的词分成非法词和无影响词两个部分。将这两部分筛除之后,文本数据量的减少让分析速度提高不少,余下的关键词也能更好的代表文本的情感。然后将程度副词和类别离散度加入到传统特征提取算法的权值计算中,提出了改进的特征提取算法TF-IDF-Dis,Dis表示关键词的离散度。程度副词将其修饰关键词的权值提高1.1倍,类别离散度体现了每个关键词在积极或者消极文本中的不同重要程度,使得此关键词在特征提取时有更好的表现。相比较于传统的TF-IDF算法,TF-IDF-Dis算法使得DT算法的准确率提高了10%,SVM算法的准确率提高了8%。在10000条数据的计算任务中,此算法的运算时间仅仅增加了21.154毫秒。AdaBoost是一个迭代算法,决策树算法经过迭代之后能够有效提高分类效果,这一点从GBDT算法中就可以看出,而SVM算法基于结构风险最小化的技术使其在所有单一分类算法中具有最佳的分类性能和泛化能力,所以将这两个算法作为AdaBoost的基础算法,提出了一种改进的集成情感分析算法AdaBoost-DS,DS表示DT和SVM。此算法使用基于内存技术的Spark计算平台,在运算效率上远高于基于磁盘技术的其他平台,Spark平台的机器学习模块简化了算法的构建,使得开发过程更加高效。通过对Kaggle网站中100000条评论数据的实验,相比较其他单一算法和集成算法,此算法在分类准确率上分别提高了8%和6%;相比较于Hadoop,Spark在时间上节省了287.116秒。根据上述情感分析算法,设计并实现了情感分析系统,能方便快捷的对评论、短信等进行情感分类,表现出了良好的效果。
其他文献
供电市场中的多主体博弈问题一直被学者们广泛地关注。在寡头市场的研究中,市场假设由完全信息向不完全信息转变,其中天真理性、有限理性和将两者相结合的不同理性(异质)的博
在全球经济和科技快速发展的形势下,能源供应压力越来越大,且面临较大的温室气体减排压力和环境污染问题,严重影响了人类的可持续发展,能源转型迫在眉睫。随着社会发展及人类
随着智能设备的逐渐发展,对声音源的位置进行定位的技术已经成为大多数智能应用设备中最基本的功能。所以,对于声源定位系统而言,如何让系统更好的提升其环境适应能力是目前
我国电子商务正在飞速发展,越来越多的人选择线上交易平台进行买卖,使得人们对物流产业工作效率的要求不断提高,物流产业的相关环节也越来越智能化。目前,随着人工智能的兴起
随着互联网技术和多媒体技术的不断发展,各种智能终端设备开始逐步渗入我们的日常生活,应用这些设备丰富、便利我们的生活,并变成了一种常态。人们通过智能手机和平板电脑,自由、便捷地传播各种多媒体数据(例如音频、视频、图像等)。随着信息技术发展带给人们的生活便利,许多安全隐患也逐渐浮现。信息隐藏技术是用于解决多媒体版权保护,认证和追踪溯源等安全问题的一项重要技术。传统信息隐藏技术强调将秘密信息嵌入载体达到
藏传佛教的僧人对普通大众来说隔着一层神秘的面纱,大众对他们的认知仅停留在,身着红色袈裟、手中转动着念珠并正襟危坐于佛堂念诵经文的肃穆画面。随着信息技术的高速发展,
人工蜂群算法(Artificial Bee Colony algorithm,ABC)是通过模拟蜜蜂采蜜行为而形成的一种较为新颖的群体智能算法,且已被证明是一种有效的全局优化算法。由于ABC算法控制参数较少,结构较为简单,实现起来相对容易,已被越来越多学者研究,并被广泛应用于规划与调度、神经网络、无线传感网、图像处理等领域,且已取得了良好的研究成果和应用效果。然而,ABC算法尚处在研究初期,仍存在
知识经济时代的到来让知识型员工成为企业工作中的重要承担者和业绩贡献者,他们是企业的核心竞争力。尤其在2020年,由于新冠疫情的冲击,很多企业面临转型和持续创新,更需要知识型员工来创造价值。由于目前“996”工作制的出现和市场环境的影响,大多数知识型员工都处于“过劳”状态,引发抑郁、离职等问题,受到社会关注,尤其受到企业社工的重视。当前,在劳动力市场中的知识型员工多为80、90后,他们生活在社会稳定
行人检测是智能辅助驾驶、智能监控、行人分析及智能机器人等领域的重要组成部分。从2005年起行人检测进入了一个快速发展阶段,但是也存在很多有待解决的问题,例如在某些室内
访问控制作为保障信息安全的重要技术之一,可有效保护信息资源的合理受控使用,具有重要的理论价值与现实意义,受到了众多科学研究人员与系统研发人员的密切关注。其中,访问控