论文部分内容阅读
目前有关化妆品在线评论资源丰富,如天猫、淘宝、京东和美丽修行,但尚未见据此进行深度挖掘消费者的主观敏感感受的报道。本研究采用网络爬虫的方法获取数据,进一步使用情感词典结合机器学习的方法,对不同皮肤类型消费者、化妆品配方成分信息以及化妆品在线评论进行挖掘,研究结果如下:1.使用Fiddler软件和Python中的Requests模块,对美丽修行和颜究院两个App进行网络爬虫,共获取包括消费者皮肤类型,化妆品配方成分以及在线评论等在内的100430条消费者信息。2.使用Python中的jieba模块结合基于化妆品评论语料库的皮肤敏感相关词库,对获取的100430条样本进行数据清洗,清除不含皮肤类型、在线评论中不含主观敏感感受相关词汇的信息,初步筛选到46000条。进一步对皮肤类型、配方成分和评论进行特征提取,并采用基于化妆品评论语料库的敏感相关情感词典的方法对在线评论进行主观敏感感受量化,实现从文本类型变量到结构化数字类型变化的转化。3.利用Python中的scikit-learn模块,以量化后的皮肤类型、化妆品配方成分为输入变量,以量化后的在线评论主观敏感感受为输出变量进行机器学习建模,构建决策树、随机森林和梯度提升树(Gradient Boosting Decision Tree,GBDT)三个机器学习模型,选择R~2(决定系数)最大和RMSE(平方根误差)最小的GBDT进一步优化模型。结果表明:GBDT的R~2为0.83,RMSE为0.41。进一步与已有报道的皮肤敏感相关原料做对比,预测模型的正确率、敏感性和特异性分别为82.4%、75%和88.9%。表明基于GBDT的皮肤敏感相关原料预测模型是可靠的。4.针对本课题组前期通过皮肤脂质组学筛选得到的正常和敏感皮肤11个差异脂质,用上述GBDT模型预测11个差异脂质对皮肤的主观敏感感受(对于敏感皮肤中含量较低的差异脂质,如果模型预测结果为舒缓,则认为GBDT预测结果正确,否则为错误。以同样方法预测敏感皮肤中含量较高的差异脂质对应的脂质原料)。GBDT模型预测结果9个与脂质组学筛选结果一致,正确率为81.8%。预测结果可与脂质组学结果相互验证,为发现具有舒缓或刺激的脂质原料提供新思路。5.利用Python中的Tkinter模块建立皮肤敏感相关原料的预测模型GUI界面,并进一步用py2exe模块生成exe程序,此界面可以辅助化妆品配方师针对敏感皮肤的化妆品原料选取。本研究通过网络爬虫、情感词典和机器学习的方法,建立了基于在线评论的皮肤敏感相关原料的预测模型,并预测了对敏感皮肤的潜在刺激或者舒缓脂质原料,为开发针对自我感知性敏感性皮肤人群的化妆品原料提供了新的方向和思路。