论文部分内容阅读
【目的】对健康问答社区进行主题识别,挖掘患者真实信息需求,找到患者关注的热点内容,对问题进行智能主题分类,促进精准信息服务和信息推送;对健康问答社区进行情感分析发现患者情感表达特点,帮助患者积极面对疾病。【方法】(1)编写scrapy爬虫代码在寻医问药网糖尿病频道抓取了共35000条提问数据,并将数据内容存储在mysql数据库中。(2)利用jieba中文分词工具、停用词表以及由国际疾病分类词表和中国2型糖尿病防治指南常用糖尿病药品目录构成的用户词典对初始文本进行分词和预处理,构成初始语料库。(3)从语料库中抽取1/5的数据进行预实验,构建预实验主题概率模型,从生成的主题中提炼出了33个主题内容,最终经过人工归并为10个主题大类。然后对全语料库进行训练,生成94个主题,采用归并算法结合人工标注的方式将这些主题归并到10个主题大类,依据主题分类结果进行主题分析。(4)从语料库中随机抽取8000条数据人工标注情感极性,利用word2vec模型进行特征提取,将转换后的数据集分别导入K近邻算法、朴素贝叶斯算法以及支持向量机进行训练,利用准确率、召回率和f1值评价生成的情感分类器,并对情感分类结果进行分析。(5)依据性别、年龄、主题和情感极性构建logistic回归模型,对情感极性的影响因素进行探索。【结果】(1)主题分类结果显示疾病预防和控制主题占18.7%,饮食占14.5%,就医指导占13.5%,合并症占12.5%,并发症占12.4%,疾病治疗与愈后占8.3%,疾病进展与危害占7.5%,用药指导占6.8%,病因与诊断占3.9%,遗传占2.0%。(2)情感分析时,发现支持向量机的分类效果较好。经支持向量机分类后的用户提问中积极文本占26%,中性文本占34%,消极文本占40%。(3)性别、年龄以及病因与诊断、饮食、并发症、合并症、疾病预防与控制、疾病治疗与愈后、用药指导、就医指导、遗传主题对情感极性的影响有统计学意义(p<0.05)。疾病进展与危害主题的影响无统计学意义。【讨论】(1)患者更愿意咨询疾病预防知识和饮食指导等科普性质内容,健康问答社区信息服务提供的治疗性建议相当有限。(2)患者网络就医咨询的情感需求很高,渴望得到情感支持。(3)性别、年龄、主题与情感极性之间存在关联性,需要进行进一步深入研究。