基于潜在狄利克雷分配模型和互信息的无监督特征选取法

来源 :计算机应用 | 被引量 : 5次 | 上传用户:taiguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。
其他文献
所谓信息技术和学科整合就是说教师在培养和指导学生时,既要传授给学生较为专业的信息技术知识,又要注重不断加强学生对信息技术的实践和运用,这样才能全面培养学生掌握的信息技
随着经济社会的发展,利润沿着价值链发生了转移。本文对过剩经济条件下利润在价值链上发生的4种转移规律做出经济学解释,并为企业如何应对这种转移提出建议。
安全哨岗话说这前段时间各大网站的密码泄漏事件,真是把互联网搅了个天翻地覆。作为一名常年混迹于各种论坛、博客、门户和社交网站的老网民,我可是改密码改到手抽筋。回过神来,突然想起我这天天不离身的Android手机一样是把上网好手,而且手机中各类隐私资料的安全—包括联系人、通话记录、短信甚至我所在的地理位置等,更加令人担忧。电脑上的安全工作我虽一点不含糊,可这被乱七八糟应用堆满的手机该如何把好资料的“安
为了降低丢包率,通过对线性增长的随机早期检测(RED)算法进行研究改进,引入了Logistic方程的方法来计算丢包率;并通过仿真实验对LGRED和NLRED的实验结果进行了比较,发现LGRED相对于RED的丢包率降低了约28.83%。实验结果表明:在相同的参数条件下,LGRED算法更加能够控制丢包的发生,提高网络性能。