基于基尼系数的n-grams特征约简加权算法

来源 :淮阴工学院学报 | 被引量 : 0次 | 上传用户:liongliong571
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权
其他文献
目的:建立统一的供应链平台和院内物流信息化系统,降低整个供应链条中的流通成本,提高医院的运行效率,打通院内供应链。方法:构建基于自动补货的智能物流系统,包括数据模型中
车桥战役的有关原始文献提供了基本呈现该事件原貌的可能性。忽视第一手资料,依据一些二手文献中不完全客观的描述,构建车桥战役的来龙去脉,可能误入歧途。以公开档案、私家
为落实北京市政府5G产业发展"1551工程",提供世园会游客更高体验感的医疗急救服务,北京市卫生健康委组织创建了"北京世园会5G远程医疗急救系统"。系统借助5G网络,突破城市与
目的:我国部分大型三级甲等医院已着手胸痛中心建设,但是建设内容仅仅局限在院内救治,设计并实现基于院前急救的胸痛中心一体化信息系统,能将胸痛救治过程涵盖院前、院中,与