【摘 要】
:
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即
【机 构】
:
淮安信息职业技术学院江苏省电子产品装备制造工程技术研究开发中心,淮安信息职业技术学院机电工程系
论文部分内容阅读
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权
其他文献
目的:建立统一的供应链平台和院内物流信息化系统,降低整个供应链条中的流通成本,提高医院的运行效率,打通院内供应链。方法:构建基于自动补货的智能物流系统,包括数据模型中
车桥战役的有关原始文献提供了基本呈现该事件原貌的可能性。忽视第一手资料,依据一些二手文献中不完全客观的描述,构建车桥战役的来龙去脉,可能误入歧途。以公开档案、私家
为落实北京市政府5G产业发展"1551工程",提供世园会游客更高体验感的医疗急救服务,北京市卫生健康委组织创建了"北京世园会5G远程医疗急救系统"。系统借助5G网络,突破城市与
目的:我国部分大型三级甲等医院已着手胸痛中心建设,但是建设内容仅仅局限在院内救治,设计并实现基于院前急救的胸痛中心一体化信息系统,能将胸痛救治过程涵盖院前、院中,与