基于文本数据的过滤式与嵌入式样本选择算法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:rossifish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]减少文本数据的训练数据量,缩短模型训练时间.[方法]基于协方差估计,提出一种新的过滤式样本选择算法,并将数据的遗忘性研究成果应用到嵌入式样本选择算法中.[结果]在中文阅读理解模型训练中,本文提出的算法至少可以减少模型训练时间50%.与经典的词频-逆文档频次算法相比,本文小批量协方差估计算法与遗忘算法在召回率、F评价指标上分别提升0.018、0.012与0.017、0.029.[局限]训练数据减少,对模型的准确率评价指标有一定影响.[结论]本文算法能减少模型的训练时间,提高评价指标,由于计算只与批次有关,故适用于大规模数据集的并行运算.
其他文献
[目的]比较中文术语粒度对不同字段的术语区分能力(Term Discriminative Capacity,TDC)测度的影响.[方法]将术语区分能力测度应用于题名、关键词、摘要和附加关键词的术语质
[目的]利用用户、标签、图书三者之间的关系实现群组推荐.[方法]通过用户-标签、图书-标签的标注关系,利用K-means算法进行用户聚类和图书聚类,形成用户群组和图书群组,并进
[目的]将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题.[方法]以期刊引文数据库建设为目标场景,根据参考文献著录