10.11925/infotech.2096-3467.2019.0719
基于文本数据的过滤式与嵌入式样本选择算法
[目的]减少文本数据的训练数据量,缩短模型训练时间.[方法]基于协方差估计,提出一种新的过滤式样本选择算法,并将数据的遗忘性研究成果应用到嵌入式样本选择算法中.[结果]在中文阅读理解模型训练中,本文提出的算法至少可以减少模型训练时间50%.与经典的词频-逆文档频次算法相比,本文小批量协方差估计算法与遗忘算法在召回率、F评价指标上分别提升0.018、0.012与0.017、0.029.[局限]训练数据减少,对模型的准确率评价指标有一定影响.[结论]本文算法能减少模型的训练时间,提高评价指标,由于计算只与批次有关,故适用于大规模数据集的并行运算.
样本选择、协方差估计、遗忘算法
4
TP391.1(计算技术、计算机技术)
本文系国家自然基金项目“分数阶粘性地震波场的高精度有限差分算法研究”项目编号:41674141
2020-06-28(万方平台首次上网日期,不代表论文的发表时间)
共8页
223-230