 
			高端成果系列报道之二十五
Junhai Zhai, Dandan Song. Optimal instance subset selection from big data using genetic algorithm and open source framework. Journal of Big Data 9, 87 (2022). https://doi.org/10.1186/s40537-022-00640-0.
受交叉验证和分治思想的启发,定义了一种度量样例子集的重要性的新判据,并以此判据作为遗传算法的适应度函数,提出了一种基于遗传算法和开源框架的大数据最优样例子集选择算法。用Hadoop和Spark两个大数据开源框架实现了提出的算法,并与三个相关算法进行了实验比较。实验结果表明,提出的算法优于三种比较算法。
翟俊海为该论文第一作者,也是该论文通讯作者。《Journal of Big Data》是中科院二区期刊。
Optimal instance subset selection from big data using genetic algorithm and open source framework