DDS-LOGO

数据泄露

数据泄露是指机器学习中的严重问题,指训练集、验证集或测试集之间存在不该有的数据交叉。比如测试集样本被用于模型训练、数据增强时跨集操作、预处理统计量使用全量数据计算,会导致模型评估指标虚高,无法反映真实泛化能力。