文章目录
- 1、曝光未点击
- 2、全局随机选择负例
- 3、batch内随机选择负例
- 4、曝光数据随机选择负例
- 5、基于popularity随机选择负例
- 6、基于hard选择负例
- 大佬的总结:
大佬的名言:“如果精排是特征的艺术,那么召回就是样本的艺术(负样本为王)”。负样本的构造对于召回阶段来说非常非常重要!
1、曝光未点击
这就是上面说的导致Sample Selection Bias问题的原因(因为实际召回时面对的是全局物料池里的样本,包含未曝光与曝光;所以正常来说负样本的构造应使得它尽量能够和实际召回输入的数据分布保持一致)。我们的经验是,这个数据还是需要的,只是要和其它类型的负例选择方法,按照一定比例进行混合,来缓解SSB问题。当然,有些结论貌似是不用这个数据,所以用还是不用,可能跟应用场景有关。
2、全局随机选择负例
从全局物料池里的随机抽取负例,Youtube DNN双塔模型就是这么做的。从道理上讲,这个肯定是完全符合输入数据的分布一致性的,但是,一般这么选择的负例,因为和正例差异太大