https://github.com/RUCAIBox/RecBole
RecBole 可以通过参数 neg_sampling 改变负采样战略,支持推荐系统中的随机负采样 (RNS, uniform) 、基于盛行 度的负采样 (PNS, popularity) 和动态负采样 (DNS, dynamic) 三种经典的方式。各人也可以在此基础上举行 拓展,接待 Clone, Fork 和 Star ~目录1. 研究配景1.1 什么是负采样?1.2 为什么需要负采样?1.3 为什么需要高质量的负采样?2. 负采样要领分类梳理2.1 静态负采样2.2 强负例采样2.3 反抗式负采样2.4 基于图的负采样2.5 引入特殊 信息的负采样3. 未来展望3.1 伪负例问题3.2 融入课程学习3.3 负采样比例3.4 去偏采样3.5 无采样4. 小结GitHub Repo1研究配景1.1 什么是负采样?在深度神经网络模子 中,数据集中的每个句子、每对交互、每张图片都可以看作是模子 的正样本,也称正例 (postive example)。在模子 的训练历程中,一种常见的训练方式是同时给模子 提供正例与负例 (negative example,纷歧定真实存在),并结构损失函数增大正负例的区分度,从而学到数据中的信息。基于一定的战略结构与正例相对的负例的历程,称为负采样 (Negative Sampling) 。在 NLP 中随机替换连贯句子中的词语、在 CV 中差异图片数据增强的样例,以及 RS 中选择用户未交互的商品,都可以看作是在举行 负采样。相关的损失函数有贝叶斯个性化排序损失 (BPR, viz. Bayesian Personalized Ranking loss)、二元交织熵损失函数 (BCE, viz. Binary Cross Entropy loss) 和对比学习中常用的 InfoNCE loss 等。
1.2 为什么需要负采样?对于差异的领域,这个问题可能需要详细 举行 剖析 。但总的来说,负采样的作用有以下两点:
Efficient:提升了模子 的盘算效率。以推荐系统基于隐式反馈的协同过滤算法 (Implicit Collaborative Filtering) 为例,对于用户交互的每个商品,若是 我们不举行 负采样,而是将该用户未交互的所有商品都作为负例举行 优化,这样每个用户的更新都市涉及所有 item embedding,效率低下。负采样的目的之一是仅对求价钱历程中涉及的向量举行 优化,镌汰 训练的负荷。Effective:保证了模子 的训练效果。纵然我们有富足的盘算资源可以每次优化所有负例,但使用一定的战略对负例举行 采样选择可以到达相同甚至更好的效果 。通常来说,我们能够使用的正例相对于随机结构的负例来说是很是有限的,纵然对正例举行 数据增广,正例与候选负例的数目 往往也不在一个量级。训练时我们会优化正例对的得分高于负例对,经由 几轮训练后,正例 pair 的分数相对随机负例而言已经较量 高了。只管 负例候选集十分重大 ,但能带来信息增益的负例才是训练的要害,盲目地一律 看待所有候选样例很有可能事倍功半。负采样的另一目的是有针对性地提供高质量的负例,既加速收敛速率 ,又可以让模子 朝着我们希望的偏向举行 优化。1.3 为什么需要高质量的负采样?前面的形貌 可能较量 抽象,让我们从《三国演义》的一个例子来详细 地体会负例选择的主要 性(对《三国演义》不太熟悉的读者可以依次代入四郎、甄嬛、静白、浣碧和纯元,或者贾宝玉、晴雯、刘姥姥、多女人和林黛玉)。
正所谓“得人才者得天下”,已知刘备有关羽和张飞两位上将,那么张飞就可以作为刘备的一个正例 (positive example)。由于人才永远是最稀缺的资源,若是 我们随机从三国时期的万万 人群中选一个作为负例,那么随机负例 (random negative) 能被刘备欣赏 并重用的概率微乎其微。换句话说,刘备张飞刘备无名小兵 很难让模子 学到有用的信息。因此,模子 可能无法举行 优异 的参数更新,也不能将略微相关的样例与很是相关的样例区脱离 来。我们希望采样获得的是 informative negative,在文献中常被称作 hard negative,即强负例。在《三国演义》的设定中,张飞和吕布都是勇猛过人的将领,有万夫之勇,也都有各自的弱点 。张飞鞭笞士卒、嗜酒无度;吕布骄奢淫逸、好色贪利。刘备视张飞为手足,却在白门楼说出“公不见丁建阳、董卓之事乎?”,精准为吕布补刀。正是由于 刘备以仁义著名 天下,最不喜的就是吕布此等忘恩负义、背信弃义的小人。将吕布这种具有一定竞争力的强负例作为训练样本,模子 便能更好地挖掘刘备重情重义的特点。强负例可能增进模子 的训练效果,但至坚易断,过强易折,强负例凌驾一定界线 后可能会采到未来的正例。对于当前的训练而言,这种样例在学术中被称作伪负例 (false negative)。也就是说,若是 将刘备很有可能感兴趣的赵云作为与张飞配对的负例,刘备张飞刘备赵云 非但不能带来正向激励,有时甚至会对模子 造成负面影响。针对负例的质量和主要 性,Facebook 举行 了一项很有意思的研究事情,定量剖析 了 CV 领域对比学习里的负例对模子 性能的影响。Are all negatives created equal in contrastive instance discrimination? [93]文章研究发现:绝大多数 (约95%) 负例是 easy negatives,它们与查询在语义上并不相似,仅用 easy negatives 不足以训练出一个好的模子 。其次,约 5% 的负例是 hard negatives,它们与查询在语义上相似但差异,这些强负例险些决议 了模子 的效果 ,在训练中施展 了要害作用。尚有 近 0.1% 的负例是 same class negatives,也就是我们之条件 到的伪负例。这些负破例 貌上看与查询并不相似,但本质上语义是相同的(都是狗),把它们作为负例反而会影响模子 的效果 。2负采样要领分类梳理本文聚焦于负采样要领,将 NLP、CV、RS、GRL、CL 等领域的相关事情分为五类举行 先容 :静态负采样 (Static Negative Sampling)、强负例采样 (Hard Negative Sampling)、反抗式负采样 (Adversarial Sampling)、基于图的负采样 (Graph-based Sampling) 和引入特殊 信息的负采样 (Additional Data Enhanced Sampling)。
参考文献末尾给出了该篇事情的所属领域和 PDF 链接,读者可以凭证 自己的研究领域和兴趣偏向选择性地阅读。
2.1 静态负采样 (Static Negative Sampling)若是 我们限制 从未交互集中选择已知的样例作为负例,那么,通过给差异的样例设置差异的权重,我们便能凭证 负例漫衍举行 采样。
在不思量 合成新负例的条件 下,负采样本质上是学习负例漫衍的问题。当每个样例被采样为负例的概率不随训练发生转变 时,我们就称这种采样战略为静态负采样 (Static Negative Sampling)。
在静态负采样要领中,最简朴也是应用最普遍 的要领是随机负采样 (RNS, viz. Random Negative Sampling),也被称为匀称 负采样 (Uniform Negative Sampling)。RNS [1, 2, 11] 随机从负例候选集中选择一个作为负例,在不思量 负采样的研究中,研究者们一样平常 使用 RNS 作为基础的采样要领,以便公正地和 baseline 举行 较量 。
显然,对于每个正例而言,差异的负例带来的影响并不相同,一种启发式的负例漫衍的战略是基于盛行 度的负采样 (PNS, viz. Popularity-biased Negative Sampling)。盛行 度可以通过频次 (frequency) 或度 (degree) 来反映, ,即样本 被选为负例的概率和 的盛行 度的 次方具有比例关系。当 时,PNS 就退化成了 RNS。PNS 首先在 word2vec [3] 中被提出。在 word2vec 词嵌入的体现中,实验发现 的效果 较好,[4] 从理论角度对这种负采样战略举行 了一定的诠释 ,大多数嵌入体现算法 [5, 6, 7, 8] 也沿用了该要领和超参数。然而, 并不是适用于所有领域, 甚至纷歧定需要为正数。[10] 将 word2vec 的负采样方式应用到推荐系统中发现,PNS 超参数 的选择依赖于数据集和使命 。[10] 在音乐推荐使命 上研究了 对推荐效果 的影响,效果 发现 时的效果 最佳。 为负数意味着更多地选择不受接待的音乐作为负样本,这种情形 下的 PNS 旨在更好地域分差异受接待水平的歌曲,文中也强调了超参数在差异使命 场景下的要害作用。Word2vec applied to Recommendation: Hyperparameters Matter [10]
在推荐系统领域,更常见的基于盛行 度的采样要领 [9, 12, 17] 是直接将商品在训练集中的盛行 水平作为候选负例的权重,即倾向于选择更盛行 的商品作为负例。这种战略可以用盛行 度误差 来诠释 ,借用 @Zilize 的形貌 :在高盛行 度(高曝光度)的情形 下用户没有给予商品正反馈,说明用户或许率(好比 90%)不喜欢这件物品;在低盛行 度时则是完全不确定的状态(好比 50%)。当我们采样高盛行 度的负例时,可能只会带来 10% 的误差 ,而随机采样会带来 50% 的误差 ,从尔后者对推荐系统的训练倒霉。只管 具有一定的诠释 性,但从学术界的相关实验效果 来看,PNS 在推荐系统中并不是稳固 地优于 RNS,有时还会显著降低模子 效果 。怎样 合理使用 商品盛行 度仍然是推荐系统中未被充实探索的问题。Reinforced Negative Sampling over Knowledge Graph for Recommendation [73]
[1]. BPR: Bayesian Personalized Ranking from Implicit Feedback. UAI(2009) [RS] [PDF][2]. Real-Time Top-N Recommendation in Social Streams. RecSys(2012) [RS] [PDF][3]. Distributed Representations of Words and Phrases and their Compositionality. NIPS(2013) [NLP] [PDF][4]. word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method. arXiv(2014) [NLP] [PDF][5]. Deepwalk: Online learning of social representations. KDD(2014) [GRL] [PDF][6]. LINE: Large-scale Information Network Embedding. WWW(2015) [GRL] [PDF][7]. Context- and Content-aware Embeddings for Query Rewriting in Sponsored Search. SIGIR(2015) [NLP] [PDF][8]. node2vec: Scalable Feature Learning for Networks. KDD(2016) [NLP] [PDF][9]. Fast Matrix Factorization for Online Recommendation with Implicit Feedback. SIGIR(2016) [RS] [PDF][10]. Word2vec applied to Recommendation: Hyperparameters Matter. RecSys(2018) [RS] [PDF][11]. General Knowledge Embedded Image Representation Learning. TMM(2018) [CV] [PDF][12]. Alleviating Cold-Start Problems in Recommendation through Pseudo-Labelling over Knowledge Graph. WSDM(2021) [RS] [PDF]2.2 强负例采样 (Hard Negative Sampling)静态负采样要领不随训练发生转变 ,无法动态地顺应 并调整候选负例的漫衍,也就难以挖掘更有利的负样本。只管 我们没有显式的负例标签,但在训练历程中,模子 对每个候选负例的分数是可以被使用 的。所谓强负例 (hard negative) 的 hard 取决于模子 ,那些被错误分类的样例,或是展望 得分更高的负例,与刷新 模子 效果 更为相关。我们可以把这种思绪 类比到小明做题,得分低的负例是小明已经掌握的简朴题,得分高的负例是小明不太会做的提高题或是错题,这些对于小明来说相对 hard 的题更能资助他掌握所学知识。Hard Negative Sampling,又称 Hard Example Mining,早在 1998 年 CV 领域的人脸识别 [13] 中,研究者们就最先 将分类器识别错误的图片加入到负例集来提升训练质量。Example-based learning for view-based human face detection [13]在近十年的深度学习中,无论是 CV 领域的图片分类 [16, 28]、目的 检测 [21, 23, 26, 29]、跨模态学习 [37],照旧 NLP 领域的语言模子 [14]、问答系统 [19]、结点体现 [30],或是推荐系统 [15, 17, 18, 20, 24, 31, 33, 35],或是知识图谱的体现学习 [25, 27, 36],都可以通过强负例采样提升模子 的训练效果 。Graph Convolutional Neural Networks for Web-Scale Recommender Systems [70]无论哪个领域,挖掘强负例的最常见要领都是选择离 anchor/user/query 最近的样本(即在 embedding 空间中最相似的样本)。既然锚点样本对负例选择有资助,那么自然而然可以想到正例也能为配对的负例提供相似度的信息。[19] 在问答系统中选择与正例最相似的样本作为负例,[25, 27, 36] 中为知识图谱三元组选取负例时也是选择离正例最靠近 的实体。KGPolicy [73] 既思量 了与 anchor 的相似度,又思量 了与 positive example 的相似度,将两者相加作为选择强负例的尺度。不外,上述要领仍然是选择已有的样例作为强负例,那么我们能不能凭证 需要天生 (synthesize) 所需强负例呢?Hard Negative Mixing for Contrastive Learning [32]谜底 是可以的,MoCHi [32] 在对比学习的使命 中直接合成强负例,通过 Hard Negative Mixing 的方式融合了现有强负例与 query 的体现,从 embedding 空间获得了更能为训练带来增益的负例。也就是说,我们纷歧定要执着于学习已知负例的漫衍,还可以从 synthetic sampling 的角度出发合成我们需要的负样本体现。[13]. Example-based learning for view-based human face detection. TPAMI(1998) [CV] [PDF][14]. Adaptive Importance Sampling to Accelerate Training of a Neural Probabilistic Language Model. T-NN(2008) [NLP] [PDF][15]. Optimizing Top-N Collaborative Filtering via Dynamic Negative Item Sampling. SIGIR(2013) [RS] [PDF][16]. Bootstrapping Visual Categorization With Relevant Negatives. TMM(2013) [CV] [PDF][17]. Improving Pairwise Learning for Item Recommendation from Implicit Feedback. WSDM(2014) [RS] [PDF][18]. Improving Latent Factor Models via Personalized Feature Projection for One Class Recommendation. CIKM(2015) [RS] [PDF][19]. Noise-Contrastive Estimation for Answer Selection with Deep Neural Networks. CIKM(2016) [NLP] [PDF][20]. RankMBPR: Rank-aware Mutual Bayesian Personalized Ranking for Item Recommendation. WAIM(2016) [RS] [PDF][21]. Training Region-Based Object Detectors With Online Hard Example Mining. CVPR(2016) [CV] [PDF][22]. Hard Negative Mining for Metric Learning Based Zero-Shot Classification. ECCV(2016) [ML] [PDF][23]. Vehicle detection in aerial images based on region convolutional neural networks and hard negative example mining. Sensors(2017) [CV] [PDF][24]. WalkRanker: A Unified Pairwise Ranking Model with Multiple Relations for Item Recommendation. AAAI(2018) [RS] [PDF][25]. Bootstrapping Entity Alignment with Knowledge Graph Embedding. IJCAI(2018) [KGE] [PDF][26]. Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors. CVPR(2018) [CV] [PDF][27]. NSCaching: Simple and Efficient Negative Sampling for Knowledge Graph Embedding. ICDE(2019) [KGE] [PDF][28]. Meta-Transfer Learning for Few-Shot Learning. CVPR(2019) [CV] [PDF][29]. ULDor: A Universal Lesion Detector for CT Scans with Pseudo Masks and Hard Negative Example Mining. ISBI(2019) [CV] [PDF][30]. Distributed representation learning via node2vec for implicit feedback recommendation. NCA(2020) [NLP] [PDF][31]. Simplify and Robustify Negative Sampling for Implicit Collaborative Filtering. arXiv(2020) [RS] [PDF][32]. Hard Negative Mixing for Contrastive Learning. arXiv(2020) [CL] [PDF][33]. Bundle Recommendation with Graph Convolutional Networks. SIGIR(2020) [RS] [PDF][34]. Supervised Contrastive Learning. NIPS(2020) [CL] [PDF][35]. Curriculum Meta-Learning for Next POI Recommendation. KDD(2021) [RS] [PDF][36]. Boosting the Speed of Entity Alignment 10×: Dual Attention Matching Network with Normalized Hard Sample Mining. WWW(2021) [KGE] [PDF][37]. Hard-Negatives or Non-Negatives? A Hard-Negative Selection Strategy for Cross-Modal Retrieval Using the Improved Marginal Ranking Loss. ICCV(2021) [CV] [PDF]2.3 反抗式负采样 (Adversarial Sampling)天生 反抗网络 (GAN, viz. Generative Adversarial Network) 是近几年热门的一种无监视算法,多次泛起在种种顶会论文中。反抗式负采样要领通常基于 GAN 来选择负例,为负采样要领注入了新的活力。与 GAN 类似,反抗式负采样要领往往也有一个天生 器 (generator) 和一个判别器 (discriminator),其中天生 器充当采样器天生 样例以混淆判别器,而判别器需要判断给定的样例是正例照旧天生 的样例。理想的平衡 状态是判别器天生 很是近似于正例的样例,而判别器无法区分正例与天生 器发生的样例。反抗式负采样的要害在于反抗式的采样器,它在 generator 和 discriminator 之间举行 minimax 博弈,从而更好地挖掘强数据中的负例信息。从本质上来说,反抗式负采样的目的仍然是为了学习到更好的负例漫衍。IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models [39]然而,反抗式负采样要领的弱点 也很突出,重大 的框架、不稳固 的训练效果 和较长的训练时间都极大地限制了该要领的应用场景,天生 器与反抗器之间的博弈也纷歧定能收敛到理想的纳什平衡 状态,反抗式负采样要领仍有探索和刷新 的空间。[38]. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks. NIPS(2015) [CV] [PDF][39]. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models. SIGIR(2017) [IR] [PDF][40]. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. AAAI(2017) [NLP] [PDF][41]. KBGAN: Adversarial Learning for Knowledge Graph Embeddings. NAACL(2018) [KGE] [PDF][42]. Neural Memory Streaming Recommender Networks with Adversarial Training. KDD(2018) [RS] [PDF][43]. GraphGAN: Graph Representation Learning with Generative Adversarial Nets. AAAI(2018) [GRL] [PDF][44]. CFGAN: A Generic Collaborative Filtering Framework based on Generative Adversarial Networks. CIKM(2018) [RS] [PDF][45]. Adversarial Contrastive Estimation. ACL(2018) [NLP] [PDF][46]. Incorporating GAN for Negative Sampling in Knowledge Representation Learning. AAAI(2018) [KGE] [PDF][47]. Exploring the potential of conditional adversarial networks for optical and SAR image matching. IEEE J-STARS(2018) [CV] [PDF][48]. Deep Adversarial Metric Learning. CVPR(2018) [CV] [PDF][49]. Adversarial Detection with Model Interpretation. KDD(2018) [ML] [PDF][50]. Adversarial Sampling and Training for Semi-Supervised Information Retrieval. WWW(2019) [IR] [PDF][51]. Deep Adversarial Social Recommendation. IJCAI(2019) [RS] [PDF][52]. Adversarial Learning on Heterogeneous Information Networks. KDD(2019) [HIN] [PDF][53]. Regularized Adversarial Sampling and Deep Time-aware Attention for Click-Through Rate Prediction. CIKM(2019) [RS] [PDF][54]. Adversarial Knowledge Representation Learning Without External Model. IEEE Access(2019) [KGE] [PDF][55]. Adversarial Binary Collaborative Filtering for Implicit Feedback. AAAI(2019) [RS] [PDF][56]. ProGAN: Network Embedding via Proximity Generative Adversarial Network. KDD(2019) [GRL] [PDF][57]. Generating Fluent Adversarial Examples for Natural Languages. ACL(2019) [NLP] [PDF][58]. IPGAN: Generating Informative Item Pairs by Adversarial Sampling. TNLLS(2020) [RS] [PDF][59]. Contrastive Learning with Adversarial Examples. arXiv(2020) [CL] [PDF][60]. PURE: Positive-Unlabeled Recommendation with Generative Adversarial Network. KDD(2021) [RS] [PDF][61]. Negative Sampling for Knowledge Graph Completion Based on Generative Adversarial Network. ICCCI(2021) [KGE] [PDF][62]. Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation. arXiv(2021) [NLP] [PDF][63]. Adversarial Feature Translation for Multi-domain Recommendation. KDD(2021) [RS] [PDF][64]. Adversarial training regularization for negative sampling based network embedding. Information Sciences(2021) [GRL] [PDF][65]. Adversarial Caching Training: Unsupervised Inductive Network Representation Learning on Large-Scale Graphs. TNNLS(2021) [GRL] [PDF][66]. A Robust and Generalized Framework for Adversarial Graph Embedding. arxiv(2021) [GRL] [PDF][67]. Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation. ICCV(2021) [CV] [PDF]2.4 基于图的负采样 (Graph-based Sampling)若是 说前面先容 的 Hard Negative Sampling 和 Adversarial Sampling 充实使用 的是样例在 embedding 空间的语义 (semantic) 信息,那么基于图的负采样方规则是进一步团结 样例在图上的结构 (structural) 信息。GNEG [69] 是 word2vec 负采样要领的刷新 ,先凭证 语料库中词语的共现关系结构共现 (co-occurrence) 网络,再在通过目的 结点上的随机游走获得更强的负例。RWS [68]、SamWalker [71] 和 SamWalker++ [75] 也是类似的随机游走 (Random Walking) 战略,只是应用的领域为推荐系统。KGPolicy [73] 使用 知识图谱的辅助信息和强化学习的要领寻找高质量的负例,DSKReG [76] 则是在知识图谱上凭证 相连的关系和结点嵌入盘算邻人 结点的相关性分数。Reinforced Negative Sampling over Knowledge Graph for Recommendation [73]作为 GNN 的归纳变体,PinSage [70] 提出基于 PageRank 分数对强负例举行 采样,相比随机游走进一步使用 了图上的结构信息。马尔可夫链蒙特卡罗负采样(MCNS)[72] 是从理论上剖析 负采样在链路展望 中的影响的先驱。基于推导出的理论,MCNS 提出通过近似正漫衍来对负样本举行 采样,凭证 图上的结构相关性重新设计正负例的样天职布,并通过 Metropolis-Hastings 算法加速该历程。Understanding Negative Sampling in Graph Representation Learning [72]类似 MoCHi [32] 的合成机制,MixGCF [74] 设计了两种战略:正例混淆 (positive mixing) 和邻域混淆 (hop mixing)。positive mixing 通过注入正例的嵌入使得原始负样本获得正例的体现信息,而 hop mixing 通过 GNN 聚合邻域天生 信息增强的负例,在基于图神经网络推荐系统的采样要领中取得了 SOTA 的效果 。MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems [74][68]. ACRec: a co-authorship based random walk model for academic collaboration recommendation. WWW(2014) [RS] [PDF][69]. GNEG: Graph-Based Negative Sampling for word2vec. ACL(2018) [NLP] [PDF][70]. Graph Convolutional Neural Networks for Web-Scale Recommender Systems. KDD(2018) [RS] [PDF][71]. SamWalker: Social Recommendation with Informative Sampling Strategy. WWW(2019) [RS] [PDF][72]. Understanding Negative Sampling in Graph Representation Learning. KDD(2020) [GRL] [PDF][73]. Reinforced Negative Sampling over Knowledge Graph for Recommendation. WWW(2020) [RS] [PDF][74]. MixGCF: An Improved Training Method for Graph Neural Network-based Recommender Systems. KDD(2021) [RS] [PDF][75]. SamWalker++: recommendation with informative sampling strategy. TKDE(2021) [RS] [PDF][76]. DSKReG: Differentiable Sampling on Knowledge Graph for Recommendation with Relational GNN. CIKM(2021) [RS] [PDF]2.5 引入特殊 信息的负采样 (Additional Data Enhanced Sampling)本小节主要针对推荐系统中引入特殊 信息的负采样,一些事情使用 社交网络中的联系 [77, 78, 85, 86]、用户的地理位置 [80, 81, 84]、商品的种别 信息 [87] 以及特另外 交互数据,例如用户浏览但没有被点击的商品 (viewed but non-clicked) [82, 83],以及用户点击了却没有购置的商品 (clicked but non-purchased) [79] 来增强负例的选取。Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation [99]在工业的推荐场景中,差异的行为 (好比浏览、点击、添加购物车、购置) 是建模用户偏好的要害。[77]. Leveraging Social Connections to Improve Personalized Ranking for Collaborative Filtering. CIKM(2014) [RS] [PDF][78]. Social Recommendation with Strong and Weak Ties. CIKM(2016) [RS] [PDF][79]. Bayesian Personalized Ranking with Multi-Channel User Feedback. RecSys(2016) [RS] [PDF][80]. Joint Geo-Spatial Preference and Pairwise Ranking for Point-of-Interest Recommendation. ICTAI(2017) [RS] [PDF][81]. A Personalised Ranking Framework with Multiple Sampling Criteria for Venue Recommendation. CIKM(2017) [RS] [PDF][82]. An Improved Sampling for Bayesian Personalized Ranking by Leveraging View Data. WWW(2018) [RS] [PDF][83]. Reinforced Negative Sampling for Recommendation with Exposure Data. IJCAI(2019) [RS] [PDF][84]. Geo-ALM: POI Recommendation by Fusing Geographical Information and Adversarial Learning Mechanism. IJCAI(2019) [RS] [PDF][85]. Bayesian Deep Learning with Trust and Distrust in Recommendation Systems. WI(2019) [RS] [PDF][86]. Socially-Aware Self-Supervised Tri-Training for Recommendation. arXiv(2021) [RS] [PDF][87]. DGCN: Diversified Recommendation with Graph Convolutional Networks. WWW(2021) [RS] [PDF]3未来展望3.1 伪负例问题 (False Negative Problem)现有基于负采样要领的研究集中在怎样 挖掘强负例,较少地关注伪负例 (False Negative) 问题。
一方面,我们希望模子 能从一定的强负例中挖掘信息;另一方面,我们不希望模子 总是将未来可能感兴趣的样例视作负例。两者的平衡不应人为去调整设定,而应该让模子 具有一定的判别 能力。
Graph Debiased Contrastive Learning with Joint Representation Clustering [89]
SRNS [31] 从统计学的角度视察到数据集中的伪负例在训练历程中方差较小,而强负例具有较高的方差。凭证 这一征象 ,文章团结 评分函数和样例多轮得分的尺度差,在新的得分上举行 采样获得强负例。然而,SRNS 文中提到的负例征象 只体现在某些数据集上,该启发式的统计学思绪 也缺少理论的支持 。ASA [90] 在强负例采样中不是选择得分最高的负例,而是思量 对应的正样天职数,选择得分不凌驾正样本的难度适中的负例来缓解伪负例问题。在对比学习中,[88] 提出一种自监视对比学习框架逐步检测并删除伪负例,而 [89] 通过图体现学习中的聚类效果 有用 地镌汰 伪负例样本。[88]. Incremental False Negative Detection for Contrastive Learning. arXiv(2021) [CL] [PDF][89]. Graph Debiased Contrastive Learning with Joint Representation Clustering. IJCAI(2021) [GRL CL] [PDF][90]. Relation-aware Graph Attention Model With Adaptive Self-adversarial Training. AAAI(2021) [KGE] [PDF]3.2 融入课程学习 (Curriculum Learning)仍然是小明做题的例子,若是 小明只训练 简朴的加减乘除,纵然平时训练 次次满分,也无法在高中的数学考试中取得佳绩。但若是 小明天天做高考压轴题而不牢靠 基础,一样无法拿到高分。换句话说,模子 训练需要强负例,可是 不能只有最强的负例。为了平衡 较强与较弱的负例,融入课程学习 (Curriculum Learning) 是个不错的选择。[91, 92] 的研究都是让模子 先从简朴的负例学起,逐渐增大负例的强度,而其他领域、其他使命 中融入课程学习举行 负例选取的效果 值得我们去探索。[91]. On The Power of Curriculum Learning in Training Deep Networks. ICML(2016) [CV] [PDF][92]. Graph Representation with Curriculum Contrastive Learning. IJCAI(2021) [GRL CL] [PDF]3.3 负采样比例 (Negative Sampling Ratio)负采样要领主要是为了提升负例质量,而负采样比例则是决议 了负例的数目 。[93] 在图像分类的对比学习中定量剖析 了种种负例的主要 性;SimpleX [94] 批注 ,纵然是最基础的协同过滤要领,在合适的负采样比例与损失函数的加持下,也能优于现在 最优的推荐算法;[95] 对基于 InfoNCE 模子 训练中的负例数目 举行 了剖析 ,提出了一种动态顺应 采样比例的负采样要领。就现在 的研究来看,负采样比例也是一个尚待深挖的偏向。[93]. Are all negatives created equal in contrastive instance discrimination. arXiv(2020) [CL] [PDF][94]. SimpleX: A Simple and Strong Baseline for Collaborative Filtering. CIKM(2021) [RS] [PDF][95]. Rethinking InfoNCE: How Many Negative Samples Do You Need. arXiv(2021) [CL] [PDF]3.4 去偏采样 (Debiased Sampling)在只能会见正例和未标志数据 (Positive-Unlabeled) 的场景下,采样不行阻止 会有一定的误差 ,好比前面提到的 false negative 问题就是负采样中一种典型的采样误差 (sample bias)。[96] 首先对比了 Biased 和 Unbiased 要领的效果 差异,并提出了一个去误差 的对比学习目的 ,一定水平上纠正了负例的采样误差 ,在 CV、NLP 和强化学习使命 上验证了要领的有用 性。针对推荐系统曝光误差 对采样的影响,CLRec [97] 从理论上证实 晰 对比损失的盛行 度选择相当于通过逆倾向加权镌汰 曝光误差 ,为明确 对比学习的有用 性提供了新的视角。Debiased Contrastive Learning [96][96]. Debiased Contrastive Learning. NIPS(2020) [CL] [PDF][97]. Contrastive Learning for Debiased Candidate Generation in Large-Scale Recommender Systems. KDD(2021) [RS] [PDF]3.5 无采样 (Non-Sampling)前面都是思量 负采样要领的应用和展望,但负采样真的是必须的吗?[98, 99, 100] 划分在 CV、RS 和 KGE 领域提出了无需采样 (Non-Sampling) 的训练要领。[98] 基于傅立叶变换推导出一种对 Gram 矩阵举行 块对角化的变换,同时消除冗余并划分学习问题。重点在于,它允许使用数千张图像集中的所有潜在样本举行 训练,通过思量 全集,在一轮迭代中就可以天生 最优解,而强负采样要领需要好几轮才气到达相同的效果 。EHCF [99] 以为 采样不适合学习推荐系统中的异构行为数据 (heterogeneous scenarios),并推导出一种有用 的优化要领,以可控的时间重大 度解决了从整个数据中学习神经模子 的挑战性问题。NS-KGE [100] 以为 在知识图谱的嵌入学习中,以前基于负采样的学习要领仅思量 负实例的子集,虽然有助于降低模子 学习的时间重大 度,但由于采样历程的不确定性,这可能无法提供稳固 的模子 性能。NS-KGE 在模子 学习中思量 KG 中的所有负实例,从而阻止 负采样,并使用 数学推导来降低无采样损失函数的重大 性。实验效果 批注 NS-KGE 框架可以在效率和准确性方面取得更好的性能。负采样要领是辅助模子 训练的手段而不是目的,更不是必须品。倘若我们能在可遭受 的盘算负荷下自顺应 地思量 所有候选负例,那么不举行 负采样的无采样 (Non-Sampling) 要领也未尝不行。[98]. Beyond Hard Negative Mining: Efficient Detector Learning via Block-Circulant Decomposition. ICCV(2013) [CV] [PDF][99]. Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation. AAAI(2020) [RS] [PDF][100]. Efficient Non-Sampling Knowledge Graph Embedding. WWW(2021) [KGE] [PDF]4小结负采样 (Negative Sampling) 要领最初是被用于加速 Skip-Gram 模子 的训练,厥后被普遍 应用于自然语言处置赏罚 (NLP)、盘算机视觉 (CV) 和推荐系统 (RS) 等领域,在近两年的对比学习 (Contrastive Learning) 研究中也施展 了主要 作用。本文聚焦于负采样要领,将各领域的相关事情分为五类举行 先容 ,并展望了未来的研究偏向。笔者将文中涉及的 100 篇论文整理在了 RUC AI Box 小组的 GitHub 中,读者也可以在论文列表中快捷地找到论文的 PDF 链接。本客栈 将继续关注负采样要领 (Negative Sampling) 的研究希望 并一连 更新,接待 Star ~https://github.com/RUCAIBox/Negative-Sampling-PaperGAIR 2021大会首日:18位Fellow的40年AI岁月,一场手艺 前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处置赏罚 四十年,他们从无人区探索走到盘算的黄金时代 | GAIR 2021
2021-12-09
时间的实力 ——1991 人工智能大辩说 30 周年岁 念:主义不再,共融互生|GAIR 2021
2021-12-12
论智三易,串联通讯,意会 边缘,演进认知,汇于机械:听五位IEEE Fellow泛论AI未来 | GAIR 2021
2021-12-25