小知识,大挑战!本文正在参与“ 程序员必备小知识 ”创作活动
本文同时参与 「掘力星计划」 ,赢取创作大礼包,挑战创作激励金
摘要:
最近,基于自动编码器 (AE) 的嵌入方法已经
在许多任务中取得了最先进的性能,尤其是
在具有用户嵌入的 top-k 推荐或具有节点嵌入的节点分类中。然而,我们发现许多现实世界
数据服从关于数据的幂律分布
对象稀疏性。在学习这些数据的基于 AE 的嵌入时,
密集输入远离嵌入空间中的稀疏输入
即使它们高度相关。这种现象,我们
调用极化,显然会扭曲嵌入。在本文中,我们
提出利用两级正则化器有效地
缓解极化问题。宏观正则化器通常防止密集输入对象远离其他
稀疏输入对象,以及单独的微观正则化器
将每个对象吸引到相关的邻居对象而不是不相关的对象。重要的是,TRAP 是一种元算法,可以
很容易与现有的基于 AE 的嵌入方法结合使用
简单的修改。在使用六个真实世界数据集的两个代表性嵌入任务的广泛实验中,TRAP 提升了
最先进算法的性能高达 31.53%
和 94.99%。
介绍:
最近,许多基于自动编码器 (AE) 的嵌入方法得到了积极的研究,并且它们是经验性的
被证明不仅可以实现低维,而且可以实现高信息量的嵌入,因为它具有强大的表示能力
神经网络。因此,即使在高维数据中也可以平滑地捕获数据流形 [4]。这个家庭
众所周知,基于 AE 的方法达到了最先进的水平
在众多机器学习任务中的表现,尤其是在
具有用户嵌入的 top-k 推荐任务 [13, 29, 30] 或
链接预测和节点分类(或聚类)任务
节点嵌入 [4, 5, 8]。
尽管他们取得了巨大的成功,但我们声称偏斜的稀疏性
现实世界中输入向量(例如电影评分)的分布
数据严重损害了嵌入方法的性能。
具体来说,如图1a所示,稀疏分布
的输入向量强烈倾向于稀疏。这个
考虑到各种现象,观察是很自然的
在现实世界中大致遵循一个广泛的幂律
幅度范围 [3]。然而,如图 1b 所示,这
偏态分布带来极化问题,导致
密集输入远离嵌入中的稀疏输入
空间(详见第 3.2 节),即使两个输入是
高度相关。显然,这些极化的潜在表征
降低嵌入方法的性能。
直觉上,极化的有害影响非常普遍
在现实世界的场景中。让我们考虑一个推荐任务
其中其数据遵循幂律分布[28]。目标
任务的主要内容是向您推荐没有经验但有趣的项目
用户基于他们在假设下的估计偏好
人们的口味是高度相关的。然而,
极化问题阻碍了密集输入紧密
定位到潜在空间中的稀疏输入,而不管它们之间的相关性,因此,现有的嵌入方法
可能会不准确地估计用户的偏好。这个限制
呼吁采取新方法来缓解两极分化问题
本文转载自: 掘金