数据挖掘系列篇(11):网易云音乐的个性化推荐漫谈

用过虾米、酷狗、QQ音乐、网易云音乐，个人感受网易云音乐在音乐推荐这块做的真心不错，特别是以“人”为角度的推荐，没有像虾米、酷狗推的那么乱。虾米还可以，但更多的是以歌搜歌的形式。刚注册了一个新的账号，避免有历史数据的干扰，听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》，然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》，给我的感觉还是比较惊喜，像蔡健雅一般听的人比较少，还能推荐到体验不错。当然也有很多不一定特别准，当然听歌这东西就不需要完全准确。网易云音乐关于个性化推荐这块在公司外部介绍的比较少，但应该推荐的算法和机制和大部分的音乐素材的公司做的类似。以item为核心的协同过滤（CF），通过打分机制来推荐最适合的歌曲。

印象中早期网易云音乐还可以将自己听的歌曲分享到微信朋友圈等，通过跳转关联到的账户ID识别出朋友关系。这个想法的确很赞，包括我第一次听《一路向北》的时候也是一个朋友推荐给我的，这首歌不仅是个人喜欢的风格，再加上有朋友推荐所以留下很好的印象。但是很可惜，现在朋友圈不能分享了。微博还可以分享，只是现在微博的数据很多水分。

数据挖掘系列篇(11):网易云音乐的个性化推荐漫谈

现在主流的方式都是人工+智能推荐，人工的方式就不过多介绍，费时费力。出不了几张有限的专辑。现在主流都是通过机器学习的方式，通过同类人类的偏好给相似的人群推荐他们都喜欢的歌曲。也有根据以歌的item推荐相似的歌曲，但体验就是听来听去就是那个风格，很快就乏味了。

算法部分：

1.相似人群的推荐

引用：著作权归作者所有。
作者：邰原朗
链接：网易云音乐的歌单推荐算法是怎样的？ – 邰原朗的回答
来源：知乎

有3首歌放在那里，《最炫民族风》，《晴天》，《Hero》。
A君，收藏了《最炫民族风》，而遇到《晴天》，《Hero》则总是跳过；
B君，经常单曲循环《最炫民族风》，《晴天》会播放完，《Hero》则拉黑了
C君，拉黑了《最炫民族风》，而《晴天》《Hero》都收藏了。

我们都看出来了，A,B二位品味接近，C和他们很不一样。
那么问题来了，说A，B相似，到底有多相似，如何量化？

我们把三首歌想象成三维空间的三个维度，《最炫民族风》是x轴，《晴天》是y轴，《Hero》是z轴，对每首歌的喜欢程度即该维度上的坐标，
并且对喜欢程度做量化(比如：单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-1 , 拉黑=-5 )。
那么每个人的总体口味就是一个向量，A君是 (3,-1,-1)，B君是(5,1,-5)，C君是(-5,3,3)。 (抱歉我不会画立体图)
我们可以用向量夹角的余弦值来表示两个向量的相似程度， 0度角(表示两人完全一致)的余弦是1， 180%角(表示两人截然相反)的余弦是-1。

根据余弦公式, 夹角余弦 = 向量点积/ (向量长度的叉积) = ( x1x2 + y1y2 + z1z2) / ( 跟号(x1平方+y1平方+z1平方 ) x 跟号(x2平方+y2平方+z2平方 ) )
可见 A君B君夹角的余弦是0.81 ， A君C君夹角的余弦是 -0.97 ，公式诚不欺我也。
以上是三维(三首歌)的情况，如法炮制N维N首歌的情况都是一样的。
假设我们选取一百首种子歌曲，算出了各君之间的相似值，那么当我们发现A君还喜欢听的《小苹果》B君居然没听过，相信大家都知道该怎么和B君推荐了吧。

第一类以人为本推荐算法的好处我想已经很清楚了，那就是精准！
代价是运算量很大，而且对于新来的人(听得少，动作少)，也不太好使，
所以人们又发明了第二类算法。

假设我们对新来的D君，只知道她喜欢最炫民族风，那么问题来了，给她推荐啥好咯？

如图，推荐《晴天》！

以及nick lee分享的一种矩阵计算得分的方式：

作者：nick lee
链接：网易云音乐的歌单推荐算法是怎样的？ – nick lee 的回答
来源：知乎
这里我想给大家介绍另外一种推荐系统，这种算法叫做潜在因子（Latent Factor）算法。这种算法是在NetFlix（没错，就是用大数据捧火《纸牌屋》的那家公司）的推荐算法竞赛中获奖的算法，最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差（RMSE）会小不少，效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。

这种算法的思想是这样：每个用户（user）都有自己的偏好，比如A喜欢带有小清新的、吉他伴奏的、王菲等元素（latent factor），如果一首歌（item）带有这些元素，那么就将这首歌推荐给该用户，也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同，而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵：

一，用户-潜在因子矩阵Q，表示不同的用户对于不用元素的偏好程度，1代表很喜欢，0代表不喜欢。比如下面这样：

二，潜在因子-音乐矩阵P，表示每种音乐含有各种元素的成分，比如下表中，音乐A是一个偏小清新的音乐，含有小清新这个Latent Factor的成分是0.9，重口味的成分是0.1，优雅的成分是0.2……

利用这两个矩阵，我们能得出张三对音乐A的喜欢程度是：张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

即：0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵

。（注，这里的破浪线表示的是估计的评分，接下来我们还会用到不带波浪线的R表示实际的评分）：

因此我们队张三推荐四首歌中得分最高的B，对李四推荐得分最高的C，王五推荐B。

如果用矩阵表示即为：

下面问题来了，这个潜在因子（latent factor）是怎么得到的呢？

由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的，事实上我们能获得的数据只有用户行为数据。我们沿用 @邰原朗的量化标准：单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5，在分析时能获得的实际评分矩阵R，也就是输入矩阵大概是这个样子：

事实上这是个非常非常稀疏的矩阵，因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢？这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵，用Q和P两个矩阵的乘积去估计实际的评分矩阵，而且我们希望估计的评分矩阵

事实上这是个非常非常稀疏的矩阵，因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢？这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵，用Q和P两个矩阵的乘积去估计实际的评分矩阵，而且我们希望估计的评分矩阵

和实际的评分矩阵不要相差太多，也就是求解下面的目标函数：

这里涉及到最优化理论，在实际应用中，往往还要在后面加上2范数的罚项，然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵：

这两个矩阵相乘就可以得到估计的得分矩阵：

这两个矩阵相乘就可以得到估计的得分矩阵：
将用户已经听过的音乐剔除后，选择分数最高音乐的推荐给用户即可（红体字）。

将用户已经听过的音乐剔除后，选择分数最高音乐的推荐给用户即可（红体字）。

在这个例子里面用户7和用户8有强的相似性：
从推荐的结果来看，正好推荐的是对方评分较高的音乐：

从推荐的结果来看，正好推荐的是对方评分较高的音乐：