从这9点去看什么才是好的推荐系统？_使用者最新消息

一个推荐系统的好坏实实在在影响着使用者使用产品的感受，我们如何判断推荐系统的好坏？一个好的推荐系统需要注意哪几点？

生活中，我们对推荐系统一点都不陌生，甚至会天天接触。相信我们很多人都有这样的体会：

这也许就是推荐系统的美和魅力吧！

什么是好的推荐系统?

一个推荐系统，往往存在3个参与方：使用者、物品提供者、提供推荐系统的产品。

好的推荐系统是一箭双雕的，能优雅的帮助使用者和物品提供方解决问题。

作为推荐系统的产品经理，除了我们主观去评估推荐系统质量，那么还有哪些客观指标可以评估一个推荐系统的质量的？

1. 使用者满意度

使用者作为推荐系统的重要参与者，其满意度是评测推荐系统的重要指标，通常通过使用者调查和使用者线上行为分析获得。

（1）使用者调查

使用者调查主要是通过问卷的形式进行，使用者对推荐系统的满意度往往分为不同的层次。

我们之前做过对猎头推荐职位的调研，问卷中有个问题是，请问下面哪句话最能描述你看到推荐结果后的感受？

调查问卷需要从不同的侧面询问使用者对结果的不同感受。

如果只是问使用者是否满意，使用者可能心里会认为大体满意，但是对某个方面还是有点不满意，因而会很难回答这个问题，即使回答了，我们在统计分析结果的时候也会不知所措。

（2）线上行为分析

线上行为分析，也就是常说的使用者点选率、停留时间和转化率等指标来度量。

当我们闲来无事，想逛逛某宝的时候，首页会推荐一个商品列表，如果我们满意，我们就会点选某个商品，而且还很可能会购买商品。

使用者的点选率、停留时间和购买转化率，都能很客观的反应我们的满意度。

很多做内容推荐的产品，比如头条，会主动提供使用者是否满意的入口，使用者可以直接反馈对该条内容不感兴趣。

通过使用者的直接反馈，也可以度量系统的使用者满意度。

2. 预测准确度

这个指标是推荐系统预测使用者行为的能力，是一个非常重要的离线评测指标。

首先，准备一个离线的资料集，包括使用者的历史行为记录；然后，将该资料集通过时间分成训练集和测试集；最后，通过在训练集上建立使用者的行为和兴趣模型，预测使用者在测试集上的行为，并且把计算预测行为和实际行为的重合度作为预测准确度。

（1）用得比较多的是我们常常见到的评分系统：

很多网站，不管是买了衣服，还是看了一部电影，都会提供一个让使用者给物品打分的功能。这样我们就能知道使用者对物品的历史评分，从中学习使用者的兴趣模型，并预测该使用者，会给没有评分过的物品打多少分。

（2）还有一种比较常见的topN预测准确度：

假如我们已经获取到使用者历史观看电影的记录资料：

那么:

准确率=（A与B的交集）/ A

召回率=（A与B的交集）/ B

这个评估指标重点是：找出使用者最有可能看的电影。

3. 覆盖率

描述一个推荐系统对物品长尾的发掘能力。

覆盖率=能够推荐出来的商品数量/总物品数量

以图书推荐为例，出版社可能会很关心，他们的书有没有被推荐给使用者；覆盖率为100%的话，说明推荐系统可以将每个物品都推荐给至少一个使用者。

除了图书都能被推荐出来，每本书被推荐出来的次数也是很关键的。如果所有的物品都有机会被推荐，且推荐次数差不多，那么说明覆盖率越好。

大家可能都听说过“马太效应”，就是所谓的强者更强，弱者更弱。一般的热门排行榜就有马太效应。

但是推荐系统的初衷是希望消除马太效应的，这个也是推荐系统魅力的体现。

4. 多样性

尽管使用者的兴趣，在较长的时间跨度中是不一样的：在一个视讯产品中，使用者可能即会看《蜡笔小新》这样的动画片，也会看《权利的游戏》这样的史诗奇幻题材的电视剧。

但具体到使用者访问推荐系统的某一刻：其兴趣往往是单一的，那么如果推荐列表只能覆盖使用者的一个兴趣点，而这个兴趣点不是使用者这个时刻的兴趣点，就不会让使用者满意。

相反，如果推荐列表比较多样，覆盖了使用者绝大多数的兴趣点，那么就会增加，使用者找到感兴趣视讯的概率。

这里就用到逆向思维来看！

我们通常会去计算物品和物品之间的相似性，因为多样性和相似性是对应的。而计算相似性，往往通过物品的以下几方面进行：

那么多样性最好是到什么程度呢？

如果使用者80%的时间都在看搞笑的综艺，20%的时间在看写实的节目。如果提供以下几个推荐列表，你会觉得哪个比较好呢：

一般我们会认为C列表是最好的，因为他具有一定的多样性，又兼顾了使用者的主要兴趣。推荐列表比较多样，会增加使用者找到感兴趣物品的概率。

5. 新颖性

让使用者觉得新颖，其实就是推荐那些他们感兴趣，但是以前没有听说过的物品。

最简单的方式，就是在推荐列表里，过滤掉使用者历史产生过行为的物品，包括浏览过的、点选过的等等。

但是呢，因为现在内容很可能出现在多个产品里，在我们的产品里没有，不代表使用者在其他产品也没见过。

所有会利用推荐结果的平均流行度，越不热门的物品越可能让使用者觉得新颖，但是其实，这个方法也是很粗略的，很难准确做出评估，因为不同使用者不知道的东西是不一样的。

所以现在没有一种比较好的统计方法，可以做到新颖性的评估。更多依赖于使用者调查和线上实验测试。当我们推荐物品给使用者后，可以观察使用者的行为结果。

首先，去筛选跟使用者兴趣匹配的技术文章，找出最近产生的，因为历史的很有可能会被看过了；然后，我们可以挑选非热门的，因为热门的也有可能被看过了；最后，线上上去观察使用者的点选率，如果点选率比较高，则说明使用者对这个文章感兴趣。

6. 惊喜度

我们经常在分析需求的时候，会把需求分为几个层次：

推荐系统也是一样，给使用者惊喜都是我们的终极目标。

也就是，推荐给使用者潜意识里需要，但是又没有明确表达出来的。换句话说，跟使用者历史行为不相似，但是使用者却觉得满意的推荐。

如果使用者历史上喜欢看刘德华的电影，然后我们推荐了《天下无贼》，如果使用者没有看过这个电影，那么可以说这个推荐具有新颖性，但是不会有惊喜度，因为很大可能是他预期内的。

但是，如果我们一部周星驰的《美人鱼》给他，他看完电影后很满意，“竟然把这么好的电影推荐给我了”！那么这个时候他就会觉得惊喜了。

怎么去做呢？

首先，定义推荐结果和使用者历史上喜欢物品的相似度；

其次，需要定义使用者对推荐结果的满意度；

提高推荐惊喜度，需要提高推荐结果的使用者满意度，同时降低推荐结果和使用者历史兴趣的相似度。

7. 信任度

人是社交型动物，喜欢熟悉的东西，喜欢熟悉的人，推荐系统也是一样，需要和人之间建立某种信任，那么就需要让使用者了解推荐系统。

最简单的方式，就是增加推荐系统的透明度，也就是提供推荐解释，让使用者知道这个推荐结果是怎么产生的，了解推荐系统执行机制。

其次是考虑使用者的社交网络资讯，利用使用者的好友资讯给使用者做推荐，并且用好友进行推荐解释。

很早以前，我们经常会看到“你好友也关注”、“购买了相似物品”。

8. 实时性

想想：如果头条老是推荐前几天的新闻，我们会有多么的奔溃？如果淘宝老是推荐我一年前购买过的相似物品，我们会是什么心情？

实时性，包括两个方面：

一是，及时更新使用者的兴趣，满足使用者新的行为变化，我们现在在淘宝上，今天买了一本育儿绘本，如果再次访问淘宝，那么首页会推荐育儿相关的玩具、其他书籍；

二是，及时把新上架的物品推荐给使用者，这个也主要解决了物品冷启动的问题，一个物品如果在平台里一直得不到推荐，那么物品肯定不会带来浏览和转化，那么物品提供方可能就没有太多心情，持续提供好的内容了。

9. 商业目标

我们评测一个推荐系统，很多时候更加注重商业目标是否达成。

因为任何一个成功的产品，除了解决使用者的问题以外，还需要解决盈利的问题。

一般来说，商业目标就是一个使用者给公司带来的盈利，电子商务产品的目标可能是销售额，内容消费产品可能是广告收入。

而好的推荐系统一定是使用者问题和商业目标平衡做的很好的。

本文由 @杭熹原创释出于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

从这9点去看 什么才是好的推荐系统？_使用者

品牌选车

从这9点去看什么才是好的推荐系统？_使用者