协同过滤推荐

推荐系统最基本的方面是巢状，这也是我们今天要讨论的内容。

协同过滤是一项可以预测使用者兴趣的任务, 这里以电影推荐的任务为例，假设我有一百万部电影和五十万使用者，而且我知道每个使用者观看过的电影。

任务很简单：我要向用户推荐电影。要解决这个问题，我们需要使用某种方法来确定哪些电影是相似的。我们可以通过将电影巢状到低维空间 （使得相似的电影彼此邻近）来实现这个目标。

如果您观看了3部电影，我就可以推荐和这3部电影相邻的给你。

按相似度整理电影（一维）

首先，我们先试着沿着一维巢状这些电影。为了更直观地了解巢状过程，请准备一张纸，试着在一维数轴上排列以下电影，让越相关的电影靠得越近：

按相似度整理电影（一维）

比如说，我可能会在左侧放入动画片，在右侧放入更加适合成人的电影，这种巢状有助于捕获电影的适宜观赏年龄段。

我可以向儿童推荐动画片，这个效果不错，但有些动画片不适合儿童观看，还有一些电影很少有人看，我们应该少推荐。但只有一个维度，我很难做出其它角度的判断。

按相似度整理影片（二维）

如果我们再新增一个维度，有两个维度的话会怎样呢？

按相似度整理影片（二维）

X轴的左侧是比较适合儿童的电影，右侧则是比较适合成人的电影， Y轴的顶部是比较卖座的大片，底部则是偏艺术类的电影。当然，这只是电影诸多重要特征中的两个。

利用这种二维巢状，我们可以定义电影之间的距离，从而使在适宜儿童或成人的程度上相近的电影以及属于大片或艺术电影的程度上相近的电影位于相近的位置，您可以看到位置相邻的电影比较类似，而这正是我们想要实现的目标。

我们所做的是将这些电影对映到一个巢状空间，其中的每个字词都由一组二维座标来表示。例如，在这个空间中，《怪物史莱克》对映到了 (-1.0, 0.95)，而《蓝》则对映到了 (0.65, -0.2)。此处的每部电影都可以仅由两个值组成的集表示，而且我们现在可通过这些点之间的距离 了解电影之间的相似性。

d 维巢状

尽管我只绘制两个维度，但实际上，您需要在D维空间中建模，二维不足以捕获一切内容。

通常情况下，在学习 d 维巢状时，每部影片都变成一个 d 维点，由d个数字表示，其中维度 d 中的值表示这部影片符合相应方面的程度。

实际上可以通过资料学习这些巢状，我们可以使用深度神经网络进行巢状，巢状层只是隐藏层，每个维度一个单元。

输入表示法

现在，我们看看如何将这种方法运用到神经网络中。

输入表示法

如图所示，我用一行表示一个使用者，一列表示一部电影，并在这个简单的示例中打一个勾表示使用者看过这部电影。每个样本其实只是此矩阵中的一行，我们来重点关注一下最后一行。

如果有五十万部电影，我可不想列出您没有看过的所有电影，所以，只是记下您看过的电影会更高效。

为实现这一目标，我们将使用以下输入表示法，为此，我们需要分两个阶段进行:

第一个阶段是预处理阶段: 在这个阶段，我们将构建名为字典的数据库，字典就是从各个特征到相应整数的对映。本例中，电影按照所在列的顺序对映相应整数，我会将第0列命名为第0个电影，将第1列命名为第1个电影，以此类推，这是我们在预处理阶段执行的一项一次性操作。现在，我可以高效地将那个最后一行样本仅表示为使用者看过的3个电影，而不用去管所有其他电影。实际上这只是3个整数: 1、3、999999, 因为这些数字表示使用者看过的3个电影的索引。