APP下载

Facebook用AI看图识菜谱是怎么实现的?| 硅谷洞察_影象

消息来源:baojiabao.com 作者: 发布时间:2026-05-14

报价宝综合消息Facebook用AI看图识菜谱是怎么实现的?| 硅谷洞察_影象

研究内容是什么:

根据人类的判断,一种直接从食物影象中生成菜谱的新方法,可以生成比基于检索的方法更吸引人的菜谱。通过在大规模菜谱资料集上进行的评估,该方法提高了与以前的成分预测方法基线相比的效能。通过这项工作,我们旨在通过输入食物影象来提供准备一顿饭的途径。(简单说就是:你不再需要搜做什么的菜谱如何,给 AI 一张食物图片,它就能给你判断食材和制作过程有哪些,然后生成菜谱)

工作原理:

从影象生成菜谱需要同时了解构成菜谱的配料以及它们所经过的任何加工,例如切片或与其他配料混合。传统上,影象到菜谱的问题被表述为一个检索任务,菜谱是根据嵌入空间中的影象相似度评分从一个固定的资料集检索出来的。这些系统的效能在很大程度上取决于资料集的大小和多样性,以及所学的嵌入的质量。毫不奇怪,当静态资料集中不存在用于影象查询的匹配菜谱时,这些系统就会失效。

克服检索系统资料集约束的另一种方法是将影象到菜谱的问题表示为条件生成问题。我们认为,与直接从影象中获取菜谱不同,生成菜谱的管道将受益于中间步骤:预测配料列表。然后根据影象及其对应的配料列表将会生成指令序列,其中影象和配料之间的相互作用可以提供关于后者是如何加工成最终菜肴的额外见解。

我们的影象到菜谱的生成系统将食物影象作为输入,并输出包含标题、配料和烹饪说明的配方。我们的方法首先对影象编码器和成分解码器进行预训练,它们利用从输入影象和成分共现中提取的视觉特征来预测一组成分。

然后,我们训练成分编码器和指令解码器,它们通过提取影象的视觉特征和预测的成分,并将它们输入一个最先进的序列生成模型,从而生成标题和指令。

为什么重要:

食品识别挑战了当前的计算机视觉系统,使其不仅仅是可见的。与自然影象理解相比,视觉成分预测需要高阶推理和先验知识(例如,羊角面包可能含有黄油)。这带来了额外的挑战,因为食物成分具有很高的类内变异性,在烹饪过程中会发生严重的变形,而且成分经常在烹饪的菜肴中被掩盖。我们的系统是迈向更广泛的食品理解系统的第一步,如卡路里估算和菜谱建立。

此外,此类培训可用于需要从影象和预测关键字预测长结构化文字的任何问题。管道的第一部分(成分预测)可用于解决更广泛的问题,如影象到集合预测。

更多精彩,敬请关注硅谷洞察官方网站(http://www.svinsight.com)

2020-01-23 00:13:00

相关文章