AI趋势周报第133期：35亿张照片训练而成！脸书亮相通用商品辨识AI最新消息

脸书利用一套商品辨识预训练模型GrokNet来自动侦测、分类商品，并根据照片属性，来自动贴标并给予购物建议。

重点新闻(0522～0528)

脸书市集 商品辨识 电脑视觉

脸书亮相通用商品辨识AI，家具、快时尚和跑车各种属性都难不倒

脸书日前揭露一款通用商品辨识AI系统GrokNet，可用来分割、侦测和分类商品，借此来了解商品该摆在什么地方，并提供购物建议。这套系统，已用于脸书市集和最新推出的电商服务Facebook Shops，该服务可让企业免费设置一个线上商店，并让消费者在脸书和Instagram上消费。

进一步来说，GrokNet用96个Nvidia Tesla 100 GPU和7个资料集（共35亿张照片、1万7千个标签）训练而成，这些资料来自上百万名使用者贴出和买卖的商品照片，横跨数十种商品种类，像是SUV休旅车、细跟高跟鞋和床边桌等等。

商用版的GrokNet拥有83个损失函数，可预测给定图片的上万种属性，像是类别、可能出现的搜索查询等。虽然GrokNet只用了256 bits来表示每个产品，但可产生内嵌资讯，就像指纹一样，可用于不同任务如商品辨识、视觉搜索、以图搜图，以及排名和个人化推荐等。

脸书表示，GrokNet可辨识数十亿张照片中的产品，不管这些产品是一模一样、相似，还是一张照片中有多种商品存在，都难不倒它；而且GrokNet的准确度，比起脸书市集上一代的算法，要好上2倍。脸书希望用GrokNet来改善买卖体验，让使用者更容易找到想要的产品。（详全文）

个资保护 差分隐私 深度学习

锁定个资保护需求，微软推出AI差分隐私工具包

微软在今年度开发者大会上，发布一款与哈佛社科研究院共同打造的差分隐私工具包WhiteNoise，使用者可在微软Azure机器学习服务中使用，也能从GitHub上下载程式码。

微软解释，差分隐私透过两步骤来保护资料，首先是在少部分个别资料点中增添统计噪声，来保护个人隐私，再来是计算每个查询中揭露的资讯量，只要超过总量允许范围，就会自动停止查询。

WhiteNoise平台中包含各种元件，供开发者自由组合使用。其中，WhiteNoise Core里有个开源函式库，提供差分隐私算法和机制，此外也提供快速安全的原生Runtime。另一方面，WhiteNoise Core也提供API来定义分析，以及一个验证器来评估这些分析、建立资料集的总隐私损失。（详全文）

赛灵思 抗辐射FPGA 即时推论

赛灵思抗辐射20奈米FPGA问世，在太空进行即时AI推论不是问题

赛灵思日前推出最新20奈米FPGA：XQRKU060，号称是业界首款航太20奈米产品。它具备抗辐射性、超高传输量和带宽等效能，可在太空中进行即时机器学习推论，也具有无限在轨（On-orbit）可重组能力，让数字信号处理效能提升 10 倍以上。这个特点，可让卫星即时更新，也能在飞行中即时处理复杂的算法。

这款FPGA支援了常见的深度学习框架如TensorFlow、PyTorch，此外，它具可扩展精度和大型内建内存，能有效执行计算，针对深度学习优化的INT8峰值，还能达到每秒 5.7 兆次运算，是上一代65奈米产品的 25 倍。（详全文）

影像处理 边缘运算 AI芯片

中研院联手玉山金控，成立AI研发中心攻FinTech

中研院日前联手玉山金控，宣布在中研院生技园区成立AI研发中心，要在未来两年内，加强研究交流、资讯产业价值、培训资讯人才等三大领域。这项计划锁定文本分析、异常侦测和自然语言生成，参与计划的核心人员包括中研院资创中心副研究员王钏茹、合聘助研究员蔡铭峰，以及资讯所副研究员古伦维。其中，王钏茹擅长财务工程和资料分析，蔡铭峰和古伦维负责自然语言处理、资讯检索和情感分析。双方计划将这些技术，用来发展金融科技。（详全文）

微软 OpenAI 超级电脑

微软联手OpenAI打造超级电脑，要加速通用AI发展

微软在开发者大会Build 2020上宣布联手OpenAI，要在Azure建立超级电脑。这款超级电脑由28.5万CPU核心、1万颗GPU，每台GPU服务器还有每秒400 gigabits的网络连线，规格等同世界五百大超级电脑的第5名。

架构在Azure的超级电脑，还享有其他现代云端的好处，像是部署快速、高可续性及可使用Azure多种服务。双方打造超级电脑的目的，是要开发通用人工智能（AGI），要透过微软提供硬件技术，来辅助OpenAI训练大型AI模型，并在Azure上训练、执行AI模型，特别是发展能进行多工任务的大规模AI。（详全文）

Cloud 解释性 机器学习 问责

微软推三大工具，要打造更公平、安全的AI应用

为了提高AI解决方案的透明度，微软和Aether委员会共同研发许多工具，整合在Azure上提供问责机器学习服务（Responsible ML）。其问责功能聚焦于三大部分：理解模型、保护个人与资料，以及控制端到端机器学习程序。

第一部分是InterpretML工具包，企业可用于模型可解释性，进一步理解模型行为，并向终端用户和业务相关人士，解释机器学习所产生的结果。再来是Fairlearn工具，以专门的算法来评估模型公平性，提供视觉化功能。最后是差分隐私工具包WhiteNoise，可用来防止个人资料被辨识。（详全文）

时间序列 TimescaleDB 多节点

上百万下载次数的时间序列数据库TimescaleDB，释出多节点1.7版本

拥有数千万下载次数，连西门子、富士通和Comcast都在用的开源时间序列数据库TimescaleDB，近日开源最新1.7多节点版本，内含资料保存（Data Retention）政策、降采样和资料重新排序政策等企业功能。

TimescaleDB是一个新兴数据库，可部署到各式平台，像是Kubernetes、Docker，也能直接使用官方提供，在AWS、Azure和GCP上提供的全托管企业级服务。这次免费开放的重要功能，是可以透过跨多节点的平行化操作，以及增加聚合磁盘的IOPS，来扩展读写能力，且能利用聚合下推（Push-Down Aggregation）来更快查询。另外，TimescaleDB的横向扩展能力，可以为线上的系统直接增加新的资料节点，而资料备份则可提供完善的容错和负载平衡能力。（详全文）

Nvidia 资料视觉化工具 云端市集

可用GPU加速丛集！Nvidia资料视觉化工具登上Google云端市集

Google云端市集近日上架Nvidia的资料视觉化工具IndeX，可让研究人员即时视觉化操作超大量的资料集。IndeX可提供准确且高品质的资料视觉化、资料表达和注释功能，而且支援高扩展性，对GPU架构最佳化，因此可跨多个GPU进行运算。

IndeX上架到Google云端后，可用GPU加速丛集，还能强化嵌入几何和多值体积资料的运算。Nvidia指出，IndeX还可透过Web API部署成为渲染服务器，让客户端应用程序也可以整合使用大规模资料集。（详全文）

图片来源／脸书、微软、赛灵思、玉山金控

AI趋势近期新闻

1. 开发团队现可利用GitHub Action自动更新IntelliCode完成功能

2. Google释出最新评估文字生成强健性的自动化指标BLEURT

3. OpenAI发表1750亿个参数的超大自然语言模型GPT-3

4. 百度开源Paddle Quantum量桨工具包，来推进AI量子研究

资料来源：iThome整理，2020年5月