APP下载

AI趋势周报第82期:脸书发表影片生成AI,可撷取真实影片中人物来设计游戏

消息来源:baojiabao.com 作者: 发布时间:2024-03-29

报价宝综合消息AI趋势周报第82期:脸书发表影片生成AI,可撷取真实影片中人物来设计游戏

脸书首先利用Pose2Pose类神经网络,来建立人物动作姿势,来匹配摇杆的讯号,做出反应;再用另一套类神经网络Pose2Frame描绘出人物的外观,结合新场景和人物动作画面,产生出新影片。

重点新闻(0419~0425)

脸书     Vid2Game     影片生成 

脸书发表影片生成AI,可撷取真实影片中人物来设计游戏

脸书AI研究院日前发表一套影片生成AI,可从真实影片中撷取人物,再根据摇杆讯号来产生相应的人物动作姿势,最后结合新场景,产生出新的短片。

进一步来说,脸书AI研究院先从影片中撷取出人物,为了控制人物动作,研究员先用自家设计的Pose2Pose类神经网络,以自动回归机制(Autoregression)建立人物动作姿势,来匹配摇杆的讯号,做出反应。接着,再用另一套类神经网络Pose2Frame描绘出人物的外观,产生动作遮罩(Mask)后,再将给定的新场景结合人物动作画面,产生一段新的影片。脸书AI研究院表示,这是打造个人化游戏体验的前瞻研究,未来可望从日常影片中,就能随意设计出一套游戏。(详全文)

 

 

  Google     MorphNet    模型优化  

Google发布优化神经网络模型技术MorphNet

Google AI研究团队最近发表一项专门优化神经网络模型的技术MorphNet,并将相关的研究成果发表成论文。MorphNet是利用现有的神经网络当作输入值,并产生一个更小、更快、效能更好的全新神经网络模型。Google已将MorphNet这项技术用来设计生产规模的网络,将神经网络变得更小、更准确,同时,Google也将MorphNet技术用TensorFlow实现,并在GitHub开源释出。

MorphNet技术是针对现有的神经网络架构进行优化,优化的过程主要经过缩小(shrinking)和扩增(expanding)两阶段的循环处理,在缩小的阶段中,MorphNet会利用稀疏正规化的分类方法(sparsity regularization),来辨识低效率的神经元,并将这些神经元从网络中修剪掉。在扩增阶段,Google利用宽度乘数(width multiplier)来统一所有层数的扩增,重新分配计算资源。此外,使用者可以在缩小阶段后,停止执行MorphNet,来降低神经网络所需的资源。(详全文)

  牛津大学    机器人    ANYmal  

牛津大学设计新“行走”AI,帮4脚机器人在崎岖路面走得更稳

来自牛津大学和法国国家科学研究中心的团队,日前发表一套新算法,可帮助4只脚的机器人选择稳妥的立足点(也就是接触面),好在崎岖不平的路面上前进,更实际应用至自家机器人ANYmal上。

团队分2步骤来找出新的立足点,也就是先生成机器人引导轨迹,再顺着轨迹产生每个立足点。在第1步骤中,团队透过一套模型来分析环境、辨识可行走的接触面,并避开靠近边缘的表面。接着,同套模型会为机器人建立一条“可行走”的引导路径,让机器人的四肢顺着这条路径前进。团队表示,他们的AI系统在任何环境下产生约50步的规划路径,7秒内就能完成。不过,他们也提到,目前动态模拟的成功率仍不够高,还无法在真实世界中部署无人监督的机器人,这也是团队未来的努力方向。(详全文)

  Mozilla    Pyodide       资料科学  

Mozilla推出浏览器Python直译器,提供完整资料科学主流套件

Mozilla公开了能够在浏览器上执行的Python直译器Pyodide。Pyodide是一项实验性的Python计划,不需要远端kernel,就能够在浏览器上运行。Mozilla指出,Pyodide是能完全在浏览器上运行的标准Python直译器。Pyodide的灵感来自Mozilla的另一个计划Iodide,Iodide是一款在浏览器上执行资料科学的运算工具。但是,浏览器普遍使用的语言JavaScript缺少了成熟的资料科学函式库,也缺少许多好用的数值运算功能,像是运算子超载(operator overloading)。

Pyodide能让使用者使用完全标准的Python,也能存取浏览器网页的API。虽然Pyodide并非第一套在浏览器上执行的Python直译器,但Pyodide提供了完整的资料科学主流套件,比如NumPy、Pandas、Scipy和Matplotlib。(详全文)

  小马智行   自驾车    算法 

中国自驾车新创利用动态寻路算法,来优化自驾车点到点道路测试

中国自驾车新创小马智行(Pony.ai)日前于2019年上海车展中表示,已于美国、中国展开1年多的任意点到点自驾车道路测试计划PonyPilot。为更贴近现实路况,小马智行并非以固定路线的方式来测试自驾车,而是以任意点到点的方式来进行道路测试。这个做法,让自驾车必须因应各种突发状况,为此,小马智行采用动态寻路(Dynamic Routing)算法,让自驾车系统根据车道内状况,来动态预测路况并优化决策。

在测试期间,小马智行开发了自驾车试乘App,邀请民众在指定区域内叫车、试乘。该公司利用测试累积的大数据改善系统,并提升系统面对复杂交通路况和天气状况的稳定性。今年除了将扩大城市区域的道路测试范围,小马智行也开始研发长途货运自驾车,公司团队已完成感测器配置、整合和系统验证,并于中国主要城市干道和工业园区进行测试。(详全文)

哈佛   机器学习    结构预测  

哈佛医学院用新ML方法,使蛋白质结构预测快100万倍

哈佛医学院生物学家Mohammed AlQuraishi透过机器学习(ML),来侦测已知的蛋白质结构模式,再将其结果应用到预测别的蛋白质结构上,虽然预测结果对蛋白质折叠的应用还不够精准,但相比过去传统的方法,至少快上一百万倍,这项研究成果也发表于Cell System期刊,相关的软件和研究结果都在GitHub释出。

蛋白质折叠在过去几十年来,一直是一个相当知名的困难计算问题,科学家预测,要确定一种典型蛋白质数千个氨基酸的所有可能结构,可能耗时138亿多年。而Mohammed AlQuraishi与同事采用了一种可微分(differentiable)学习的机器学习方法,能根据输入的资料样本,向前和向后调整模型本身的元件,来发掘出蛋白质序列和架构之间的关系,这个递回基因网络模型就能够预测出最可能的氨基酸化学键连结和旋转角度。经过数月训练,预测模型在预测蛋白质结构的表现上,超越了近几年所有的其他方法。(详全文)

AWS    Alexa     语音辨识 

AWS研究团队找到改善Alexa语音和声音辨识的新方法

AWS近日发表两篇论文,解释如何以机器学习技术,来改善Alexa语音和声音辨识。首先,AWS开发出一套模型,透过检视长段音频来过滤掉非用户语音的背景声音讯号,以降低Alexa接收到的电子媒体干扰,比如电视或收音机的声音。

再来,AWS团队利用外部资料集,以半监督式学习法来训练语音事件侦测模型。半监督式学习法是采用小型已标注的训练资料集,来对照到大型未标注的资料集。AWS团队特别利用Tri-training模式,也就是以些许不同的资料集,来训练3个不同的模型,执行同一个任务。AWS团队提到,这些输出结果经过池化(Pooling),可以校正半监督式学习常见的问题,也就是改善模型错误放大的问题。(详全文)

图片来源/TensorFlow、Sam's Club、微软

 AI趋势近期新闻 

1. 脸书用非监督式学习,让AI在半小时内学会转换歌手声音

2. Aruba发布IoT网络探索系统,用机器学习协助分类连网装置

3. Google发布用于自动语音辨识的资料增强新方法

4. Twitter用ML技术在使用者举报前,主动找出滥用内容

资料来源:iThome整理,2019年4月

2019-04-25 12:19:00

相关文章