APP下载

Google AI相机Clips不只会拍照,还能自动选择场景拍摄短片

消息来源:baojiabao.com 作者: 发布时间:2024-04-18

报价宝综合消息Google AI相机Clips不只会拍照,还能自动选择场景拍摄短片
图片来源: 

Google

Google前阵子释出AI相机Clips,最近则在AI研究部落格公开用Google Clips自动捕捉重要瞬间和短片的实验方法,找来摄影专家手动为训练资料集的影片片段评分,让AI模型学习如何辨识出有趣的拍摄场景。

Google研究团队过去一直在研究如何用深度学习方法,让电脑视觉算法辨识拍摄照片的元素,像是人、微笑、宠物、日落、知名的景点等,Google Clips的设计围绕着3个重要的原则。

首先,所有的计算都必须在行动装置上完成,这样一来,除了可以延长相机电池的寿命之外,还能够减少延迟性,在行动装置上执行计算也意味着,所有的拍摄片段都只会存在装置上,并不会外流,同时可以保护用户隐私,用户能够自行选择是否要储存和分享。

第二个原则是团队希望相机可以拍摄短片,而不是只有单张的照片,因为动作更能够保留当时的回忆,且拍摄短片比起照片,更容易捕捉到重要的时刻。

最后一个原则是要聚焦于捕捉人和宠物的镜头,而不是一些抽象场景的艺术照片,也就是说,Google的研究团队不会尝试着教导Clips如何调整构图、色彩平衡、光线等,而是让Clips自动聚焦于包含人和宠物有趣互动的场景。

而Google研究团队是如何训练Clips捕捉重要的拍摄时刻和场景?如同许多机器学习的训练过程,要先从训练资料集开始,首先Google研究团队建立了包含数千个影片的资料集,且该资料有多种不同的场景、性别、年龄和种族,接着,研究团队找来专业的摄影师和影片的剪辑专家,手动挑选出短片中最好的片段,这些挑选过的片段能够让算法模拟。

不过,要训练算法学习主观的判断是非常有挑战性的,需要有合适的量化指标让算法了解内容的品质,像是从完美到最糟的。为了解决这个问题,研究团队收集了第二个资料集,为了要为整段影片创造出连续的品质分数,团队将影片分成多个片段,随机挑选两个片段,让摄影专家选出较好的片段。

研究团队不让专家直接对影片评分,而是透过成对的对比方法,因为二选一的方式,比直接给予一个品质评分,更为直观、简单,专家用成对对比方式的挑选结果也较为一致,能够让研究团队计算影片品质分数,Google从超过1,000支影片中,收集了超过5千万对的片段,来让人类专家评分。

完成资料集后,就进入训练模型的阶段,要训练神经网络模型评估相机拍摄每张照片的品质,首先先假设系统了解场景内的主角,像是人、狗、树等,如果假设正确,就能利用辨识照片内容来预测品质分数。

为了能够辨识训练资料集中照片的物体,研究团队利用Google相片和图片搜寻服务背后的机器学习技术,该技术可辨识超过27,000种不同的物体、概念和动作的标签,由专家挑选出大约数百种需要的标签,来设计辨识模型。

为了让辨识模型可以在装置上预测任何照片的品质,Google研究团队训练了电脑视觉模型 MobileNet相片内容模型(Image Content Model),来模仿以服务器预测的模型,该压缩的模型可以从照片中辨识出最多有趣的元素,将不相关的内容排除。

最后一个步骤即是从输入照片的内容,预测品质分数,除了用训练资料集来确保预测的准确度之外,研究团队还为已知的有趣场景调整品质分数的权重,像是重复出现的脸部、微笑和宠物、拥抱、亲吻和跳舞等。

有了预测有趣场景的模型后,相机就能根据预测结果,即时决定要捕捉哪些画面,大多数的机器学习模式都是用来辨认照片中的物体,但是,Google Clips要辨认的目标更为模糊且主观,因此需要结合客观和意义的内容,来让专家建立主观的AI预测模型,此外,Clips的运作模式并非全自动,而是需要与人类一同合作,为了拍摄到更好的结果,需要由人确保相机镜头聚焦于有趣的场景。

2019-01-26 01:40:00

相关文章