APP下载

Google释出资料格式转换工具TFRecorder,解决模型训练资料载入瓶颈

消息来源:baojiabao.com 作者: 发布时间:2024-05-20

报价宝综合消息Google释出资料格式转换工具TFRecorder,解决模型训练资料载入瓶颈

Google开源了深度学习框架TensorFlow相关专案TFRecorder,TFRecorder让用户利用几行程式码,就能够创建基于图像的TFRecords格式资料,以解决因资料载入瓶颈,所导致机器学习效能低落的问题。

在训练机器学习模型的时候,资料载入有时候会成为效能瓶颈,这是由于GPU或TPU加速器运算速度很快,但将资料载入到模型的速度相对较慢,因此造成GPU或TPU需要等待资料的状况,而使得运算资源利用率不足。

要解决资料载入瓶颈的方法之一,便是使用TFRecord档案格式将资料储存成为档案集,每个档案集包含了被序列化为二进制纪录的Protocol Buffer序列,能够被有效率地读取。TFRecord格式透过预撷取的方式提高资料载入效能,也就是说,当模型正在执行训练的时候,下一阶段要用到的训练资料,就已经先开始载入,这样平行交错的方式,系统可以同时读取多个TFRecord分片,并且对这些资料串流进行预处理,以减少读取训练批次的延迟,对于需要透过网络读取资料的情境特别有用。

Google提到,虽然使用TFRecord格式能够解决资料载入瓶颈问题,但是要产生TFRecord需要复杂的程序。过去,开发者为了要产生大量的TFRecord资料,需要编写资料工作管线,以解析结构化资料,并从储存装置载入图像,最终还要序列化结果为TFRecord格式,为此,Google开源释出了TFRecorder来简化格式转换,让用户能够将资料从Pandas资料框架或是CSV格式,简单地产出TFRecord格式资料。

TFRecorder目前还是有一些限制,TFRecorder可用格式有限,Google提到,他们之后希望可以扩展TFRecorder支援的格式。另外,TFRecorder有规模限制,虽然可以简单地处理数千张图像,但是要处理数百万张图像又是另一回事,为了解决规模问题,TFRecorder可以连接到Google云端的Apache Beam服务Dataflow,以处理大量图像应用。

2020-08-13 09:49:00

相关文章