资源|18分钟训练ImageNet复现代码
消息来源:baojiabao.com 作者: 发布时间:2026-04-20

选自 GitHub
作者:
yaroslavvb、bearpelican
机器之心整理
由 fast.ai 学员 Andrew Shaw、DIU 研究员 Yaroslav Bulatov 和 Jeremy Howard(fast.ai 创始研究员)组成的团队在 18 分钟内成功完成训练 Imagenet 的任务,准确率达到 93%。本文介绍了
Yaroslav Bulatov
刚刚放出的复现代码。
项目地址:https://github.com/diux-dev/imagenet18
fast.ai 使用了 16 个 AWS 云实例(每个实例使用 8 个英伟达 V100 GPU)来运行 fastai 和 PyTorch 库。这一速度打破了在公共基础架构上训练 Imagenet 达到 93% 准确率的速度记录,且比谷歌在 DAWNBench 竞赛中使用其专有 TPU Pod 集群的训练速度快 40%。该团队使用的处理单元数量和谷歌的基准(128)一样,运行成本约 40 美元。
项目贡献者 yaroslavvb 正是该团队的成员之一:
运行要求:
Python 3.6 或更高版本
依赖:
awscli
boto3
ncluster
paramiko
portpicker
tensorflow
tzlocal
pip install -r requirements.txt
aws configure (
or
set your AWS_ACCESS_KEY_ID/AWS_SECRET_ACCESS_KEY/AWS_DEFAULT_REGION)python train.py
# pre-warming
python train.py
如果想要用更少台机器执行训练,可以使用以下选项:
python train.py --machines=
1
python train.py --machines=
4
python train.py --machines=
8
python train.py --machines=
16
检查进度
机器会打印进度到本地 stdout,以及记录 TensorBoard 事件文件到 EFS。你可以:
使用工具或 launch_tensorboard.py 来运行 TensorBoard
这将提供到 TensorBoard 实例的链接,其拥有“losses”组的损失函数图。你将在“Losses”标签下看到这样的结果:
使用运行期间打印出的指令来连接到其中一个实例:
2018-09-06
17
:26
:23.562096
15.
imagenet: To connect to15.
imagenetssh -i /Users/yaroslav/.ncluster/ncluster5-yaroslav
-316880547378
-us-east-1.
pem -o StrictHostKeyChecking=no ubuntu@18.206.193.26
tmux a
这将连接到 tmux 会话:
.997
(65.102
) Acc@5
85.854
(85.224
) Data0.004
(0.035
) BW2.444
2.445
Epoch: [
21
][175
/179
] Time0.318
(0.368
) Loss1.4276
(1.4767
) Acc@1
66.169
(65.132
) Acc@5
86.063
(85.244
) Data0.004
(0.035
) BW2.464
2.466
Changing LR
from
0.4012569832402235
to0.40000000000000013
Epoch: [
21
][179
/179
] Time0.336
(0.367
) Loss1.4457
(1.4761
) Acc@1
65.473
(65.152
) Acc@5
86.061
(85.252
) Data0.004
(0.034
) BW2.393
2.397
Test: [
21
][5
/7
] Time0.106
(0.563
) Loss1.3254
(1.3187
) Acc@1
67.508
(67.693
) Acc@5
88.644
(88.315
)Test: [
21
][7
/7
] Time0.105
(0.432
) Loss1.4089
(1.3346
) Acc@1
67.134
(67.462
) Acc@5
87.257
(88.124
)~~
21
0.31132
67.462
88.124
最后一个数字表示在第 21 个 epoch 时,本次运行获得了 67.462% 的 top-1 测试准确率和 88.124% 的 top-5 准确率。
fast.ai 的主要训练方法是:fast.ai 用于分类任务的渐进式调整大小和矩形图像验证;英伟达的 NCCL 库,该库整合了 PyTorch 的 all-reduce 分散式模块;腾讯的权重衰减调整方法;谷歌大脑的动态批量大小的一个变体,学习率逐步预热(Goyal 等人 2018、Leslie Smith 2018)。该团队使用经典的 ResNet-50 架构和具备动量的 SGD。
本文为机器之心整理,
转载请联系本公众号获得授权
。?------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:
content
@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com
相关文章
B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09
科大讯飞同传同声翻译软件造假 浮夸不能只罚酒三杯2023-02-17 18:46:15
华为mate20pro系列手机首发上市日期价格,屏幕和电池参数配置对比2023-02-17 18:42:49
小米MAX4手机上市日期首发价格 骁龙720打造大屏标准2023-02-17 18:37:22
武汉弘芯遣散!结局是总投资1280亿项目烂尾 光刻机抵押换钱2023-02-16 15:53:18
谷歌GoogleDrive网云盘下载改名“GoogleOne” 容量提升价格优惠2023-02-16 13:34:45
巴斯夫将裁员6000人 众化工巨头裁员潮再度引发关注2023-02-13 16:49:06
人手不足 韵达快递客服回应大量包裹派送异常没有收到2023-02-07 15:25:20
资本微念与李子柒销声匿迹谁赢? 微念公司退出子柒文化股东2023-02-02 09:24:38
三星GalaxyS8 S9 S10系统恢复出厂设置一直卡在正在检查更新怎么办2023-01-24 10:10:02
华为Mate50 RS保时捷最新款顶级手机2022多少钱?1.2万元售价外观图片吊打iPhone142023-01-06 20:27:09
芯片常见的CPU芯片封装方式 QFP和QFN封装的区别?2022-12-02 17:25:17
华为暂缓招聘停止社招了吗?官方回应来了2022-11-19 11:53:50
热血江湖手游:长枪铁甲 刚猛热血 正派枪客全攻略技能介绍大全2022-11-16 16:59:09
东京把玩了尼康微单相机Z7 尼康Z7现在卖多少钱?2022-10-22 15:21:55
苹果iPhone手机灵动岛大热:安卓灵动岛App应用下载安装量超100万次2022-10-03 22:13:45
苹果美版iPhone可以在中国保修 从哪看怎么查询iPhone的生产日期?2022-09-22 10:00:07










