热门关键词:
首页 综合资讯

脸书开源服务器端推理函式库FBGEMM,以低精度运算加速机器学习推理

导读: 与科学计算中使用的传统线性代数函式库不同,FBGEMM不使用FP32或FP64精度,而是透过降低精度计算以加速深度学习模型。
图片来源: 

脸书

脸书开源特别针对服务器推理进行最佳化的高效能核心函式库FBGEMM,与其他函式库不同的是,FBGEMM最佳化了CPU效能,透过降低精度计算以加速深度学习模型,目前脸书已经在自己的服务中使用了这个函示库,对照于现今的生产基准,带来了两倍的性能提升。

为了让大规模生产服务器有效执行先进的深度学习模型,脸书因而建构了FBGEMM,这是一种低精度、高效能的矩阵相乘以及卷积网络函式库,FBGEMM针对服务器端的推理做了最佳化,在深度学习框架执行量化推理时,能够同时兼顾准确性和效率,让脸书基于CPU的系统,实现比前一代还要快两倍的效能。

脸书把所有低精度推理需要的模组都打包进单一函式库,开发者现在可以透过Caffe2前端来部署FBGEMM,并且在不久的将来,还能透过PyTorch 1.0的Python前端进行呼叫,而FBGEMM与前些时日开源的QNNPACK,同作为支援PyTorch 1.0平台的一部分,全面支援量化推理。

FBGEMM最大的特色在于对低精准度资料的最佳化,与科学计算中使用的传统线性代数函式库不同,FBGEMM不使用FP32或FP64精度,能为小批次提供有效的低精度通用矩阵相乘(GEMM)运算,并且支援精准度损失最小化技术,像是Row-wise量化和异常值感知量化。

FBGEMM已经在脸书中大规模部署,加速了许多端到端的人工智能服务,包括将英文翻译成西班牙文的速度提高了1.3倍,减少了40%推荐系统资讯来源动态内存带宽使用,并为机器学习系统Rosetta加速了2.4倍的字符检测速度。Rosetta是脸书用来理解文字、图片和影片内容的系统,被应用在脸书以及Instagram上的各式使用案例,包括自动识别违反社群规则或是个性化产品服务。

脸书提到,矩阵相乘的运算效率对机器学习来说至关重要,对脸书的资料中心来说,完全连接运算子(Fully connected Operators)是深度学习模型中浮点数运算的大宗。在脸书对自家资料中心进行分析,测量了24小时深度学习推理浮点数运算的分布,完全连接运算子占全部推理浮点数运算的77%。

由于完全连接运算子就是一般的矩阵相乘运算,因此整体效率也就直接取决于矩阵相乘的效率,脸书提到,不少深度学习框架卷积依矩阵相乘运算实作为im2col,因为高效能运算领域中的线性代数函式库,提供了高效能的矩阵相乘运算实作,但是im2col输入资料的副本与复制动作,带来了额外的成本,所以不少深度学习函式库也实做了无im2col的卷积来提高效率。

而脸书提供了融合im2col和主要矩阵相乘运算核心的方法,以最大程度降低im2col带来的额外成本,脸书提到,高效能矩阵相乘运算核心是一个重要的关键,通常在深度学习的高效能运算函式库供给和需求都存在错误配对,高效能运算函式库通常不支援有效率的量化矩阵相乘相关运算,也没有针对深度学习推理中常见的矩阵形状以及大小进行最佳化。

深度学习模型通常使用FP32资料类型来表达活跃度和权重,但使用具有混合精度资料类型的计算,通常更加有效率,脸书表示,最近的研究也都显示,使用混合精度的推理,并不会对精确度产生不利的影响,FBGEMM透过这种替代性策略,加上量化模型来提高推理效能。

新一代的GPU、CPU和专用张量处理器,本身都支援低精度算子,像是Nvidia张量核心中支援FP16和INT8,还有Google处理器也支援INT8,脸书提到,深度学习社群正往低精度模型发展,这也代表量化推理是正确的方向,而FBGEMM提供当前和下一代CPU,一种有效执行量化推理的方法。

文章标签:

iwata GS-01 | 飞宇g6 plus | google pixel 3XL | gopro hero | onkyo ns-6170 | 华硕rog g703 | lg v30s | gfx50r | SX740 HS | vivonex星迹版 | v-moda remix | iPhone XS | dmc-fx500 | ATH-DSR5BT | ryzen 32200ge | canon g7x | madgaze x5 | Intel H310C | Klipsch X20i | Nikon D500 | rayo r4 | nokia8 sirocco | fs700 | H310C | GL503VS | sx740 hs | peak design | xz3 compact | amd b450 | 松下fz2500 | HTC UUltra | MINT TL70 | Artisul D16 | Lumix GX9 | EF 200-600mm | sony a6300 | lg v40 | instant magny | 8x max | Table Z2 | ux331ual | nikonZ6 | TG-Tracker | yashica35 | nikon d3500 | Zotac MEK1 | EF-M32 | xpg spectrix | helio a22 | rog g703 | Xperia XZ3 | lg v30+ | sony A7000 | kirin 970 | IER-M9 | ux370ua | gear s3 | 2990WX | Laowa 24mm | oneplus 5t | lg g6+ | piega coax 711 | AirPods 2 | mrg g2000 | zte axon7 | iwata GS-01 | i99900k | htc u11+ | 8848m5 | SLT-A99V | lg g5 | oppo r9 | TY-AK1 | rtx 2080 | s8800 | FEIYUG6 Plus | Ryzen 5 | Aumeo Audio | VAIOs11 | 26 AF-2 | Ps4 pro | Parrot ANAFI | metz m400 | LG G7 | Leica M-E | voyager 4 | vivo x21i | nikon Z6 | iXM 100MP | poco f1 | mavic 2 | cats41 | note9 S pen | htc blot | LargeSense LS911 | PEP 572 | ty-ak1 | thieye i60+ | i7 8086k | lumia 940xl | sony a6000 | moto z3 | Dyson V10 | AMD 2990X | vivo y75s | am pro30 | gpu turbo | aps-c | a6300 aps-c | a6300 | 90mm Macro | rtx2080 | AF-P 70-300mm VR | gtx1180 | mtk6737 | Sony SBH90C | sbh90c | SUGARY12 | nexum aqua+ | ryzen3000 | dysonV10 | Prostereo H2 | msige73 | note9 | 360 n7 | lg q6 | gopro 7 | oppo r17 | oppo r17 pro | vivo x5 | r6 neckband | xa2 plus | cats60 | 华为p21 | nokia7 plus | lgv30 | LITHRONE G37 | dmp z1 | M1803E6E | leagoo s10 | tab s4 | aftershokz | mad gaze x5 | xps 13 | int 2228 | DP-UB9000 | ie800s评测 | h370 | FINsix | asus fx504 | IMX309AQJ | mix2s AI相机 | 松下GH3 | B360主板 | Aurex TY-AK1 | 尼康28-300 | FE-Mount | agmx3 | 华为maters | vivoy75s | 150-400mm Pro | eos1100D | 魅族x8 | Fz2500 | msige73评测 | Dell XPS 132018 | Mate20 | sonyWI-SP500 | piegacoax711 | SonySBH90C | Kanton DX35 | lyratrio评测 | SocialMapper | note10 vivonex | B450 store MI | Elf Open Go | VersaceUnique | 飞宇g6plus | 技嘉H310 | 技嘉B360 | lx100ii | HIMO助力自行车 | Metz 26AF-2 | nikon p1000 | gopro fusion | camfi pro | FastFoto FF-680W | X-Trans cmos | af-p70-300 | Nikon af-p70-300 | MOE轮胎 | breakthrough滤镜 | applestore电视墙 | moto p30 | int 2228 | pubg mobile模拟器 | LargeSense | LargeSense LS911 | LargeSense | GandCrab4.0 | sunmobile | 16TH | 16TH 16THP | ux390 | ux490 | durakey | SONY DMP-Z1 | IER-Z1R | DMP-Z1 | entune3.0 | Ryzen52400G | Kanton DX35 | Ultimate Lens Hood | lgg7 hifi | elfopengo | Meltano | 4G-AC68U | dell cinema | 56Gpam4 | G7ThinQ | 72700x | NS-6170 | nove3 | sega | lgg7+ | nissin i60 | g703bi | fortnite | mqa 2L | R52400g | low-code | APP Obscura 2 | IBM groupon | acoustune | blincam眼镜 | iOS12.0Beta5 | 16A5339E | ambie wireless | NanoSound | pccw csl | RDMA技术原理 | Veydra | BWM Turbo Concept | snapdragon NPU120 | vGPU | cats60 | 锐龙r32200g | V30+ | neptune convertible | rog g703 | BitoPro | Metabones Speedbooster | Instant Magny 35 | CNVi | RNG纪念键帽 | Lastolite | 耳机 | mavic 2 | bigquery ml | nexstgo | RHEL7.5 | r32200g | Nokia | 联想z5 | oppo r15 | VIVONEX | coin otaku | ELF OpenGo | iPhone 9 | Surface Go | Galaxy Note8 256G | Intel CNVi | Nexstgo PRIMUS | pep572 | i78700 | i78700K | i7 8700 | i7 8700k