擦了身体乳会油,身体乳太油会堵塞毛孔吗

在 ICLR 2021 上,商汤科技研究院 Spring 工具链团队、高性能盘算团队和成都电子科技大学顾实先生 团队相助提出了块重修 手艺 BRECQ,重新审阅 量化模子 的优化粒度,首次将离线量化在 4bit 上的效果提升到在线量化的水平,相比在线量化可以节约 大于 200 倍的生产时间,BRECQ 在多种网络和使命 上普遍取得了业界最佳效果,打造了离线量化的新极限。

模子 量化手艺 可以有用 加速推理,已经成为人工智能芯片的标配,并在工业落地中普遍 应用。离线量化(Post-Training Quantization)不需要耦合训练流程,使用成本和时间成本低,往往作为生产量化模子 的首选方式,但其可调整空间有限,因此面临更大的准确度挑战,尤其是在一些特殊场景和极端要求下,不得不进一步引入更为重大 的在线量化(Quantization Aware Training)流程拯救 ,而这极大增添 了量化模子 生产的重大 度。怎样 在享受离线量化便捷高效的同时,在有限的调整“夹缝”中提升其效果上限,成为进一步打破手艺 红线的要害。一、念头 与配景

模子 量化将浮点输入和参数映射为定点数,使用 硬件的整型指令加速算子推理。作为一种通用的模子 压缩和加速方式,已经普遍 应用于种种盘算机视觉使命 。现在 的工业级量化生产主要需要解决三个问题:

1. 真的能快: 量化点对齐硬件的量化位置,思量 部署常用的折叠BN等操作。

2. 保持精度: 在一些极限要求和特殊场景下仍能保持与浮点模子 效果的一致性。

3. 高效生产: 不要在浮点模子 生产的基础之上特殊 增添过多时间和过于重大 的流程。

这三个问题自然的引出了对生产量化模子 方式的辩证思索 ,选择离线量化照旧在线量化?

表 1 离线量化(PTQ)与在线量化(QAT)的对比由上表可以看出,离线量化在更贴合硬件部署的位置,更容易做硬件的对齐,不需要耦合训练历程,只需要很少的数据、很短的时间和很简朴的下令 行挪用 ,即可完成量化模子 的生产,从“天性上”就更适合量化模子 的工业级落地,而其唯一的缺陷就是面临更大的精度挑战,面临 一些8bit的难点问题或者更低比特问题时,有更大的准确度损失。那么离线量化是否能尽可能靠近 在线量化的效果呢?二、要领

针对这个问题,本文重新审阅 了离线量化的优化粒度,并实验从理论视角剖析 已有方式存在的问题。

最早期的量化事情主要关注在量化自己的误差上,并通过如下方式建模量化误差:

其中代表浮点权重,代表量化权重。然而直观上来说仅思量 量化自己的误差着实 是不够的,由于 这个误差会随着神经网络的盘算流程逐渐累积,这也是 Bias Correction [1] 一类的要领能够有用 的缘故原由 。因此很直观的是想到以更大的优化粒度寻找更好的量化参数。Intel 的 LAPQ [2] 即是这样做的,不外它接纳了一些坐标下降系列的优化要领。直到 ICML 2020上,高通的 AdaRound [3] 一鸣惊人,提出除了量化参数,权重也是可以在离线量化场景中被优化的,优化的空间主要在于上下取整。作者在文中提出了一种预计损失函数的要领,纵然用二阶泰勒睁开 去盘算损失函数的近似:

这里 代表量化权重后发生的扰动,g 和 H 划分代表梯度向量和 Hessian 矩阵(二蹊径 度)。由于 在离线量化中,全精度模子 已经训练到收敛,因此梯度可以近似即是0。可是 预计所有 Hessian 矩阵是很是难题 的,由于 矩阵的维度是 N x N,N 是参数目 ,存下一个 Hessian 矩阵将需要TB级此外容量空间。为了预计 Hessian 矩阵,[3]假设 H 是层间自力 的,即矩阵是层-对角化的(任何两层之间的二阶导数均为0)。之后经由 一些推导,获得的结论是只需要对每一层的输出举行 重修 :

其中 是全精度的第l层输出,则是量化网络的第l层输出。在重修 历程中,只需要几百张训练图片(无需 label 标注)就能显著提升量化模子 的效果。

AdaRound 的要领确实取得了很好的效果,可是 重新思索 其剖析 历程会发现,它一方面想思量 整网的使命 损失,一方面又推导到了逐层优化,这里存在一个优化粒度选择的问题,逐层优化忽略了层间依赖关系,显然是损失了信息的。因此本文对这个问题举行 了重新思索 :

离线量化的难点主要在于两个方面(1)怎样 准确 的获取到 Task loss 信息,而且使其降低(2)怎样 使用 有限的数据集在短时间内校准出一个量化模子 。对于问题(1)本文以为 用层对角化的 Hessian 预计会丢失过多的信息,因此需要寻找到一个更准确 地预计方案。界说 为所有层权重,那么二阶导数可以盘算为:

其中, 为网络输出。当网络已经收敛时,假设Hessian矩阵是半正定的,因此可以使用高斯-牛顿矩阵来预计Hessian,即忽略掉上式中的第一项。接下来,可以用矩阵表达式来体现该矩阵:

将上式中的替换到中,而且使用泰勒一节迫近,可以将替换为。这意味着我们可以重修 网络的最终输出层的误差(和网络蒸馏很是相似)来校准量化模子 。

可是 当使用整个网络重修 之后,发现效果并不如预期。这是由于 在网络蒸馏中可以用整个数据集来优化模子 ,可是 离线量化中,只能使用几百张图片做校准,在整网重修 历程中,校准集的误差简直变得比逐层重修 更低,可是 更容易泛起过拟合征象 。而在逐层重修 中,量化模子 的每一层输出都强制与全精度模子 保持相同输出,相当于引入了一个逐层的正则化,从而具有更高的泛化能力。但其问题是无法从更全局的视角评估量化误差,不能保证 task loss 的一致性。

因此本文希望实验找到一个折中的要领来重修 量化模子 ,界说了 4 个重修 粒度,划分是逐层重修 ,逐块重修 ,逐阶段重修 ,整网重修 。其中,块(Block)界说为组成模子 的一个基本模块,通常只有三四层。好比在残差网络 ResNet-50 中,块被界说为 BottleneckBlock,由两个 1x1 和一个 3x3 的卷积层加上一个残差分支(residual branch)组成。而阶段(Stage)则是由几个块组成,在每个阶段,卷积网络的感受野将会被下采样,从而提取更高维度的特征。在 ResNet 中,每个网络都有 4 个阶段,例如 ResNet-34 每个阶段含有的块数目 划分为 3,4,6,3。差异优化粒度之间的关系见下图。

图 1 优化粒度

本文在这四个重修 粒度之间举行 了选择,发现块重修 在大量网络结构以及图像分类和检测使命 中都是最优的选择。

同时,为了进一步提升离线量化上限,本文也探索了离线量化的混淆精度问题。在以往的文献中,混淆精度往往都是层间自力 的,即用差异的比特数求出每层的敏感度,再将敏感度加起来获得整个网络的敏感度。可以用如下公式来体现,c 是比特向量,包罗了每层的比特数,H© 是硬件评估函数,丈量了模子 的规模,或者延迟等硬件参数。

延续前文的看法,层与层之间不是自力 的,因此使用块敏感度怀抱,将每个块内所有的比特排列的敏感度丈量出来,块之间的敏感度则是以为 自力 可直接相加。

三、实验

本文首先做了消融实验,验证四个差异的重修 粒度之间的区别。在ImageNet数据集,ResNet-18和MobilenetV2上面做了实验,效果 如下:

表 2 消融实验:差异优化粒度的离线量化效果可以发现,使用逐块重修 的效果是最好的。

为了更普遍 的验证种种网络结构和差异的体现,本文在 ImageNet 数据集上做了差异比特数下的离线量化实验,且使用了大量的网络结构包罗 ResNet, RegNet, MobileNetV2, MNasNet 举行 验证。实验效果 如下:

表 3 图像分类离线量化效果(只量化权重)

表 4 图像分类离线量化效果(权重和激活值都量化)

可以看出,在分类的 4 比特量化使命 上,BRECQ 在效果方面实现了很是大的跨越,以往的要领量化到 2W4A 一样平常 都是崩的,而本文的要领首次实现了可接受的精度,提升了 50%-60% 的准确率。

同时我们在 MS COCO 上面做了目的 检测的离线量化实验:

表 5 目的 检测离线量化效果

可以看出,块重修 手艺 在目的 检测上也取得了显著的优势。

如前文所说,引入 BRECQ 之后,离线量化在一些更极限的比特数下首次实现了靠近 QAT 的水平,详细 效果见下表:

表 6 与 QAT 要领的对比

在 4 比特下,BRECQ 甚至可以打败一些在线量化要领的准确率,同时享受到或许 240-250 倍的时间优势。这对于降低量化模子 生产成原来说是一个极大的好新闻 ,为离线量化手艺 的进一步规模应用打开了新的空间!

通过进一步引入混淆比特,可以将离线量化的精度一连 提升,为了验证这一点,我们在 ARM 和 FPGA 上举行 了验证,同时思量 硬件延迟/模子 体积和准确率,使用 遗传算法寻找最优解:

图 2 ARM CPU混淆比特效果

可以看出,引入混淆比特之后,确实可以相比牢靠 比特实现进一步的精度上限拉升。

四、总结

本文提出了一套块重修 要领用于提升越发适用 的离线量化的精度上限,通过寻找最优重修 粒度,首次将离线量化的精度拉升到在线量化的水平,该要领有极高的适用 性,在多种使命 和模子 结构上取得了稳固 一致的效果提升!

参考文献[1] Markus Nagel, Mart van Baalen, Tijmen Blankevoort, and Max Welling. Data-free quantization through weight equalization and bias correction. In Proceedings of the IEEE International Conference on Computer Vision, pp. 1325–1334, 2019.[2] Yury Nahshan, Brian Chmiel, Chaim Baskin, Evgenii Zheltonozhskii, Ron Banner, Alex M Bronstein, and Avi Mendelson. Loss aware post-training quantization. arXiv preprint arXiv:1911.07190, 2019.[3] Markus Nagel, Rana Ali Amjad, Mart van Baalen, Christos Louizos, and Tijmen Blankevoort. Up or down? adaptive rounding for post-training quantization. arXiv preprint arXiv:2004.10568, 2020.

Illustrastion by Natasha Remarchuk from Icons8

-The End-

“AI手艺 流”原创投稿妄想

TechBeat是由将门创投建设的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇手艺 干货文章,偏向笼罩CV/NLP/ML/Robotis等;每月定期举行 顶会及其他线上交流运动,不定期举行 手艺 人线下聚会交流运动。我们正在起劲 成为AI人才喜欢 的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪同 其生长。

投稿内容

// 最新手艺 解读/系统性知识分享 //

// 前沿资讯解说/心得履历 讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部门在深度手艺 剖析 及科研心得偏向,

对用户启发更大的文章,做原创性内容奖励。

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加事情职员 微信(chemn493)投稿,相同投稿详情;还可以关注“将门创投”民众号,后台回复“投稿”二字,获得投稿说明。

投稿请添加事情职员 微信!

本周上新!

扫码寓目!

关于我“门”

将门是一家以专注于掘客、加速及投资手艺 驱动型创业公司的新型创投契 构,旗下涵盖将门创新服务、将门手艺 社群以及。将门建设于2015年底,首创团队由微软创投在中国的首创团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的手艺 型创业公司。若是 您是手艺 领域的初创企业,不仅想获得投资,还希望获得一系列一连 性、有价值的投后服务,接待发送或者推荐项目给我“门”:

点击“阅读原文”按钮,审查 社区原文⤵一键送你进入TechBeat快乐星球

最新版权声明:鹊肤霖提醒您:在浏览本本网站(gta5人物身上全是红点)侠盗猎车追越野车任务?信息时,请您务必阅读并理解本声明。本网站部分内容来源于网络,如您认为本网不应该展示与您有关的信息,请及时与我们取得联系,我们会尊重您的决定并当天作出处理。作者:鹊肤霖 转载请注明转载地址

专业祛鸡皮肤 微信 : zyjs28 (长按可以复制)

专注:鸡皮肤、鱼鳞皮肤、蛇鳞皮肤、红点瘙痒