ApacheCN 优质AI博文推荐项目正式启动
优质AI博文推荐
每日从从所有投稿博文中精选两篇,在ApacheCN全公众平台推送。
投稿须知
接受个人学习博文,论文解读,打比赛心得等AI相关文章投稿。
投稿时请新建Issues,按以下格式进行填写:
博文地址:是否为个人原创:
投稿推荐语:
原作者信息(选填):作者昵称,原始发布平台,联系方式
投稿地址:https://github.com/apachecn/awesome-AI-blog-post
本期给大家带来由 mathor 小哥哥带来的经典VGG论文解读
原文链接:https://wmathor.com/index.php/archives/1338/
论文下载
VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名
VGG 论文图
摘要中,作者研究了模型深度与精确度之间的关系。"我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到 16-19 加权层可以实现对现有技术配置的显著改进"。并且作者还在其他的数据集上进行了测试,发现精确度也很高,说明模型的泛化能力很好
在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的 filter 和第一层卷积的 stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。
这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的 filter 都使用的非常小的(3×3)的卷积滤波器
首先是一些通用的配置(generic configurations)。输入的每一张图片尺寸都是固定大小的 224×224×3。"我们唯一的预处理是从每个像素中减去在训练集上计算的 RGB 均值"。Conv 层使用的都是 3×3 的滤波器,"在其中一种配置中,我们还使用了 1×1 卷积滤波器,它可以看作是输入通道的线性变换"。Conv 层的所有 stride 固定为 1
为了保证卷积后的大小不变,所以设置 padding=1
总共有 5 个 max-pooling layers 跟在 Conv 后面,但并非所有的 Conv 后面都有。max-pooling 的 filter 为 2×2,stride=2
卷积层后是三个 FC(全连接层),前两层都有 4096 个神经元,最后一层 1000 个
所有的隐藏层都设置 ReLU 为激活函数。作者的模型(除了一个)都不包含局部响应规范化(LRN),LRN 就是 Local Response Normalization,这是 AlexNet 中使用的一种规范化方法,VGG 的作者认为 LRN 效果并不好,反而还会增加内存占用和计算时间,我们注意到,作者其实是有一个使用了 LRN 的,但是使用了的效果也并不好
表 1 列出了六种网络,所有网络的基础配置都和上文所述的相同,仅仅只是深度不同。表 2 列出了每种网络的参数数量,"尽管深度很大,我们的网络中权重数量并不大于具有更大卷积层宽度和感受野的较浅网络中的权重数量"
首先看第一列的模型,A 模型总共有 11 个带有权重的层,第一层的 filter 是 64 个,紧接着一个 max-pooling... 剩下的看表就很容易懂,这里就不赘述了
第二张表描述的是每种模型需要训练的参数个数
2.3 节主要讨论作者使用的模型和其他的模型区别,其他的一些竞赛模型的 filter size 要不就是 11×11,要不就是 7×7,11×11 的 stride=4,7×7 的 stride=2。本文的模型 filter size 是 3×3,并且 stride=1
然后作者解释了,2 个 3×3 的 Conv(no padding) == 1 个 5×5 的 Conv;3 个 3×3 的 Conv(no padding) == 1 个 7×7 的 Conv。但是使用较小的 Filters 的意义在于,每个小的 Conv 后面都会跟上一个 ReLU,这样比单个 ReLU 的效果要更好,同时还能减少 parameters 的总数,因为 1 个 7×7 的 Conv 总共有 49 参数,而 3 个 3×3 的 Conv 总共只有 27 个参数
作者使用 1×1 的 Conv 层,作用是维持 input output 维数不变,同时虽然内部是一个简单的线性计算,但是由于后面跟了一个 Relu,所以还是达到了非线性的效果
在这一部分中,作者详细解释了模型是如何训练的。首先,VGG 模型的训练是站在 AlexNet 的肩膀上进行的,其中有一项不同的是,VGG 没有对图片做 cropping 处理。VGG 模型的 Loss Function 选择的是 multinomial logistic regression
Batch Size=256,gradient descent 使用的是 BP+momentum,momentum=0.9。前两个 FC 层使用了 dropout 来防止过拟合(dropout=0.5),learning rate 初始设为 0.01,当 validation datasets 的 loss 值无法下降时,就会手动将 learning rate 降低十倍
作者还提到 weights 初始化的意义——影响反向传递的稳定性。具体做法是首先给予 A 模型随机 weights,训练 A 模型,从而获取训练好的 Conv 和 FC 的 weights,给到更深的模型使用。而其他层的 weights 使用 random weights(mean=0,var=0.01),bais=0
对于输入图片的处理,作者将图片进行了压缩,修剪,使得图片达到 224×224,图片还进行了水平翻转和 RGB shift,目的是为了让模型的泛化能力更好
这一部分,作者主要阐述如何处理图片,使得网络从不同角度识别某个物品都能识别出来。令 S 是等轴归一化的训练图像的最小边,从中裁剪 ConvNet 输入(我们也将 S 称为训练尺度)。虽然裁剪尺寸固定为 224×224,但原则上 S 可以是不小于 224 的任何值:对于 S=224,裁剪图像将捕获整个图像的统计数据;对于 S>>224,裁剪图像将对应于图像的一小部分
"我们考虑两种方法来设置训练尺度 S。在我们的实验中,我们评估了以两个固定尺度训练的模型:S=256 和 S=384。给定 ConvNet 配置,我们首先使用 S=256 来训练网络。为了加速 S=384 网络的训练,用 S=256 预训练的权重来进行初始化,我们使用较小的初始学习率 10−3"
设置 S 的第二种方法是多尺度训练,其中每个训练图像都是通过从一定范围内随机采样 S 来单独重新标定的 [Smin,Smax](我们使用 Smin = 256 和 Smax = 512)。为了速度的原因,我们通过对具有相同配置的单尺度模型的所有层进行微调,训练了多尺度模型,并用固定的 S=384 进行预训练
基本上 VGG 模型的重点就在上面了,下面用吴恩达老师的一张图来总结一下吧
ApacheCN 优质AI博文推荐项目正式启动
优质AI博文推荐
每日从从所有投稿博文中精选两篇,在ApacheCN全公众平台推送。
投稿须知
接受个人学习博文,论文解读,打比赛心得等AI相关文章投稿。
投稿时请新建Issues,按以下格式进行填写:
博文地址:是否为个人原创:
投稿推荐语:
原作者信息(选填):作者昵称,原始发布平台,联系方式
投稿地址:https://github.com/apachecn/awesome-AI-blog-post
本期给大家带来由 mathor 小哥哥带来的经典VGG论文解读
原文链接:https://wmathor.com/index.php/archives/1338/
论文下载
VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名
VGG 论文图
摘要中,作者研究了模型深度与精确度之间的关系。"我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到 16-19 加权层可以实现对现有技术配置的显著改进"。并且作者还在其他的数据集上进行了测试,发现精确度也很高,说明模型的泛化能力很好
在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的 filter 和第一层卷积的 stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。
这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的 filter 都使用的非常小的(3×3)的卷积滤波器
首先是一些通用的配置(generic configurations)。输入的每一张图片尺寸都是固定大小的 224×224×3。"我们唯一的预处理是从每个像素中减去在训练集上计算的 RGB 均值"。Conv 层使用的都是 3×3 的滤波器,"在其中一种配置中,我们还使用了 1×1 卷积滤波器,它可以看作是输入通道的线性变换"。Conv 层的所有 stride 固定为 1
为了保证卷积后的大小不变,所以设置 padding=1
总共有 5 个 max-pooling layers 跟在 Conv 后面,但并非所有的 Conv 后面都有。max-pooling 的 filter 为 2×2,stride=2
卷积层后是三个 FC(全连接层),前两层都有 4096 个神经元,最后一层 1000 个
所有的隐藏层都设置 ReLU 为激活函数。作者的模型(除了一个)都不包含局部响应规范化(LRN),LRN 就是 Local Response Normalization,这是 AlexNet 中使用的一种规范化方法,VGG 的作者认为 LRN 效果并不好,反而还会增加内存占用和计算时间,我们注意到,作者其实是有一个使用了 LRN 的,但是使用了的效果也并不好
表 1 列出了六种网络,所有网络的基础配置都和上文所述的相同,仅仅只是深度不同。表 2 列出了每种网络的参数数量,"尽管深度很大,我们的网络中权重数量并不大于具有更大卷积层宽度和感受野的较浅网络中的权重数量"
首先看第一列的模型,A 模型总共有 11 个带有权重的层,第一层的 filter 是 64 个,紧接着一个 max-pooling... 剩下的看表就很容易懂,这里就不赘述了
第二张表描述的是每种模型需要训练的参数个数
2.3 节主要讨论作者使用的模型和其他的模型区别,其他的一些竞赛模型的 filter size 要不就是 11×11,要不就是 7×7,11×11 的 stride=4,7×7 的 stride=2。本文的模型 filter size 是 3×3,并且 stride=1
然后作者解释了,2 个 3×3 的 Conv(no padding) == 1 个 5×5 的 Conv;3 个 3×3 的 Conv(no padding) == 1 个 7×7 的 Conv。但是使用较小的 Filters 的意义在于,每个小的 Conv 后面都会跟上一个 ReLU,这样比单个 ReLU 的效果要更好,同时还能减少 parameters 的总数,因为 1 个 7×7 的 Conv 总共有 49 参数,而 3 个 3×3 的 Conv 总共只有 27 个参数
作者使用 1×1 的 Conv 层,作用是维持 input output 维数不变,同时虽然内部是一个简单的线性计算,但是由于后面跟了一个 Relu,所以还是达到了非线性的效果
在这一部分中,作者详细解释了模型是如何训练的。首先,VGG 模型的训练是站在 AlexNet 的肩膀上进行的,其中有一项不同的是,VGG 没有对图片做 cropping 处理。VGG 模型的 Loss Function 选择的是 multinomial logistic regression
Batch Size=256,gradient descent 使用的是 BP+momentum,momentum=0.9。前两个 FC 层使用了 dropout 来防止过拟合(dropout=0.5),learning rate 初始设为 0.01,当 validation datasets 的 loss 值无法下降时,就会手动将 learning rate 降低十倍
作者还提到 weights 初始化的意义——影响反向传递的稳定性。具体做法是首先给予 A 模型随机 weights,训练 A 模型,从而获取训练好的 Conv 和 FC 的 weights,给到更深的模型使用。而其他层的 weights 使用 random weights(mean=0,var=0.01),bais=0
对于输入图片的处理,作者将图片进行了压缩,修剪,使得图片达到 224×224,图片还进行了水平翻转和 RGB shift,目的是为了让模型的泛化能力更好
这一部分,作者主要阐述如何处理图片,使得网络从不同角度识别某个物品都能识别出来。令 S 是等轴归一化的训练图像的最小边,从中裁剪 ConvNet 输入(我们也将 S 称为训练尺度)。虽然裁剪尺寸固定为 224×224,但原则上 S 可以是不小于 224 的任何值:对于 S=224,裁剪图像将捕获整个图像的统计数据;对于 S>>224,裁剪图像将对应于图像的一小部分
"我们考虑两种方法来设置训练尺度 S。在我们的实验中,我们评估了以两个固定尺度训练的模型:S=256 和 S=384。给定 ConvNet 配置,我们首先使用 S=256 来训练网络。为了加速 S=384 网络的训练,用 S=256 预训练的权重来进行初始化,我们使用较小的初始学习率 10−3"
设置 S 的第二种方法是多尺度训练,其中每个训练图像都是通过从一定范围内随机采样 S 来单独重新标定的 [Smin,Smax](我们使用 Smin = 256 和 Smax = 512)。为了速度的原因,我们通过对具有相同配置的单尺度模型的所有层进行微调,训练了多尺度模型,并用固定的 S=384 进行预训练
基本上 VGG 模型的重点就在上面了,下面用吴恩达老师的一张图来总结一下吧
相关问答
论文g值代表,这篇论文的影响力的大小。论文g值代表,这篇论文的影响力的大小。
1、篇幅2113不同论文通常比较短,是一篇文章,5261常见的是2000-5000字;论著是4102一本著作,字数十几万。2、发表1653的方式不同论文发表主要刊登在期...
[最佳回答]参考文献著录中的文献类别代码普通图书:M会议录:C汇编:G报纸:N期刊:J学位论文:D报告:R标准:S专利:P数据库:DB计算机程序:CP电子公告:EB...
1、篇幅2113不同论文通常比较短,是一篇文章,5261常见的是2000-5000字;论著是4102一本著作,字数十几万。2、发表1653的方式不同论文发表主要刊登在期...
好的,以下是一篇关于G弦上的咏叹调的音乐赏析论文:《G弦上的咏叹调》是一首充满情感和浪漫主义的古典音乐作品。它由德国作曲家约翰·塞巴斯蒂安·巴赫创作,是...
[最佳回答]的为最夺目的一抹绿色,照亮心扉花儿他在旧艳丽是一么么的雪白,亮闪,一览无余在泪水中飘此时,就象的板似的倾倒为么·也许,这已算不的什么的为最夺...
在学术界,论文标识码G通常代表Google学术引用。Google学术引用是一个由Google提供的免费的学术搜索引擎,它允许用户搜索学术文献并查看相关的引用和引用文献。...
g指数是h指数的衍生指数,主要是弥补h指数不能很好反应高被引论文的缺陷提出的,g指数定义为:论文按被引次数排序后相对排前的累积被引至少g2次的最大论文序次g...
大类的标识符号。在参考文献中,字母"G"通常代表一个大类的标识符号。具体来说,"G"往往与文化、科学、教育以及体育等领域相关。这个分类方法常见于图书馆学中.....
参考文献类2113型及文献类型,根据GB3469-83《文献5261类型与文献载体代码》规定,以单字4102母1653方式标识:专著M;报纸N;期刊J;专利文献P;汇编G;古...