jjzjj

Cifar-10图像分类/Pytorch/LeNet/AlexNet

cucjing 2023-04-09 原文

1 研究任务一介绍

1.1 研究任务

给定训练集和测试集Cifar10,数据集共分为10类,采用LeNet和AlexNet两种CNN机器学习算法进行图像分类,以准确率为评测指标,进行分类算法性能评估与结果分析。

数据集官方网址:CIFAR-10 and CIFAR-100 datasets

代码见网盘:链接:https://pan.baidu.com/s/1SP5N0RGTLqlTBpGsaOHvuw?pwd=omsj 
提取码:omsj

1.2 研究内容的具体描述

数据集介绍

Cifar10数据集,是一个很经典的图像分类数据集,由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集,一共包含 10 个类别的 RGB 彩色图片。每张图像的大小为32*32,包含如图1.1所示的十个类别的对象。每个类都包含6000张图片,总共有60000张图片,数据集平衡。其中,训练组图像包含50000张图片,测试集包含10000张图像。

 图1.1 Cifar10数据集类别图

数据集包含五个训练batch和一个测试batch,每个batch包含一万张图片。深度学习训练时直接从batch读取数据,也可转换为PNG或者JPG图片格式进行读取和查看图像数据。

2 研究方法原理与步骤

2.1 LeNet模型

2.1.1 研究方法选择原因

LeNet网络结构是第一个典型的CNN网络,对于学习机器学习具有很重要的意义。

2.1.2 方法原理与步骤

LeNet网络主要参考1998年计算机科学家Yann LeCun发布的论文:Gradient based learning applied to document-recognition。

图2.1 LeNet网络框架图

LeNet网络的整体架构包含输入层总共8层网络,分别为:

(1)输入层(INPUT):输入的手写体是32x32像素的图片。

(2)卷积层(Convolutions,C1):提取特征。有6个特征平面,对应6个不同的5x5卷积核或者6个滤波器,每个滤波器参数值(权值)相同,每个特征平面有28x28神经元,连接数为:(5x5+1)x28x28x6 = 122304,每个特征平面神经元共用一套权值,每套权值取决于卷积核大小,权值数为:(5x5+1)x6 = 156。

(3)池化层(Subsampling,S2): 降低数据维度。又叫下采样层,目的是压缩数据,降低数据维度,和卷积有明显区别,采样2x2的选择框进行压缩,原来是28x28,采样后是14x14,通过选择框的数据求和再取平均值然后在乘上一个权值和加上一个偏置值,组成新的图片,每个特征平面采样的权值和偏置值相同,因此每个特征平面对应的采样层只两个待训练参数,总共有6张采样平面,总共待训练权值为:2x6=12。

(4)卷积层(C3):有16个特征平面,每个特征平面对应的卷积核,和池化层的多个平面进行卷积。每一个特征平面是对应多个池化层的采样数据。

(5)池化层(S4):采样窗口2x2,对C3层进行采样,得到16个5x5采样平面,本层存在激活函数sigmod。

(6)卷积层(C5):特征平面有120个,每个特征平面5x5,连接池化层的所有采样层。本层有120个神经元并列排列,每个神经元连接池化层的所有层。C5层的每个神经元的连接数为5x5x16+1,总共连接数为:(5x5x16+1)x120=48120,权值和连接数一样。

(7)全连接层(F6):BP网络的隐层,且为全连接层,有84个神经元,每一个神经元都和上一次的120个神经元相连接,连接数为(120+1)x84 = 10164,因为权值不共享,隐层权值数也是10164,本层输出有激活函数为双曲正切函数。                           

输出层:有10个神经元,基于径向基神经网络,即基于距离衡量两个数据的相近程度。

实现步骤:

(1)lenet.py:定义LeNet网络模型;

(2)train.py:加载数据集并训练,训练集计算loss,测试集计算accuracy,保存训练好的网络参数;

(4)utils.py:可视化loss和预测图像;

(3)predict.py:得到训练好的网络参数后,用自己找的图像进行分类测试。

2.1.3 模型训练超参设置

  1. epoch=5,对训练集的全部数据进行5次完整的训练;
  2. batch_size=50,将训练集分成多个批次训练,每批数据大小为50;
  3. step=1000,训练集共有50000个样本,每个batch_size包括1000step;
  4. lr=0.001,定义优化器学习率。

2.2 AlexNet模型

2.2.1 研究方法选择原因

LeNet网络之后,更引人注目的一个CNN网络是AlexNet网络,AlexNet网络结构在整体上类似于LeNet,都是先卷积然后在全连接。但在细节上有很大不同,AlexNet更为复杂。AlexNet有60 million个参数和65000个神经元,五层卷积,三层全连接网络,最终的输出层是1000通道的softmax,与LeNet形成很好的对比。

2.2.2 方法原理与步骤

AlexNet网络结构是2012年ImageNet竞赛中取得冠军的一个模型整理后发表的文章:ImageNet Classification with Deep Convolutional Neural Networks。作者是多伦多大学的Alex Krizhevsky等人。

图2.2 AlexNet网络框架图

AlexNet网络的整体架构包含输入层总共8层网络,分别为:

(1)第一层:卷积层1,输入为 224×224×3的图像,卷积核数量为96,卷积核大小为 11×11×3; stride=4,stride表示步长,pad=0, 表示不扩充边缘;

(2)第二层:卷积层2, 输入为上一层卷积的feature map, 卷积的个数为256个。卷积核的大小为:5×5×48; pad=2,stride=1;然后做LRN,最后max_pooling, pool_size=(3, 3),stride=2;

(3)第三层:卷积3, 输入为第二层的输出,卷积核个数为384, kernel_size= (3×3×256),padding=1, 第三层没有做LRN和Pool

(4)第四层:卷积4, 输入为第三层的输出,卷积核个数为384, kernel_size= (3×3), padding=1, 和第三层一样,没有LRN和Pool

(5)第五层:卷积5, 输入为第四层的输出,卷积核个数为256, kernel_size= (3×3), padding=1。直接进行max_pooling, pool_size=(3, 3), stride= 2;

(6)第6,7,8层是全连接层,每一层的神经元的个数为4096,最终输出softmax为1000,因为上面介绍过,ImageNet这个比赛的分类个数为1000。全连接层中使用了RELU和Dropout。

实现步骤:

(1)alexnet.py:定义AlexNet网络模型;

(2)train.py:加载数据集并练,保存训练好的网络参数;

(3)test.py:训练集计算loss和accuracy;

(4)utils.py:可视化loss和预测图像;

(3)predict.py:得到训练好的网络参数后,用自己找的图像进行分类测试。

2.2.3 模型训练超参设置

(1)epoch=50,对训练集的全部数据进行50次完整的训练;

(2)batch_size=256,将训练集分成多个批次训练,每批数据大小为256;

(3)lr=0.01,定义优化器学习率。

3 实验结果及分析

3.1 实验结果

3.1.1 开发环境介绍

Pytorch 1.10.2

torchvision 0.11.3

Conda4.5.4+Python 3.6.5

AMD Radeon R5 M200 Series+Intel(R) HD Graphics 5500

Win7+Pycharm

CPU

3.1.2 性能评估指标介绍

准确度: Accuracy = (TP + TN) / (TP + FN + FP + TN)

3.1.3 实验结果

表3.1 两种算法的准确率值

Accuracy

LeNet

66.0%

AlexNet

80.2%

图3.1 LeNet算法的Loss曲线图

图3.2 AlexNet算法的Loss曲线图

 

图3.3 LeNet网络预测结果图

图3.4 AlexNet网络预测结果图

3.2 实验结果分析

LeNet网络经过5个Epochs的训练,准确率达到了66.0%;AlexNet网络经过50个Epochs的训练,准确率达到了80.2%。 LeNet网络和AlexNet网络随着训练次数的增多,准确率不断提高,Loss 不断降低。由两个网络的准确率表3.1和Loss曲线图3.1和图3.2可知,AlexNet网络比LeNet网络的准确率更高,Loss更优;从预测结果看,LeNet网络预测成功3/5,AlexNet网络预测成功4/5,AlexNet网络比LeNet网络预测效果更好。

4 结论

AlexNet网络比LeNet网络的准确率更高,Loss更优,预测效果更好。AlexNet在结果上要优于LeNet很多,特别是其在处理大规模数据方便的优势更是明显。AlexNet的问世也开启了深度学习在计算机视觉领域的大规模应用,可以将其看做浅层神经网络和深层神经网络的分界线。

有关Cifar-10图像分类/Pytorch/LeNet/AlexNet的更多相关文章

  1. ruby-on-rails - 添加回形针新样式不影响旧上传的图像 - 2

    我有带有Logo图像的公司模型has_attached_file:logo我用他们的Logo创建了许多公司。现在,我需要添加新样式has_attached_file:logo,:styles=>{:small=>"30x15>",:medium=>"155x85>"}我是否应该重新上传所有旧数据以重新生成新样式?我不这么认为……或者有什么rake任务可以重新生成样式吗? 最佳答案 参见Thumbnail-Generation.如果rake任务不适合你,你应该能够在控制台中使用一个片段来调用重新处理!关于相关公司

  2. ruby-on-rails - 在 Ruby (on Rails) 中使用 imgur API 获取图像 - 2

    我正在尝试使用Ruby2.0.0和Rails4.0.0提供的API从imgur中提取图像。我已尝试按照Ruby2.0.0文档中列出的各种方式构建http请求,但均无济于事。代码如下:require'net/http'require'net/https'defimgurheaders={"Authorization"=>"Client-ID"+my_client_id}path="/3/gallery/image/#{img_id}.json"uri=URI("https://api.imgur.com"+path)request,data=Net::HTTP::Get.new(path

  3. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  4. ruby - 是否有将图像文件转换为 ASCII 艺术的命令行程序或库? - 2

    有这样的事吗?我想在Ruby程序中使用它。 最佳答案 试试这个http://csl.sublevel3.org/jp2a/此外,Imagemagick可能还有一些东西 关于ruby-是否有将图像文件转换为ASCII艺术的命令行程序或库?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/6510445/

  5. ruby-on-rails - 使用 Dragonfly 从 URL 分配图像 - 2

    我正在使用Dragonfly在Rails3.1应用程序上处理图像。我正在努力通过url将图像分配给模型。我有一个很好的表格:{:multipart=>true}do|f|%>RemovePicture?Dragonfly的文档指出:Dragonfly提供了一个直接从url分配的访问器:@album.cover_image_url='http://some.url/file.jpg'但是当我在控制台中尝试时:=>#ruby-1.9.2-p290>picture.image_url="http://i.imgur.com/QQiMz.jpg"=>"http://i.imgur.com/QQ

  6. Ruby-vips 图像处理库。有什么好的使用示例吗? - 2

    我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby​​代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby​​-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby​​-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby​​-vips的github页面上的链接,我们将不胜感激!如果有ruby​​-

  7. 由于 libgmp.10.dylib 的问题,Ruby 2.2.0 无法运行 - 2

    我刚刚安装了带有RVM的Ruby2.2.0,并尝试使用它得到了这个:$rvmuse2.2.0--defaultUsing/Users/brandon/.rvm/gems/ruby-2.2.0dyld:Librarynotloaded:/usr/local/lib/libgmp.10.dylibReferencedfrom:/Users/brandon/.rvm/rubies/ruby-2.2.0/bin/rubyReason:Incompatiblelibraryversion:rubyrequiresversion13.0.0orlater,butlibgmp.10.dylibpro

  8. ruby-on-rails - 如何播种图像的路径? - 2

    Organization和Image具有一对一的关系。Image有一个名为filename的列,它存储文件的路径。我在Assets管道中包含这样一个文件:app/assets/other/image.jpg。播种时如何包含此文件的路径?我已经在我的种子文件中尝试过:@organization=...@organization.image.create!(filename:File.open('app/assets/other/image.jpg'))#Ialsotried:#@organization.image.create!(filename:'app/assets/other/i

  9. ruby-on-rails - 安全地显示使用回形针 gem 上传的图像 - 2

    默认情况下:回形针gem将所有附件存储在公共(public)目录中。出于安全原因,我不想将附件存储在公共(public)目录中,所以我将它们保存在应用程序根目录的uploads目录中:classPost我没有指定url选项,因为我不希望每个图像附件都有一个url。如果指定了url:那么拥有该url的任何人都可以访问该图像。这是不安全的。在user#show页面中:我想实际显示图像。如果我使用所有回形针默认设置,那么我可以这样做,因为图像将在公共(public)目录中并且图像将具有一个url:Someimage:看来,如果我将图像附件保存在公共(public)目录之外并且不指定url(同

  10. ruby - Paperclip:以编程方式分配图像并设置其名称 - 2

    使用Paperclip,我想从这样的URL抓取图像:require'open-uri'user.photo=open(url)问题是我最后得到一个像“open-uri20110915-4852-1o7k5uw”这样的文件名。有什么方法可以更改user.photo上的文件名?作为一个额外的变化,Paperclip将我的文件存储在S3上,所以如果我可以在初始分配中设置我想要的文件名就更好了,这样图像就会上传到正确的S3key。像这样:user.photo=open(url),:filename=>URI.parse(url).path 最佳答案

随机推荐