3.4 mnist简单数据识别-使用Dropout抵抗过拟合
# 使用Dropout来抵抗过拟合
# 每次只挑选一部分神经元训练,相当于分批次训练
# 手写数字
import numpy as np
from torch import nn,optim
from torch.autograd import Variable
from torchvision import datasets,transforms
from torch.utils.data import DataLoader
import torch
# 训练集
train_dataset=datasets.MNIST(root='./',train=True,transform=transforms.ToTensor(),download=True)
# 测试集
test_dataset=datasets.MNIST(root='./',train=False,transform=transforms.ToTensor(),download=True)
# 批次大小
batch_size =64
# 装载训练集
train_loader= DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True)
# 装载测试集
test_loader= DataLoader(dataset=test_dataset,batch_size=batch_size,shuffle=True)
for i,data in enumerate(train_loader):
inputs,labels=data
print(inputs.shape)
print(labels.shape)
break
## torch.Size([64, 1, 28, 28])
## torch.Size([64])
# 定义网络结构
class Net(nn.Module):
def __init__(self):
super(Net,self).__init__()
# 定义较为复杂的带有两个隐藏层的3层神经网络,并混合Dropout封装起来 p=0.5表示50%神经元不工作
self.layer1=nn.Sequential(nn.Linear(784,500),nn.Dropout(p=0.5),nn.Tanh())
self.layer2=nn.Sequential(nn.Linear(500,300),nn.Dropout(p=0.5),nn.Tanh())
self.layer3=nn.Sequential(nn.Linear(300,10),nn.Softmax(dim=1))
def forward(self,x):
#([64, 1, 28, 28])->(64,784) -1表示自动匹配
x=x.view(x.size()[0],-1)
x=self.layer1(x)
x=self.layer2(x)
x=self.layer3(x)
return x
LR=0.5
# 定义模型
model=Net()
# 定义代价函数
mse_loss=nn.CrossEntropyLoss()
# 定义优化器
optimizer=optim.SGD(model.parameters(),LR)
# 模型训练
def train():
# 模型的训练状态,Dropout起作用
model.train()
for i,data in enumerate(train_loader):
# 获得一个批次的数据和标签
inputs,labels=data
# 获得模型预测值
out=model(inputs)
# 交叉熵代价函数,不需要shape一致,它会自动独热编码
loss=mse_loss(out,labels)
# 梯度清0
optimizer.zero_grad()
# 梯度计算
loss.backward()
# 修改权值
optimizer.step()
# 模型测试
def test():
# 模型的测试状态,Dropout不起作用,所有神经元均参与计算
model.eval()
correct=0
# 计算训练集上的准确率
for i,data in enumerate(train_loader):
# 获得一个批次的数据和标签
inputs,labels=data
# 获得模型预测值
out=model(inputs)
# 获得最大值(忽略),以及最大值所在的位置
_,predicted=torch.max(out,1)
# 计算正确的个数
correct+=(predicted==labels).sum()
# 输出正确率
print("Train acc:{0}".format(correct.item()/len(train_dataset)))
correct=0
# 计算测试集上的准确率
for i,data in enumerate(test_loader):
# 获得一个批次的数据和标签
inputs,labels=data
# 获得模型预测值
out=model(inputs)
# 获得最大值(忽略),以及最大值所在的位置
_,predicted=torch.max(out,1)
# 计算正确的个数
correct+=(predicted==labels).sum()
# 输出正确率
print("Test acc:{0}".format(correct.item()/len(test_dataset)))
# 效果变好了主要是因为神经网络变复杂了
# 和之前不使用Dropout对比效果没有更好,因为本模型还较为简单,它只做到了让训练集准确率接近测试集准确率,当模型复杂时就有很好的抵抗过拟合效果
for epoch in range(20):
print('epoch:',epoch)
train()
test()
## epoch: 0
## Train acc:0.9515333333333333
## Test acc:0.9461
## epoch: 1
## Train acc:0.95405
## Test acc:0.9484
## epoch: 2
## Train acc:0.95905
## Test acc:0.9538
## epoch: 3
## Train acc:0.95525
## Test acc:0.951
## epoch: 4
## Train acc:0.9637166666666667
## Test acc:0.9582
## epoch: 5
## Train acc:0.9659166666666666
## Test acc:0.9594
## epoch: 6
## Train acc:0.9652666666666667
## Test acc:0.9586
## epoch: 7
## Train acc:0.9666
## Test acc:0.96
## epoch: 8
## Train acc:0.9667833333333333
## Test acc:0.9605
## epoch: 9
## Train acc:0.9704
## Test acc:0.9632
## epoch: 10
## Train acc:0.9722
## Test acc:0.9654
## epoch: 11
## Train acc:0.97085
## Test acc:0.9636
## epoch: 12
## Train acc:0.9730166666666666
## Test acc:0.9652
## epoch: 13
## Train acc:0.9750833333333333
## Test acc:0.9675
## epoch: 14
## Train acc:0.97495
## Test acc:0.9649
## epoch: 15
## Train acc:0.9757666666666667
## Test acc:0.9673
## epoch: 16
## Train acc:0.9752833333333333
## Test acc:0.9666
## epoch: 17
## Train acc:0.9770833333333333
## Test acc:0.9667
## epoch: 18
## Train acc:0.9774333333333334
## Test acc:0.9669
## epoch: 19
## Train acc:0.97785
## Test acc:0.9687
Comments NOTHING