machine-learning - 神经网络的准确性正在下降

标签 machine-learning neural-network computer-vision artificial-intelligence conv-neural-network

我在neuralnetworksanddeeplearning.com的帮助下用python编写了神经网络程序。其中我随机初始化了隐藏层权重 (784,100) 和输出层权重 (100,10)。算法正在研究基于小批量的理论和正则化与 mnist.pkl.gz 数据集的过度拟合。我使用大小为 10 的小批量,学习率(eta)=3,正则化参数=2.5。运行程序后,其准确性先增加然后减少......所以请帮助我如何使其更好以获得更高的准确性。以下是算法的迭代。提前致谢..

>>> stochastic(training_data,10,20,hiddenW,outW,hiddenB,outB,3,test_data,2.5)
    Epoch 0 correct data: 9100.0/10000
    Total cost of test data [ 307.75991542]
    Epoch 1 correct data: 9136.0/10000
    Total cost of test data [ 260.61199829]
    Epoch 2 correct data: 9233.0/10000
    Total cost of test data [ 244.9429907]
    Epoch 3 correct data: 9149.0/10000
    Total cost of test data [ 237.08391208]
    Epoch 4 correct data: 9012.0/10000
    Total cost of test data [ 227.14709858]
    Epoch 5 correct data: 8714.0/10000
    Total cost of test data [ 215.23668711]
    Epoch 6 correct data: 8694.0/10000
    Total cost of test data [ 201.79958056]
    Epoch 7 correct data: 8224.0/10000
    Total cost of test data [ 193.37639124]
    Epoch 8 correct data: 7915.0/10000
    Total cost of test data [ 183.83249811]
    Epoch 9 correct data: 7615.0/10000
    Total cost of test data [ 166.59631548]
    # forward proppagation with with bais 3 para
def forward(weight,inp,b):
    val=np.dot(weight.T,inp)+b
    return val

# sigmoid function 
def sigmoid(x):
    val=1.0/(1.0+np.exp(-x))
    return val

# Backpropagation for gradient check
def backpropagation(x,weight1,weight2,bais1,bais2,yTarget):
    hh=forward(weight1,x,bais1)
    hhout=sigmoid(hh)
    oo=forward(weight2,hhout,bais2)
    oout=sigmoid(oo)
    ooe=-(yTarget-oout)*(oout*(1-oout))
    hhe=np.dot(weight2,ooe)*(hhout*(1-hhout))
    a2=np.dot(hhout,ooe.T)
    a1=np.dot(x,hhe.T)
    b1=hhe
    b2=ooe
    return a1,a2,b1,b2
def totalCost(data,weight1,weight2,bais1,bais2,lmbda):
    m=len(data)
    cost=0.0
    for x,y in data:
        hh=forward(weight1,x,bais1)
        hhout=sigmoid(hh)
        oo=forward(weight2,hhout,bais2)
        oout=sigmoid(oo)
        c=sum(-y*np.log(oout)-(1-y)*np.log(1-oout))
        cost=cost+c/m
    cost=cost+0.5*(lmbda/m)*(sum(map(sum,(weight1**2)))+sum(map(sum,(weight2**2))))
    return cost

def stochastic(tdata,batch_size,epoch,w1,w2,b1,b2,eta,testdata,lmbda):
    n=len(tdata)
    for j in xrange(epoch):
        random.shuffle(tdata)
        mini_batches = [tdata[k:k+batch_size]for k in xrange(0, n, batch_size)]
        for minibatch in mini_batches:
            w1,w2,b1,b2=updateminibatch(minibatch,w1,w2,b1,b2,eta,lmbda)
        print 'Epoch {0} correct data: {1}/{2}'.format(j,evaluate(testdata,w1,w2,b1,b2),len(testdata))
        print 'Total cost of test data {0}'.format(totalCost(testdata,w1,w2,b1,b2,lmbda))
    return w1,w2,b1,b2


def updateminibatch(data,w1,w2,b1,b2,eta,lmbda):
    n=len(training_data)
    q1=np.zeros(w1.shape)
    q2=np.zeros(w2.shape)
    q3=np.zeros(b1.shape)
    q4=np.zeros(b2.shape)
    for xin,yout in data:
        delW1,delW2,delB1,delB2=backpropagation(xin,w1,w2,b1,b2,yout)
        q1=q1+delW1
        q2=q2+delW2
        q3=q3+delB1
        q4=q4+delB2
    w1=(1-eta*(lmbda/n))*w1-(eta/len(data))*q1
    w2=(1-eta*(lmbda/n))*w2-(eta/len(data))*q2
    b1=b1-(eta/len(data))*q3
    b2=b2-(eta/len(data))*q4
    return w1,w2,b1,b2

def evaluate(testdata,w1,w2,b1,b2):
    i=0
    z=np.zeros(len(testdata))
    for x,y in testdata:
        h=forward(w1,x,b1)
        hout=sigmoid(h)
        o=forward(w2,hout,b2)
        out=sigmoid(o)
        p=np.argmax(out)
        if (p==y):
            a=int(p==y)
            z[i]=a
        i=i+1
    return sum(z)

最佳答案

训练机器学习模型时,必须注意不要过度拟合训练数据。

要了解数据是否过度拟合,在训练期间使用 3 组不同的数据很有用:

  • 训练集,用于训练模型
  • 验证集,您可以在训练期间使用它来检查数据是否准确拟合(显然您不必使用该集来训练模型,也可以在训练期间用作测试)。<
  • 以及一个测试集作为模型的最终测试。

验证集尤其非常有用。事实上,如果你过度拟合数据,你可能在训练集上有很好的表现,但在这个集上的准确性很低。 (-> 在这种情况下,您的模型对训练数据过于专业,但在预测新数据方面可能准确性较低。) 因此,当验证集的准确性开始下降时,就是停止训练的时刻,因为您已经达到了可能的最佳准确性。

如果您想提高模型的准确性,您可以使用更多的数据进行训练,或者,如果您没有或准确性没有提高,则应该更改模型,例如在神经网络中添加更多层。

关于machine-learning - 神经网络的准确性正在下降,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42690582/

相关文章:

image-processing - Caffe 支持 16 位图像吗?如果没有,如何实现支持?

image-processing - 简单的形状识别

python - 检查输入 : expected dense_input to have shape (21, 时出错)但得到形状为 (1,) 的数组

opencv - 三影像整改

computer-vision - 发散相机的极线

matlab - MATLAB/Octave 中的 LIBSVM - libsvmread 的输出是什么?

python - 如何将一维扁平化 MNIST Keras 转换为 LSTM 模型而不需要取消扁平化?

machine-learning - 分类器是如何分类的?

machine-learning - 有没有使用 MxNet 构建卷积自动编码器的玩具示例?

python - 在keras中使用哪些合并层?