误差
其实判断误差有两方面,一个是偏差Bias,另一个是方差variance,如图所示,很清晰的展现了他俩的概念,偏差是离靶心的距离,方差是离散程度。
当模型比较简单,此时所覆盖的面积小,数据对方差影响不大,但他覆盖不到靶点,所以偏差大,当非常简单时,此时是未拟合状态,误差大;当模型比较复杂,覆盖面积大,能覆盖到靶点,但数据各个不同,就很分散,此时偏差小,但方差大,当非常复杂时,此时时过拟合状态,误差非常大,此时可以通过增加数据或正则化(曲线平滑化)来解决,但后者可能会增大偏差值。
所以还是需要斟酌,如何平衡偏差和方差,使误差尽可能小。
这是一张N-折交叉验证的图,很清晰的展现了交叉验证的过程,结果也比较好。
建议:最好不要去动public的test,原生态的test才能很好的反应private test的准确度,否则将public test也一起训练,那就是糊弄人的,没意义了。
梯度下降
1.调整学习速率,这个可以去找一些现成的比较好的计算算法。
2.可以考虑随机梯度下降,随机的话是有一个随机值就计算,移动,可能每一步的方向和总方向不太一样,但大体方向相同,而且比普通的梯度下降速度要快。
3.特征缩放,这样可以使每一个特征对结果的权重相同,更好的权衡每一个特征的选择。