动手学深度学习——线性神经网络
序言
为系统性重温深度学习中的一些重要技术,深入掌握其底层原理及更高层次的思想,我选择使用《动手学深度学习》作为教材,并在此进行一些记录。
线性神经网络
线性回归
线性回归基于几个简单的假设: 首先,假设自变量x和因变量y之间的关系是线性的, 即y可以表示为x中元素的加权和,这里通常允许包含观测值的一些噪声; 其次,我们假设任何噪声都比较正常,如噪声遵循正态分布。
术语:
- 训练数据集(training data set)、验证数据集(validation dataset)
- 样本(sample)、数据点(data point)、数据样本(data instance):每行数据
- 标签(label)、目标(target):试图预测的目标
- 特征(feature)、协变量(covariate):预测所依据的自变量
- 权重(weight)
- 偏置(bias)、偏移量(offset)、截距(intercept)
- 超参数(hyperparameter):可以调整但不在训练过程中更新的参数
- 调参(hyperparameter tuning):选择超参数的过程
- 泛化(generalization):找到一组能够在从未见过的数据上实现较低的损失的参数
- 预测(prediction)、推断(inference):给定特征估计目标的过程
线性模型
对于数据集:
线性回归的目标是找到一组权重向量w和偏置b: 当给定从X的同分布中取样的新样本特征时, 这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。
损失函数
损失函数(loss function)能够量化目标的实际值与预测值之间的差距。
- 平方误差:

- 训练集n个样本上的损失均值:

- 训练目标形式化定义:

梯度下降
每次加载全部数据集过于缓慢,因此一般采用小批量随机梯度下降

初始化模型参数的值后,反复抽取样本并在负梯度的方向上更新参数,对于平方损失和仿射变换:

正态分布
均方损失可用于线性回归的一个原因是假设了观测中包含噪声且噪声服从正态分布:

通过给定的x观测到特定y的似然(likelihood):

根据极大似然估计法,参数w和b的最优值是使整个数据集的似然最大的值:

即最小化负对数似然:

TO BE CONTINUED