神经网络基础 - Guoziren`s World

1.最早的人工神经元的数学模型，没有权重

2.感知器增加了权重

3.感知器怎么样能训练出权重?

买房子的例子，有很多影响因素，譬如房价、面积、位置、楼层，这些因素的影响权重是不同的，那训练出权重，感知器就能预测，对于给定的一套房子，人们对这套房子的购买意向有多大。

首先，所有的权重参数都是随机的；然后根据一个标准【代价函数】，使用一些方法【梯度下降】更新权重，直到这个标准【代价函数】的值足够好；或者权重每次更新的值足够小。

3.1什么是代价函数？

在我们这里的例子中，感知器的代价函数是预测值（找出的那条最优线）和训练值差（已知的数据，统计到的数据）的平方和(所有的点到预测那条线的垂直距离之和最小，均方差最小，要达到这样一个标准，最小化这个标准，那这个标准我们称之为代价函数，或者是损失/lost函数,加粗的就是代价函数，常见的代价函数就是下面的最小均方)

3.2什么是梯度下降？

梯度下降就是沿着代价函数的梯度减小代价函数的过程。梯度下降是一个非常重要的概念，

梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了。

现在给定的目标是房价 $h(x)$ 或者 $y$ ，x是输入房子的面积，w是权重，b是偏差；我们希望找出来w和b，尽可能接近真实情况。

3.2.1什么是损失函数（就是代价函数）？什么是最小均方？

预测出来的值 - 真实的值求个平方和，再求个平均。

损失函数是w和b的函数

给定损失函数是最经常使用的就是最小均方(xi yi 是已知的，是点)，

$J=\frac{1}{2m}*\sum_{i=1}^{m}{(h(x_{i})-y_{i})^{2}}$

如果w和b能让最小均方【损失函数】达到最小，那么就是最优的w和b。

为什么一个是/2m , 一个是/m 。定义是/m.求导方便是/2m

(怎样计算w和b?,有闭形式和没有闭形式的，后者用梯度下降)

(均方差)标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同。)

x,y轴就是w,b z轴是lost(w,b),最小化损失函数，就是在这个三维的图中找到最小的值，怎么快速准确的找到最小的点？

沿切线的方向走，最快，就是求导，分别对w和b求导,方向找到了，那要走多远，那就是学习率的问题，学习率呢，就是超参数，需要调参数。

3.2.2什么是学习率，什么叫学习？参数是怎么更新的

梯度下降是为了最小化损失函数。最小化损失函数是为了找到合适的系数w(权重)和b(偏差)。

标准梯度下降，每次更新要把所有训练数据都考虑到。

要进行逐步优化，必须有（2？）个初始值。初始值是w,b随机选的。选出来这两个值之后，算一下。更多情况是，一算发现，不好，差挺远的，那赶紧改进一下。

怎么改进？

问题：

在以上的网络中，每一层的参数的维度是多少？

输入层到隐藏层的w的维度是 2 * 3的

本次课内容

历史和一些概念
第一段代码
第二段代码
sigmoid函数与交叉熵

自然语言处理

ustc 自然语言处理

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

梯度上一篇

第11次课下一篇

目录