在这里总结一下线性回归逻辑回归和更一般的回归模型。

线性回归

用一个线性函数对提供的已知数据进行拟合，最终得到一个线性函数，使这个函数满足我们的要求（如具有最小平方差,随后我们将定义一个代价函数，使这个目标量化），之后我们可以利用这个函数，对给定的输入进行预测（例如，给定房屋面积，我们预测这个房屋的价格）。如下图所示：

假设我们最终要的得到的假设函数具有如下形式：

其中，x是我们的输入，theta是我们要求得的参数。

代价函数如下：

1	note: 为什么选择平方误差作为损失函数，可以看到平方误差函数是一个以0为分布的正太函数，以其为误差是科学的。

正态分布（Normal distribution）又名高斯分布（Gaussian distribution），是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：
X∼N(μ,σ2),
则其概率密度函数为：

正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。因其曲线呈钟形，因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布

我们的目标是使得此代价函数具有最小值。

为此，我们还需要求得代价函数关于参量theta的导数，即梯度，具有如下形式：

有了这些信息之后，我们就可以用梯度下降算法来求得theta参数。过程如下：

逻辑回归

相比于线性回归，逻辑回归只会输出一些离散的特定值（例如判定一封邮件是否为垃圾邮件，输出只有0和1），而且对假设函数进行了处理，使得输出只在0和1之间。

假设函数如下：

代价函数如下：

note:

在这里可以看到逻辑回归使用伯努利分布来处理误差

伯努利分布(Bernoulli distribution)又名两点分布或0-1分布，介绍伯努利分布前首先需要引入伯努利试验（Bernoulli trial）。
伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：

伯努利试验都可以表达为“是或否”的问题。例如，抛一次硬币是正面向上吗？刚出生的小孩是个女孩吗？等等

如果试验E是一个伯努利试验，将E独立重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。

进行一次伯努利试验，成功(X=1)概率为p(0<=p<=1)，失败(X=0)概率为1-p，则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布，其概率质量函数为：

梯度函数如下，观察可知，形式与线性回归时一样：

一般线性回归（softmax）

线性回归是以高斯分布为误差分析模型；逻辑回归采用的是伯努利分布分析误差。

而高斯分布、伯努利分布、贝塔分布、迪特里特分布，都属于指数分布。

而一般线性回归，在x条件下，y的概率分布 p(y|x) 就是指指数分布.

经历最大似然估计的推导，就能导出一般线性回归的误差分析模型（最小化误差模型）。

softmax回归就是一般线性回归的一个例子。

有监督学习回归，针对多类问题（逻辑回归，解决的是二类划分问题），如数字字符的分类问题，0-9,10个数字，y值有10个可能性。

而这种可能的分布，是一种指数分布。而且所有可能的和为1，则对于一个输入的结果，其结果可表示为：

参数是一个k维的向量。

而代价函数：

而对于softmax的求解，没有闭式解法（高阶多项方程组求解），仍用梯度下降法，或L-BFGS求解。

当k=2时，softmax退化为逻辑回归，这也能反映softmax回归是逻辑回归的推广。

证明如下：