# 简单线性回归

# 一些定义

回归:Y变量为连续数值型,比如房价、人数、降雨量

  • 很多做决定过程跟两个或多个变量有关
  • 回归分析用来建立方程模拟两个或者多个变量之间如何关联
  • 被预测的变量叫因变量、yyoutputoutput
  • 用来进行预测的变量为自变量、xxinputinput

简单线性回归包含一个自变量和一个因变量,关系可以用一条直线来模拟,如果包含两个以上的自变量,称作多元回归分析。

# 模型

  1. 简单的线性回归模型是

y=β0+β1x+εy = \beta_{0} + \beta_{1}x + \varepsilon

其中ε\varepsilon是偏差。

  1. 对上式两边求期望,可以得到回归方程

E(y)=β0+β1xE(y) = \beta_{0} + \beta_{1}x

这个方程对应的图像是直线,称作回归线。

# 目标函数

例如:

x y
1 14
3 25
2 18
1 16
3 27
sum(x)= 10 sum(y) = 100
mean(x) = 2 mean(y) = 20

设置目标函数为

min(yiy^i)2min\sum(y_i-\hat{y}_i)^2

使得sumofsquaressum\:of \: squares最小。

上式当中y^\hat{y}代表估计值,根据预测线得到。

# 计算

可以求导得到结果(这里直接给出结果公式):

b1=(xix^)(yiy^)(xix^)2b_1 = \frac{\sum(x_i-\hat{x})(y_i-\hat{y})}{\sum(x_i-\hat{x})^2}
b0=y^b1x^b_0 = \hat{y}-b_1\hat{x}

之后代入结果可以得到线性方程。