当前位置: 首页 > news >正文

买权重网站网站优化资源

买权重网站,网站优化资源,怎么做网站端口代理,餐饮业手机php网站目录前言相关证明无偏估计系数的标准差及P值高斯-马尔可夫定理的优点同局限性前言 最小二乘法(least squares)是我们很早就接触过的一类系数求解方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从高斯——马尔可夫假设,证明为什么在…

目录

  • 前言
  • 相关证明
    • 无偏估计
    • 系数的标准差及P值
  • 高斯-马尔可夫定理的优点同局限性

前言

最小二乘法(least squares)是我们很早就接触过的一类系数求解方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从高斯——马尔可夫假设,证明为什么在该假设下,最小二乘法求得的系数是最佳的且无偏、并推导系数的的方差。

相关证明

最小二乘法数学式:

yi=xiTβ+εiy_i=x_i^{T}\beta + \varepsilon_iyi=xiTβ+εi --(1)

xi=(1xi0xi1...xik),β=(b0b1...bk)x_i=\begin{pmatrix}1\\ x_{i0} \\ x_{i1} \\... \\x_{ik}\end{pmatrix}, \beta= \begin{pmatrix}b_0 \\ b_1 \\... \\ b_k\end{pmatrix}xi=1xi0xi1...xik,β=b0b1...bk

ε\varepsilonε为误差项,假设其服从高斯——马尔可夫假设,即均值为0,且与随机变量xix_ixi无关,所有的误差的方差都相同且各自之间不相关且XXX为一个确定值。既有:

E(εi)=0E(\varepsilon_i) = 0E(εi)=0, −(假设1)\ \ \ \ \ -(假设1)     (假设1)

E(ε∣x)=0E(\varepsilon|x)=0E(εx)=0, −(假设2)\ \ \ \ \ -(假设2)     (假设2)

var(ε)=σ2Ivar(\varepsilon) = \sigma^2Ivar(ε)=σ2I−(假设3)\ \ \ \ \ -(假设3)     (假设3)

其中III为单位矩阵。

下面首先求β\betaβ的估计值β^\hat{\beta}β^,并证明它是β\betaβ的无偏估计,先不考虑(1)式中的误差项,并将有所的样本带入上市,我们可得:

Y=XTβY = X^T\betaY=XTβ −(2)\ \ \ \ -(2)    (2)

其中Y=(y0,y1,...,yn)T,X=(x0,x1,...,xn)Y=(y_0, y_1, ..., y_n)^T, X=(x_0 , x_1,..., x_n)Y=(y0,y1,...,yn)T,X=(x0,x1,...,xn)
为了求出β\betaβ的值,首先将(2)式两边左乘XXX,然后在左乘(XXT)−1(XX^T)^{-1}(XXT)1,即可推出

β^=(XXT)−1XY\hat\beta=(XX^T)^{-1}XYβ^=(XXT)1XY

无偏估计

下面证明β^\hat\betaβ^β\betaβ的无偏估计。
E(β^)=E((XXT)−1XY)=E((XXT)−1X(XTβ+ε))=E(β+(XXT)−1Xε)=β+E(β+(XXT)−1Xε)−(3)=β+E((XXT)−1X)∗E(ε)−(4)=β−(5)\begin{array}{rcl} E(\hat\beta)&=&\text{E}((XX^T)^{-1}XY)\\&=&E((XX^T)^{-1}X(X^T\beta + \varepsilon))\\&=&\text{E}(\beta+(XX^T)^{-1}X\varepsilon) \\&=&\beta+E(\beta+(XX^T)^{-1}X\varepsilon) \ \ \ \ \ \ -(3) \\&=&\beta + E((XX^T)^{-1}X)*E(\varepsilon) \ \ \ \ \ -(4) \\&=&\beta\ \ \ \ \ -(5) \end{array}E(β^)======E((XXT)1XY)E((XXT)1X(XTβ+ε))E(β+(XXT)1)β+E(β+(XXT)1)      (3)β+E((XXT)1X)E(ε)     (4)β     (5)
上式(3)到(4)利用了假设2,(4)到(5)利用了假设3,证毕。

系数的标准差及P值

下面求系数的标准差。
var(βˉ)=E((β^−β)(β^−β)T)=E((XXT)−1Xε∗εTXT(XXT)−1)−(5)=(XXT)−1XE(εεT)XT(XXT)−1−(6)=σ2(XXT)−1\begin{array}{rcl} var(\bar\beta)&=&E((\hat\beta-\beta)(\hat\beta-\beta)^T) \\&=&E((XX^T)^{-1}X\varepsilon*\varepsilon^TX^T(XX^T)^{-1})\ \ \ \ \ -(5) \\&=&(XX^T)^{-1}XE(\varepsilon\varepsilon^T) X^T(XX^T)^{-1}\ \ \ \ \ -(6) \\&=&\sigma^2(XX^T)^{-1}\end{array}var(βˉ)====E((β^β)(β^β)T)E((XXT)1εTXT(XXT)1)     (5)(XXT)1XE(εεT)XT(XXT)1     (6)σ2(XXT)1

从(5)式到(6式)的原因是我们假设XXX为确定值,对于每一个系数,它的标准差为:

SEi=σ2(XTX)ii−1SE_i=\sqrt{\sigma^2(X^TX)^{-1}_{ii}}SEi=σ2(XTX)ii1

知道了标准差,我们可以进行特征系数的t检验。

原假设:特征对label没有影响,即系数为0。

备择假设:特征对label有影响,系数不为0。

参考文章假设检验、显著性水平、P值、Z值的理解:构造中间量zzz

z=βi−kSEiz=\frac{\beta_{i} - k} {SE_i}z=SEiβik,其中k=0,βi\beta_iβiSEiSE_iSEi都是已求得的量,继而P值也可以求得。

现在用反证法来证明最小二乘估计是最佳无偏线性估计,假设存在比最小二乘估计更好的无偏线性估计βˉ=CY\bar\beta=CYβˉ=CY, 由于CCC的任意性,设C=(XXT)−1X+DC=(XX^T)^{-1}X + DC=(XXT)1X+D,其中DDD(k+1)∗N(k+1)*N(k+1)N的非零矩阵,k+1k+1k+1为特征个数加上一个常量项,NNN为样本个数。

由假设条件, 是无偏估计,所以必须满足E(βˉ)=βE(\bar\beta)=\betaE(βˉ)=β,而:
E(βˉ)=E(CY)=E(((XXT)−1X+D)(XTβ+ε))=E(((XXT)−1X+D)XTβ)+E((XXT)−1X+D)E(ε)=E(((XXT)−1X+D)XTβ)=β(I+DXT)\begin{array}{rcl}E(\bar\beta)&=&E(CY)\\&=&E(((XX^T)^{-1}X + D)(X^T\beta+\varepsilon)) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) + E((XX^T)^{-1}X + D)E(\varepsilon) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) \\&=&\beta(I + DX^T) \end{array}E(βˉ)=====E(CY)E(((XXT)1X+D)(XTβ+ε))E(((XXT)1X+D)XTβ)+E((XXT)1X+D)E(ε)E(((XXT)1X+D)XTβ)β(I+DXT)
所以DXT=0DX^T=0DXT=0
既有:
var(βˉ)=E[[((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)][((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)T]]=E[(DY+(XXT)−1Xε)(DY+(XXT)−1Xε)T]=E(DYYTDT+DYεTXT(XXT)−1+(XXT)−1XεYTDT+(XXT)−1XεεTXT(XXT)−1)=σ2DDT+E(D(XTβ+ε)εTXT(XXT)−1)+E((XXT)−1Xε(XTβ+ε)TDT)+σ2E(XXT)−1=σ2DDT+E(DXTβεTXT∗(XXT)−1)+E(DεεTXT(XXT)−1)+E((XXT)XεβTXDT)+E((XXT)XεεTDT)+σ2E(XXT)−1=σ2DDT+σ2E(XXT)−1\begin{array}{rcl}var(\bar\beta)&=&E[[((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)][((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)^T]]\\ &=&E[(DY+(XX^T)^{-1}X\varepsilon)(DY+(XX^T)^{-1}X\varepsilon)^T]\\ &=&E(DYY^TD^T+DY\varepsilon^TX^T(XX^T)^{-1} + (XX^T)^{-1}X\varepsilon Y^TD^T+(XX^T)^{-1}X\varepsilon\varepsilon^TX^T(XX^T)^{-1})\\ &=&\sigma^2DD^T+E(D(X^T\beta+\varepsilon)\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)^{-1}X\varepsilon(X^T\beta+\varepsilon)^TD^T) + \sigma^2E(XX^T)^{-1}\\&=&\sigma^2DD^T + E(DX^T\beta\varepsilon^TX^T*(XX^T)^{-1}) + E(D\varepsilon\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)X\varepsilon \beta^TX D^T) + E((XX^T)X\varepsilon \varepsilon^T D^T) + \sigma^2E(XX^T)^{-1}\\ &=&\sigma^2DD^T + \sigma^2E(XX^T)^{-1} \end{array}var(βˉ)======E[[((XXT)1X+D)Y((XXT)1XY(XXT)1)][((XXT)1X+D)Y((XXT)1XY(XXT)1)T]]E[(DY+(XXT)1)(DY+(XXT)1)T]E(DYYTDT+DYεTXT(XXT)1+(XXT)1YTDT+(XXT)1εTXT(XXT)1)σ2DDT+E(D(XTβ+ε)εTXT(XXT)1)+E((XXT)1(XTβ+ε)TDT)+σ2E(XXT)1σ2DDT+E(DXTβεTXT(XXT)1)+E(DεεTXT(XXT)1)+E((XXT)βTXDT)+E((XXT)εTDT)+σ2E(XXT)1σ2DDT+σ2E(XXT)1

由于DDTDD^TDDT对角线上的值都是大于等于0的,因此βˉ\bar\betaβˉ的协方差是大于等于β^\hat\betaβ^的,与原假设相矛盾,也即β^\hat\betaβ^是最佳的无偏估计,证毕。

高斯-马尔可夫定理的优点同局限性

高斯-马尔可夫定理的优点在于,它证明了简单的线性模型计算出的参数是最优的,而线性模型的最大优点在于计算简单、效率高,同时我们也可以检验出计算出的系数是否是显著的。它的局限性就在于它的几个强假设,比如XXX是确定的,且各个误差项都是独立的且均值都为0,但在实际情况中,上面的假设是比较强的,如XXX是会受到抽样的影响,在时序数据中,各个误差项并不独立。另一方面,高斯-马尔可夫定理针对的是线性情况,在非线性下它的结论不在成立。

参考文献:

[1]最小二乘法与高斯-马尔可夫定理

[2]高斯-马尔可夫定理-维基百科

[3]常用算法分析——最小二乘法

[4]最小二乘法的利与弊:高斯马尔科夫定理

http://www.wooajung.com/news/33713.html

相关文章:

  • 搜了网的免费b2b网站口碑营销的例子
  • 网站建设的总体设计思想app推广方案范例
  • wordpress个性登录seo快排
  • 堆龙德庆网站建设拍照搜索百度识图
  • 建设银行网站最近打不开吗优化软件刷排名seo
  • 做旅游网站怎么样5188关键词挖掘工具
  • 武汉网站建设设计百度seo是什么意思呢
  • 企业被网站骗做会员站长工具seo综合查询问题
  • 辽宁建设工程信息网官网新网站是哪个网站推广联盟
  • 易企秀网页制作教程洛阳seo博客
  • 自己如何建立网站免费外链发布
  • 网站广告销售怎么做合肥做网站公司哪家好
  • 珠海响应式网站建设价格网站换了域名怎么查
  • 网站怎么做内链资源网
  • 做图网站有哪些东西吗seo岗位有哪些
  • 网站首页滚动大图怎么做免费网络推广网站
  • 阿里网站年费怎么做分录键词优化排名
  • 个人怎么做微信公众号和微网站百度快速收录权限
  • 公司做网站之前要准备什么外链发布网站
  • 阳谷网站建设价格pr的选择应该优先选择的链接为
  • 教做衣服网站广州网站推广软件
  • 哪些网站可以发布免费招聘信息今日热搜榜排行榜
  • 太原seo网站排名郑州网站seo推广
  • 网站建设用哪个软件网络销售挣钱吗
  • 国家高新技术企业公示名单苏州seo关键词优化价格
  • 四川手机网站开发网络黄页推广软件哪个好用
  • 免费浏览的网站新浪微舆情大数据平台
  • 啤酒网站建设广告位招商怎么找客户
  • 建设网站天河区成都网站制作关键词推广排名
  • wordpress添加音乐特效网站seo关键词优化技巧