机器学习从入门到进阶④丨线性回归模型

首先回顾一下之前统计学习中比较重要的几个关键点:

#

自变量和因变量

在统计学习的背景下,有两种类型的数据:

无法控制的数据,即因变量,需要进行预测或估计。

模型

模型本质上就是一个转换引擎,主要的作用就是找到自变量和因变量之间的关系函数。

参数

参数是添加到模型中用于输出预测的要素。

基本概念

线性回归模型提供了一个监督学习的简单方法,它们简单而有效。

但是,到底什么是线性?

线性的意思是:数据点排成一条直线(或接近直线),或者沿直线延长。线性意味着,因变量和自变量之间的关系可以用直线表示。

回顾高中时的数学课程,一条直线的方程式是什么呢?

y=mx+c

线性回归只不过是这个简单方程的表现。

上述公式中:

英国著名统计学家GeorgeBox曾说:

“Allmodelsarewrong;someareuseful.”

所有模型都是错的,但其中有一些是有用的。

线性回归模型并不完美,它试图用直线来粗略表示自变量和因变量之间的关系。而粗略总会导致误差。一些误差是可以避免的,一些误差则是问题本身所固有的,无法被消除,因而称之为不可约误差(irreducibleerror),即在实际关系中无法从根本上被任何模型消除的的噪声项。

上述线方程因此可以重写为:

简述公式

下面通过一个例子来说明线性回归模型的术语和工作原理。

费尔南多是一名数据科学家,他想要买一辆车。他想先预估一下最终需要为汽车支付多少钱。正好有一个朋友在一家汽车经销商上班,费尔南多向这位朋友咨询了各种汽车的价格以及特点,他的朋友向他提供了如下的信息:

首先,费尔南多想看看是否可以根据发动机大小来预测汽车价格。第一组分析旨在回答以下问题:

他将数据集分为训练和测试两部分,其中75%的数据用来训练,剩下的用来测试来。

他使用统计软件包构建了一个线性回归模型,模型又得出一个线性方程,将汽车价格表示为发动机大小的函数。

于是就可以回答费尔南多的几个问题了:

对于价格和发动机大小的关系显而易见,其实这个模型的最终表达式也很简单,如下:

价格=β0+β1×发动机大小

模型构建与解释

在前面的内容中,将原始数据集分为了训练数据集和测试数据集,训练数据被用于学习数据和构建模型,测试集被用于评估模型的性能。

模型估算出的参数值为:

从而得到线性方程为:

价格=-6870.1+156.9×发动机大小

解释

该模型最终提供了根据不同发动机大小来预测汽车平均价格的方程式。这个方程式显示:

发动机的大小增加一个单位,

使汽车的平均价格提高156.9个单位。

评估

模型创建好了,但是模型的稳健性还需要评估。我们如何确定该模型能够给出令人满意的价格预测?这项评估分两部分完成。首先,测试模型的稳健性;其次,评估模型的准确性。

费尔南多首先在训练数据上评估模型,他得到了如下的统计数据:

首先来定义H0和Ha需要被首先定义,如下:

β1:β1的值决定了价格和发动机大小之间的关系。如果β1=0,则它们之间没有关系,否则就存在关系。而从上述参数中可知,β1=156.933,说明到价格和发动机大小之间存在某种关系。

t-stat:t-stat值是系数估计值(β1)与零点间的标准差。其值越远离零,价格与发动机大小之间的关系越强,从上述参数中可以看到t-stat=21.09。

p-value:p值是一个概率值。它表示在零假设为真的情况下得到给定t-statistics的机会。如果p值小,例如<0.0001,这意味着两者之间纯属偶然而没有实际关联的概率非常低。在这种情况下,p值很小则说明价格和发动机大小之间的关系并非偶然。

通过这些指标,我们可以放心的拒绝零假设,并且接受备择假设。车辆价格和发动机大小之间存在着稳定的关系。

R-squared:为了理解这个衡量指标,首先来分别说明其组成部分。

用一个例子来说明:

但是,对于费尔南多的模型来说,其训练数据集的R-squared为0.7503,即75.03%。这意味着该模型可以解释超过75%的变化。

结语

费尔南多现在有一个很好的模型。它在训练数据上表现令人满意。但是,有25%的数据没有得到解释,还有改进的空间。为价格预测增加更多的自变量如何?在预测因变量时,如果添加多个自变量(即变量多于一个),则需要创建多元回归模型。

THE END
1.机器学习的回归是什么机器学习的回归是什么 一、什么是回归(Regression)说到回归想到的是终结者那句:I'll be back,在数理统计中,回归是确定多种变量相互依赖的定量关系的方法。通俗理解:越来越接近期望值的过程,回归于事物本来的面目 主要用于预测数值型数据,典型的回归例子:数据拟合曲线 二、什么是线性回归(Linear Regression)http://baijiahao.baidu.com/s?id=1662492763011156376&wfr=spider&for=pc
2.解密人工智能:线性回归线性回归作为人工智能中的一种关键统计学方法,被广泛应用于预测和决策支持系统中。本文将为您详细介绍线性回归在人工智能中的应用原理与方法,帮助您更好地理解这一重要技术。 一、什么是线性回归? 线性回归是一种统计学和机器学习领域中常用的预测和分类方法。它通过建立输入变量(自变量)与输出变量(因变量)之间的线性https://zhuanlan.zhihu.com/p/669035415
3.线性回归(LinearRegression)机器学习线性回归机器学习 专栏收录该内容 9 篇文章 14 订阅 订阅专栏 一、线性回归 1、线性回归的作用 通过许多实验观察到的值回归统计变量的真实值。 2、线性回归的定义 线性回归属于有监督学习算法,描述一个连续型因变量和一系列自变量之间的关系。 二、线性回归四要素 1、数据 线性回归的数据即一系列自变量以及对应的因变量https://blog.csdn.net/weixin_58427214/article/details/133576585
4.线性回归机器学习模型线性回归模型原理详解线性回归机器学习模型 线性回归模型原理详解 基本形式 线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数。 w和b学得之后,模型就得以确定。w直观表达了各属性在预测中的重要性。 2.线性回归 提出假设:给定数据集 ,其中, “线性回归”(linear regression)试图学得一个线性模型以尽可能准确地https://blog.51cto.com/u_16099205/6675218
5.机器学习实践系列1——线性回归摘要:本文结合实际案例,介绍机器学习的线性回归模型,包括一元线性回归和多元线性回归,以及模型的评估。案例展示用Python代码实现。 一元线性回归 在机器学习系列1——机器学习概况中我们讲到,监督学习的主要任务是做预测,其中一种是回归性预测,预测某一个连续型变量的数值。在线性回归模型中,根据输入变量的个数(即特征值https://www.jianshu.com/p/c02291ab4c3b
6.python机器学习之线性回归详解python一、python机器学习–线性回归 线性回归是最简单的机器学习模型,其形式简单,易于实现,同时也是很多机器学习模型的基础。 对于一个给定的训练集数据,线性回归的目的就是找到一个与这些数据最吻合的线性函数。 二、OLS线性回归 2.1 Ordinary Least Squares 最小二乘法 https://www.jb51.net/article/210070.htm
7.科学网—机器学习之线性回归附Python代码科研笔记|机器学习, 回归分析, Regression, Python 线性回归-Linear Regression 一、线性回归 原理:采用最小平方误差估计自变量和因变量之间的关系,通过建模求解回归因子(自变量系数),这种方法叫做回归分析。如果自变量个数的有多个,称为多元回归分析。 下面以统计模型库statsmodels中的解释进行说明: https://blog.sciencenet.cn/blog-1966190-1119186.html
8.机器学习线性回归算法:原理公式推导损失函数似然函数线性回归方程为: 整合后的公式为: 3. 损失函数 损失函数是一个贯穿整个机器学习的一个重要概念,大部分机器学习算法都有误差,我们需要通过显性的公式来描述这个误差,并将这个误差优化到最小值。假设现在真实的值为y,预测的值为h。 损失函数公式为: 也就是所有误差和的平方。损失函数值越小,说明误差越小,这个损失https://cloud.tencent.com/developer/article/2359619
9.一文看懂线性回归(3个优缺点+8种方法评测)线性回归 – linear regression 线性回归是很基础的机器学习算法,本文将通俗易懂的介绍线性回归的基本概念,优缺点,8 种方法的速度评测,还有和逻辑回归的比较。 什么是线性回归? 线性回归的位置如上图所示,它属于机器学习 – 监督学习 – 回归 – 线性回归。https://easyai.tech/ai-definition/linear-regression/
10.AI科普丨通透!机器学习各大模型原理的深度剖析!通俗来说,机器学习模型就是一种数学函数,它能够将输入数据映射到预测输出。更具体地说,机器学习模型就是一种通过学习训练数据,来调整模型参数,以最小化预测输出与真实标签之间的误差的数学函数。 机器学习中的模型有很多种,例如逻辑回归模型、决策树模型https://mp.weixin.qq.com/s?__biz=MjM5ODIwNjEzNQ==&mid=2649897566&idx=3&sn=60e6fd0120c7591a50b1a8c8c0e628c8&chksm=bf54a1345a8724cb96d4e30de522721617daba232078c1c448aa40ee697efa744bf6b891d790&scene=27
11.人工智能十大流行算法现在,机器学习有很多算法。因此,如此多的算法,可能对于初学者来说,是相当不堪重负的。今天,我们将简要介绍10种最流行的机器学习算法,这样你就可以适应这个激动人心的机器学习世界了! 让我们言归正传! 01.线性回归 线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线https://aidc.shisu.edu.cn/62/7d/c13626a156285/page.htm
12.基于机器学习的增材制造合金材料力学性能预测研究进展与挑战1.1.1 经典机器学习模型 线性回归(linear regression, LR)是ML算法中用于获取输入与输出变量之间显性方程的一种建模方式, 也是较为简单的一种ML算法. LASSO回归(LASSO regression)和岭回归(ridge regression)则是在普通线性回归的基础上分别加入L1和L2正则化项. 线性回归在求解输入与输出变量之间存在较强线性关系的https://lxxb.cstam.org.cn/article/doi/10.6052/0459-1879-23-542?viewType=HTML