
把握正确的方向是解决问题的关键。有时我们渴望快速完成工作,但过于急躁可能会导致问题频发。若能投入时间并正确执行,问题自然会减少。这一节与下一节涉及统计数据的应用,包括线性回归和独立性检验。
让我们谈谈线性回归的用途。除了进行普查,我们还会进行抽样调查,并记录下数据。尽管工具测量可能会带来误差,但我们需尽量排除这些误差,使统计回来的数据尽可能真实。
现在,我们要利用这些数据来分析某些事情。即使使用百分百真实的数据,也不能说完全准确,因为测量工具总是存在误差。例如,我们可以统计班级里学生的身高和体重,并分析体重与身高的关系。如果存在明确的因果关系,比如通过一个公式,知道身高就能推算出体重,那么这就是函数关系或因果关系。
人的身高和体重的关系并不是绝对的、确定的关系。这种关系虽有一定联系但不固定。为了更准确地描述这种关系,教材中称之为相关关系。相比因果关系,相关关系要弱一些。以前学过的函数关系如x与y是明确的因果关系,而现在则是相关。
开始时,我们对每个人的身高和体重进行测量,将数据统计在表格中,得到一系列成对的数据。以身高为横坐标、体重为纵坐标绘制在图上,会得到许多散点。与以往学的函数不同,这些散点不像直线或抛物线那样有规律。我们想找到一种方法来分析这些散点。
如果这些散点不能完全落在一条直线上,但可以均匀地分布在某一直线的两侧,我们就可以进行近似分析。具体操作是画出这些原始数据的三点图,然后找到这条直线的解析式。线性回归就是做这个事情。
我们试图找到两个看似无关的变量之间的解析式。这个解析式准确吗?通过画质图可以初步判断。有些点可能不在图上,但大体趋势是明确的。
对于变量之间的关系,有时听起来没有联系,如体重和智商。但事实上,有些变量之间的关系感觉上很紧密,而有些则显得天马行空。我们需要一种方法来衡量这种关系的强弱。
线性回归或其他方法所面临的问题主要有几个方面。首先是要判断是否可以进行回归分析。这可以通过三种图或相关系数来判断。
对于相关系数的计算方式,虽然书中有所提及,但实际操作中可能需要一些变换和公式变形。需要耐心地进行计算,并可能需要验算。
在决定是否可以进行线性回归时,需要考虑数据是否近似为一根直线。如果不是直线关系,可能需要通过换元等方法将其转化为直线关系进行处理。
接下来是写线性回归的公式。默认这是一根直线,写出斜率即可。计算斜率有固定公式,而结果如何计算?需要知道统计回来的数据点描绘出来的近似直线上有两个变量的平均值。一旦这些平均值确定,就可以进一步计算了。
除了线性回归,还有其他函数可以用于描述变量之间的关系。例如,如果使用曲线来描述两个变量的关系,可能需要通过换元等方法将其转化为直线方程进行处理。
请注意,在写方程时,应避免使用原始的x和y变量,而应使用替换后的变量。这是为了避免使用可能导致错误的原始变量。
以上就是我们本节所要讲述的内容。下一节我们将继续探讨其他相关话题。
