统计学方法与数据分析学习笔记1

2020/09/29 03:39

统计学方法与数据分析学习笔记1

用于质量改进和再造工程的统计工具、技术和方法:

直方图

数值描述量(均值、标准差、比例等)

散点图

线图(在散点图中用线连接各点)

控制图:(样本均值),r(样本极差),及s(样本标准差)

抽样方案

试验设计

收集数据要有意识的做好以下几步:

详细说明研究、调查或试验的目标

确定所关心的变量

为调查或科学研究选择适当的设计方案

收集数据

抽样的方法:

简单随机抽样

分层随机抽样

比估计

整体抽样

系统抽样

统计领域可以分为两个主要分支:描述统计与推断统计

适当的概括性度量可以为原始测量值的集合提供一幅良好的、粗线条的描绘。通过把一大堆测量值缩减到几个这样的描述性统计量,我们可以理解数据所包含的信息

单个变量的数据数值描述性度量

最常用的两类数值描述性度量是 中心趋势度量 和 变异性度量。也就是说,我们希望描述测量值分布的中心,并弄清测量值是如何相对于分布中心变化的。为了把总体的数值描述性度量和样本的数值描述性度量区别开来,称前者为 参数,后者为 统计量。在统计推断的有关问题中,不能计算各种参数的数值,但可以计算来自样本的相应的统计量,并用得到的数值去估计相应的总体参数。

中心趋势度量

众数

中位数

算术平均值

均值      是对一组测量值中心的常用的度量,但它会由于在集合中一个或多个极端值的出现而发生失真。在这样的情况下,极端值(又称作 离群值)会使均值偏向自己一方以找到数据的平衡点,因此而歪曲了均值最为中心值度量的意义。对均值的一种变通方法是截尾均值,即去掉最大和最小的若干数值,对其余的数作平均。

记 众数Mo 中位数Md 均值μ 截尾均值TM

这些中心趋势度量之间有何联系

答案依赖于数据的 偏倚程度(偏度)

要记住的重要一点是:我们不能局限于仅用一种中心趋势度量。对某些数据集合,有必要用多种度量,才能对数据的中心趋势做出准确的描述性的概括。

变异性度量:

极差    最大与最小的差值

百分位数    n个按大小排列的测量值集合的p%分位数 是指这样的一个数值,集合中至多 p%的测量值比它小,有至多(100-p)%的测量值比它大。

四分位数间距(IQR)

指在四分之三和四分之一分数位之间的差异,即

IQR  =  75%的分位数 - 25%的分位数

离差 (测量值与平均值的差)

方差

标准差

变异系数 = 标准差/|均值|

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司