建立数据感性认识

2020/09/28 22:27

建立数据感性认识

变量类型和数据分布

变量类型

连续变量

离散变量(名义变量-有序,分类变量-无序)

数据分布
分布就是概率,研究变量无外乎就是看变量的值以及其取值的概率。此事数据由一大堆数变为一小堆数

分布函数

概率密度函数(PDF)

累计密度函数(CDF)

连续变量的典型分布

能给套上数学公式的分布,就是典型分布

正态分布 ,高斯分布,钟型分布

##画一个标准正态分布的图f1<-function(x){dnorm(x,mean=0,sd=1)}curve(f1,-4,4)

中心极限定理,将正态分布发扬光大!对于一个变量不论服从什么分布,从整体中抽取一部分样本,从样本得到的统计量是正态分布。一万个均值或一万个标准差是服从正态分布的。

经验法则,即3倍方差法则

切比雪夫定理,普世版的经验法则,K代表这个统计量离均值有几个标准差,曲线下的面积,均值左右~

幂率分布

指数分布

离散变量的典型分布

0-1分布,只做一次实验

二项分布,把0-1实验做很n次

结果为1的概率, q结果为0的概率

二项展开和一项就是其中一个k的概率

-泊松分布,其实就是二项分布,当二项分布很难或者最终的值的时候,我们就不计算其精确的值而是用泊松分布来预估;对n很大,p很小的二项分布的估计

λ=np,相当于一个均值

一小卖部,平均每周售出2个水果罐头,问水果店最佳库存是多少?
P(X=0)=
P(X=1)=
相加大于99%的那个X

单变量的集中趋势

得不到数据分布,退而求其次不求每个值的分布,而是找一些关键的值

单变量的离散程度

双变量的统计描述

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司