数据分布
数据分布主要靠几何分布、泊松分布、二项分布来研究数据的分布趋势。例如,目标数据段整体分布是发散的还是集中的?集中在哪个频率段?中位数集中在哪个区间段?占80%的数据集中在什么数据区间段?看分布的目的就是了解业务数据是否稳定,以及数据的集中度。
正态分布
正态数据类型按照属性可以分为连续型数据和离散型数据。连续型数据属于可以不断细分的数据,如:长度,宽度,高度,密度,温度等。离散型数据不可被细分,主要来表达客观事物的属性,如:个数,属性,比率等。
不论是连续型数据还是离散型数据,都能使用数据的分布来表达。数据分布属于概率统计范畴,也是数据相关知识的基础。只有对各种数据分布有一定理解,才能选取合适的分析方法和工具,对数据做出合理的分析。分布主要是离散数据与连续数据
统计抽样
统计抽样涉及到如何设计样本、点量估计、比例抽样分析。当对海量数据进行数据分析,查看数据分布情况的时候比较困难。就需要对样本进行抽样,通过抽样样本分布情况来反映总体样本的分布情况。
置信区间
主要是置信区间计算与误差范围计算,以前上学的时候经常会考试,考完试以后老爱去估分,一般人估分不太可能直接估一个具体的数,肯定都是估一个大概的数,啥叫大概的数呢?就是比如高考分数预计 600 左右,这个左右其实就是一个区间,还有平常很多食品包装袋上会写 ±0.5 KG,表示啥意思呢?就是要么多给了你 0.5 KG,要么少给了你 0.5 KG。我们把这种用一个范围来对一个事情进行估计的方式称为区间估计,得出来的区间就是置信区间。
假设检验
假设检验的基本思想,可以理解为带有概率性质的反证法。在总体分布未知或已知分布但有部分参数未知时,为了推断总体的某些未知特性,提出关于总体的假设。我们根据样本提供的信息,计算适当的统计量,对所提的假设做出接受或拒绝的决策。假设检验就是做决策的过程。
关于分享!数据分析入门小技巧,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。