在大数据的知识体系中,有很多是需要我们学习的知识,同时涉及到了不少的技术以及很多的理论。在这些知识中,有两个知识点十分重要,那就是辛普森悖论和朴素贝叶斯。在这篇文章中我们给大家介绍一下关于辛普森悖论和朴素贝叶斯的相关知识,希望这篇文章能够更好地帮助大家认识和认知大数据。
1.辛普森悖论
辛普森悖论辛普森悖论亦有人译为辛普森诡论,为英国统计学家E.H.辛普森提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论,当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。这种现象听起来不可思议,但是确实存在。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。而在数据分析中我们必须要考虑到这个现象,这样我们才能够做好大数据的工作。
2.朴素贝叶斯
朴素贝叶斯模型的英文就是Naive Bayesian Model,简称NBM。贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯算法是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。而朴素贝叶斯是大数据和数据分析中经常使用的模型,在大数据和数据分析中起到十分重要的作用。
在这篇文章中通过为大家介绍朴素贝叶斯模型和辛普森悖论的知识,相信大家对这两个知识点有了一定的了解,同时这两个知识在数据分析和大数据中经常被人们提到,由此可见这两个知识点的重要性,所以建议大家学习大数据的时候一定不要错过这些知识的掌握。