数据分析的误区有哪些?

1651次观看

标签：数据分析数据分析误区

老师回答

1、数据分析需要大量投资

如今，似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。

有些人认为数据分析本质上是一项代价高昂的工作，因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此，现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构，也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题，就可以轻松的在云上使用分析来解决业务问题。

此外，数据分析通常用于实现三个结果：提高流程效率、实现收入增长和主动进行风险管理，总的来说，数据分析在任何公司的应用中都带来了巨大的成本效益。

2、你需要“大数据”才能执行分析

对于许多人来说，大数据和分析的概念是相辅相成的，企业需要在执行分析之前收集大量数据，以便生成业务洞察，改进决策制定等。

当然，大数据分析的优势也很明确，拥有这些资源的公司利用大数据存储作为促进分析工作的一部分，获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。

分析师需要特定的数据，而不是更多的数据。要想更好地支持决策和提高绩效，企业必须更多的考虑业务用户，确定他们需要访问哪些数据，如何呈现数据，而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策，来提高业务表现，所以企业需要以最简单的格式向他们提供这些信息，帮助他们快速定位重要信息。

3、分析消除了人类的偏见

自动化系统执行的方式不应该存在偏见，但技术是由人类建立的，因此消除所有偏见几乎是不可能的。

有些人认为分析和机器学习消除了人类的偏见，不幸的是，这并没有实现。算法和分析使用“训练数据”进行调整，并将重现“训练数据”所具有的任何特征，在某些情况下，这会在分析过程中引入良性偏见，但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。

4、最好的算法意味着绝对的胜利

事实证明，有了足够的数据，有时算法无关紧要。谷歌的工程师认为，数据有着不合理有效性，简单的统计模型，加上极大量的数据，比包含大量特征和总结的“智能优越模型”能输出更优质的结果。

因此，在某些情况下，只需处理更大量的数据就可以获得最佳效果。

5、算法是安全的

人们固执地信任统计模型和算法，并且随着分析程序的组织构建，他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型，因此他们必须相信构建它们的“聪明人”。

比如，在过去的50到60年里，我们反复听到“人工智能将在20年内接管人类工作”的言论，现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前，还有很多事情要做。在那之前，我们需要挑战构建算法和模型的人，让他们解释如何得到答案。这并不是说我们不能依赖于结果，而是说我们需要透明度，这样我们才可以信任和验证分析结果。

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

一节课掌握AI办公提效神器

数据分析师 1次课共1学时

高老师

免费

1248人已报名

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

¥ 399

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

¥ 199

火热报名中

MOS微软国际认证考试

数据分析师 30次课共1学时

高老师

¥ 600-3000

火热报名中

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

¥ 1299

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

¥ 1299

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

¥ 1299

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

¥ 899

火热报名中

Excel函数大师班：效率与精通的融合

数据分析师 62次课共62学时

吴开斌

¥ 499-898

火热报名中

Power Bl 商务智能数据分析

数据分析师 37次课共10学时

王忠超

相关推荐

1、数据清理

数据清理(data cleaning) 的主要思想是通过填补缺失值、光滑噪声数据，平滑或删除离群点，并解决数据的不一致性来“清理“数据。如果用户认为数据时脏乱的，他们不太会相信基于这些数据的挖掘结果，即输出的结果是不可靠的。

2、数据集成

数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储，如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。

3、数据规约

数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。

4、数据变换

数据变换包括对数据进行规范化，离散化，稀疏化处理，达到适用于挖掘的目的。

数据挖掘的常用方法有哪些?

刘老师数据分析师

1、决策树法

决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

2、神经网络法

神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，它将每一个连接看作一个处理单元，试图模拟人脑神经元的功能，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能，对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量，不能观察中间的学习过程，具有“黑箱”性，输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

3、关联规则法

关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。

4、遗传算法

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理，具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型，同时可以并行处理各种数据;缺点是需要的参数太多，编码困难，一般计算量比较大。遗传算法常用于优化神经元网络，能够解决其他技术难以解决的问题。

5、聚类分析法

聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类：基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean，K-medoids，ISODATA等。

6、模糊集法

模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高，模糊性就越强。

7、web页挖掘

通过对Web的挖掘，可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

8、逻辑回归分析

反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

9、粗糙集法

是一种新的处理含糊、不精确、不完备问题的数学工具，可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单，在其处理过程中可以不需要关于数据的先验知识，可以自动找出问题的内在规律;缺点是难以直接处理连续的属性，须先进行属性的离散化。因此，连续属性的离散化问题是制约粗糙集理论实用化的难点。

10、连接分析

它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

如何高效的运用网站分析工具?

刘老师数据分析师

1、工具使用第一重：仅仅是页面流数据

很多人把工具生成的代码往网站页面上一贴，认为网站的跟踪代码配置就基本完成了。但事情并没有那么简单，分析系统中生成的跟踪代码只能简单的跟踪页面流的数据，比如访问数、浏览量、流量来源等等，用户与网站的交互行为比如表单提交、订单达成是无法跟踪得到的。

网站的跟踪代码应该要根据具体的网站业务需求来配置跟踪方案。在添加跟踪代码前需要相关的业务人员聚在一起讨论把数据跟踪需求整理出来，根据需求形成一个完成的跟踪方案，从而生成相应的跟踪代码并添加到网站中。

很多网站甚至是一部分电商网站都只是做到了这一步，但其实这远远没有把网站跟踪系统的功能发挥出来。

因为受限跟踪配置的内容，系统只能收集到页面流的数据，因此用户也只能简单地查看网站的访问数、页面的浏览量以及流量来源的相关数据，但用户来到了网站有没有一些非浏览量的交互行为，是否有产生订单或产生了哪些产品的订单，无从得知。因此也没有明确的指标用于指导网站优化和外部推广(仅有的跳出率是不够的)。

2、工具使用第二重：配置了目标或电子商务跟踪

有部分用户在页面流数据跟踪的基础上会增加目标与电子商务数据的跟踪配置，这就进入我们所说的“网站分析第二重”。

目标与电子商务数据是衡量网站绩效的重要指标。对于会员制的电商网站来说，一个非常重要的目标就是会员数据的增加，而电子商务销售则是网站的终极目标。对这两块数据进行跟踪，我们就可以很好地衡量网站与及流量来源的转化情况。

把目标与电子商务的数据跟踪起来后，我们就可以把转化的数据与流量来源及页面浏览行为相关联，我们就可以很好地分析网站流量来源与页面浏览行为的转化情况。从而知道从哪些流量来源过来的流量质量最高，哪些产品或页面的说服力更强可以吸引用户完成订单转化，这样我们就可以有针对性地增加那些转化率高的流量来源的流量，并对一些转化偏低的产品或页面进行优化。

3、工具使用第三重：完善了访问行为细节的跟踪与分析

在这个分类下你会较为注重对于用户行为细节的跟踪，从而配置相应的自定义事件跟踪。对于用户在网站上的一些行为我们可以系统性地进行跟踪，比如站内搜索、视频播放、文件下载、表单提交、404错误页面、导出链接的点击、评论提交等等行为我们都可以跟踪起来，从而更好地了解访客的访问行为以提升网站的访问体验和转化率。

如第二重的内容所说的，你可能会把注册成功作为网站的目标，除了跟踪注册提交成功的事件外，你还可以跟踪注册的方式(是否通过第三方工具帐号进行注册)、注册提交失败的次数与及失败的原因等等。

除了订单产生的数量，购买流程中每一步的微转化也是值得关注的，找出转化流程中的弱项和问题，想办法修复它，这对于销售的提升效果将是非常明显的。

对于电商网站来说，用户是否有点击站内广告的行为，从而购买广告推介的产品，我们要怎么完善我们的产品推荐系统，这些都需要数据作支持。

我们还强烈建议可以对站内搜索与搜索零结果(搜索结果的条目数量)的情况进行跟踪，从而衡量网站的产品或内容是否满足用户的搜索需求，从而增加相应的产品或内容以提升网站销售。而对于一个客服系统来说，优化好这一步，这有可能会大幅减少客服人员的工作量。

4、工具使用第四重：基于数据的网站优化—数据驱动营销

在前边三部分其实也应该把网站优化的工作纳入其中，但对于大多数公司来说，网站优化这一步大都做得不好或是做得不够系统。而网站优化是网站运营过程中不可或缺的一个重要环节。

很多人做的网站分析报告仅仅是停留在报告的层面而没有形成优化行动，这就失去了网站分析的意义。根据报告中提出的有效建议，可以考虑安排进行营销活动或页面内容的优化工作。

通过数据分析找出更优的推广渠道;同时对内容特别是着陆页面的内容进行A/B/N测试，找出最优的页面版本，这将可以有效地提升网站的转化率从而提升网站的销售!这是网站分析对于提升网站业绩的最直观体现。