问答详情

如何高效地进行数据分析?

1142次观看
标签: 数据分析 高效数据分析
老师回答

1. 确立目标

无论何时发生任何需求,我们首先都需要确定业务目标,评估情况,确定数据挖掘目标,然后根据需求生成项目计划。在此阶段定义业务目标。

2. 寻找数据

对于进一步的过程,我们需要收集初始数据,描述和探索数据,最后验证数据质量以确保它包含我们所需的数据。从各种来源收集的数据将根据其应用和此阶段对项目的需求进行描述,这也称为数据浏览,对于验证所收集数据的质量是必要的。

3. 数据整理

从最后一步收集的数据中,我们需要根据需要选择数据,对其进行清理,构造以获取有用的信息,然后将其整合在一起。

最后,我们需要格式化数据以获取适当的数据。选择数据,清理数据并将其集成为最终确定的格式,以便在此阶段进行分析。

4. 数据建模

收集数据后,我们对其进行数据建模。为此,我们需要选择一种建模技术,生成测试设计,构建模型并评估构建的模型。建立数据模型以分析数据中各种选定对象之间的关系,建立测试用例以评估模型,并在此阶段对数据进行测试和实施。

5. 数据评估

在这里,我们评估最后一步的结果,检查错误范围,并确定接下来要执行的步骤。我们评估测试用例的结果,并回顾此阶段的错误范围。

6. 部署

我们需要计划部署,监视和维护,并生成最终报告并审查项目。在此阶段,我们将部署分析结果,这也称为审查项目。

免费直播

    相关推荐
    数据分析的误区有哪些?
    刘老师 数据分析师

    1、数据分析需要大量投资

    如今,似乎对每一项新技术的投入都必须通过严格的财务支出的筛选过程。“它需要多少费用?”——是IT和业务经理在提议启动项目或部署新工具时需要首先考虑的问题之一。

    有些人认为数据分析本质上是一项代价高昂的工作,因此仅限于拥有大量预算或大量内部资源的企业机构。但是事实并非如此,现在市场上有很多开源工具和其他工具能够帮助展示数据分析的价值;并且基于云系统的大数据架构,也会比传统的数据仓库便宜得多。你只需要明确内部数据存储以及要解决的问题,就可以轻松的在云上使用分析来解决业务问题。

    此外,数据分析通常用于实现三个结果:提高流程效率、实现收入增长和主动进行风险管理,总的来说,数据分析在任何公司的应用中都带来了巨大的成本效益。

    2、你需要“大数据”才能执行分析

    对于许多人来说,大数据和分析的概念是相辅相成的,企业需要在执行分析之前收集大量数据,以便生成业务洞察,改进决策制定等。

    当然,大数据分析的优势也很明确,拥有这些资源的公司利用大数据存储作为促进分析工作的一部分,获得了显着的竞争优势。但是大数据却并不是分析必不可少的搭配。

    分析师需要特定的数据,而不是更多的数据。要想更好地支持决策和提高绩效,企业必须更多的考虑业务用户,确定他们需要访问哪些数据,如何呈现数据,而不是关注更多的数据。95%以上的用户会寻找和他们工作相关的信息来支持他们进行决策,来提高业务表现,所以企业需要以最简单的格式向他们提供这些信息,帮助他们快速定位重要信息。

    3、分析消除了人类的偏见

    自动化系统执行的方式不应该存在偏见,但技术是由人类建立的,因此消除所有偏见几乎是不可能的。

    有些人认为分析和机器学习消除了人类的偏见,不幸的是,这并没有实现。算法和分析使用“训练数据”进行调整,并将重现“训练数据”所具有的任何特征,在某些情况下,这会在分析过程中引入良性偏见,但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。

    4、最好的算法意味着绝对的胜利

    事实证明,有了足够的数据,有时算法无关紧要。谷歌的工程师认为,数据有着不合理有效性 ,简单的统计模型,加上极大量的数据,比包含大量特征和总结的“智能优越模型”能输出更优质的结果。

    因此,在某些情况下,只需处理更大量的数据就可以获得最佳效果。

    5、算法是安全的

    人们固执地信任统计模型和算法,并且随着分析程序的组织构建,他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型,因此他们必须相信构建它们的“聪明人”。

    比如,在过去的50到60年里,我们反复听到“人工智能将在20年内接管人类工作”的言论,现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,让他们解释如何得到答案。这并不是说我们不能依赖于结果,而是说我们需要透明度,这样我们才可以信任和验证分析结果。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司