问答详情

统计学基础知识有哪些?

3856次观看
标签: 统计学 统计学基础知识
老师回答

1. 数学分析

本科统计学不学高等代数(至少中财是)学的是数学分析,数学分析注重理论推导过程,对于很多数学原理的理解很有帮助。虽然统计和数学不一样,但是统计需要数学。微积分知识是后续学习概率论的基础,概率论是整个统计学专业学习的基石,对于微积分的要求比较高,一定要熟练掌握。

2.高等代数

高等代数比线性代数难,内容更多,线性代数较为简单,本人本科学的是高等代数,涉及到的原理推导和知识更多,线性代数只是涉及到代数最基础的知识,对于后续学习概率论与数理统计课程的帮助不如高等代数明显。

3.概率论与数理统计

统计学必须学习的课程,各个高校选取的教材不一样,本人本科学的是卯时松版的课本,同时参考过浙江大学版的教材,卯时松版教材较难,对于深入理解概率论与数理统计帮助很大,很多原理性的东西可以掌握,课后习题难度较大。

免费直播

    相关推荐
    数据挖掘要解决的问题有哪些?
    刘老师 数据分析师

    1.可伸缩

    由于数据产生和采集技术的进步,数太字节(TB)、数拍字节(PB)甚至数艾字节(EB)的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构,才能以有效的方式访问每个记录。

    例如,当要处理的数据不能放进内存时,可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

    2.高维性

    现在,常常会遇到具有成百上千属性的数据集,而不是几十年前常见的只具有少量属性的数据集。在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。具有时间分量或空间分量的数据集也通常具有很高的维度。

    例如,考虑包含不同地区的温度测量结果的数据集,如果在一个相当长的时间周期内反复地测量,则维数(特征数)的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据,如维灾难问题。此外,对于某些数据分析算法,随着维数(特征数)的增加,计算复杂度会迅速增加。

    3.异构数据和复杂数据

    通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异构属性的技术。

    近年来,出现了更复杂的数据对象。这种非传统类型的数据如:含有文本、超链接、图像、音频和视频的Web和社交媒体数据,具有序列和三维结构的DNA数据,由地球表面不同位置、不同时间的测量值(温度、压力等)构成的气候数据。

    为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

    4.数据的所有权与分布

    有时,需要分析的数据不会只存储在一个站点,或归属于一个机构,而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括:

    如何降低执行分布式计算所需的通信量?如何有效地统一从多个数据源获得的数据挖掘结果?如何解决数据安全和隐私问题?

    5.非传统分析

    传统的统计方法基于一种假设检验模式,即提出一种假设,设计实验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一些数据挖掘技术。

    此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。

    数据分析的5种细分方法有哪些?
    刘老师 数据分析师

    1.按时间细分

    时间可以细分为不同的跨度,包括年、月、周、日、时、分、秒等等,不同的时间跨度,数据表现可能大不相同。

    比如说,按照月度来看,产品的销量可能变化不大,但是如果细分到每一天,可能就有比较剧烈的变化,我们应该找到这些变化的数据,并分析变化背后的原因,而不是让它淹没在整月汇总数据的表象之中。

    2.按空间细分

    空间主要是指按地域进行划分,包括世界、洲、国家、省份、城市、区等等。

    比如说,把全国的 GDP 数据,细分到每一个省份。

    空间作为一个相对抽象的概念,也可以代表其他与业务相关的各种事物,比如产品、人员、类别等等,只要有助于理解事物的本质,都可以尝试拿来进行细分。

    3.按过程细分

    把业务细分为一些具体的过程,往往能够让复杂的问题简单化。

    比如说,把订单发货细分为 5 个过程,想办法提升每个过程的效率,从而缩短发货的时间。

    再比如,把用户的生命周期,细分为 5 个重要的过程,即:获取、激活、留存、盈利、推荐。

    4.按公式细分

    有时候一个指标,是可以用公式计算出来的。

    比如说,销售额 = 销售数量 * 平均单价,销售数量 = 新客户购买数量 + 老客户购买数量,以此类推。

    再比如,在财务分析中,权益净利率 = 资产净利率 * 权益乘数,其中:资产净利率 = 销售净利率 * 资产周转率,以此类推。

    5.按模型细分

    数据分析的模型有很多,我们可以根据业务的实际情况,选择合适的模型,在此基础上进行细分,得出相应的分析结论。

    比如说,按照波士顿矩阵,把企业产品细分为「市场占有率」和「销售增长率」两个维度,然后画一个四象限矩阵图,其中每个象限就代表一类产品,即:明星产品、金牛产品、瘦狗产品和问题产品,对每一类产品,分别建议采取不同的发展策略。

    再比如,按照 RFM 模型,把客户按三个维度进行细分,即:最近一次消费时间间隔(Recency)、消费频率(Frequency)和消费金额(Monetary),从而得到 8 种客户类别,从而有针对性地采取不同的营销策略。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司