问答详情

大数据工程分析有哪些操作?

524次观看
标签: 大数据工程 大数据工程分析操作
老师回答

1、预处理

数据的预处理操作涉及到:一是数据的码制转换,常见的码制有GBK、UTF-8、UNICODE;二是繁简转化,尤其是港台的一些文字;三是html内容文本提取,从互联网采集的数据通常为HTML格式,需要将HTML中可以显示的文本内容提取出来,作为指定字段的内容;四是表情符的处理、字段的拆分与合并等操作等都是在数据预处理环节做的操作。

2、归一化

数据的归一化包含不同信源数据的字段归一化、特征归一化、时间归一化、地名归一化。首先,字段归一化是指将不同爬虫采集到的同一字段整合,比如不同爬虫采下来的作者字段,命名可能不同,有的可能叫发布者,有的可能叫作者,如果需要把数据整合到一起分析,首先需要把字段命名做归一。其次,时间归一化是指,比如表达时间,文本可能是某年某月某日的形式,也可能是2019/12/20的形式,也可能是几天前、几小时前,时间归一化要做的就是将这些时间的表达统一成一种表达形式,这样才可以做后续的数据分析和统计。

3、数据清洗

对数据采集过程中产生的噪音数据进行清洗,噪音可能是字段的部分内容,也可能是整条数据,比如做电商评论数据处理的时候,需要清洗掉字符数小于5的无效数据或者默认好评的灌水数据或者水军发布的数据,这一操作需要根据具体的需求及数据质量去确定。

4、去除重复数据

数据存在重复是很常见的现象,但造成数据重复的原因是多种多样的,对于数据重复通常需要针对性处理,所以需要一个判断重复的标准。比较简单的就是所有都一模一样的判定为重复,这个也是比较好处理的,复杂的数据判重需要一个或多个字段联合,当字段为文本类型时,通常需要引入CRC或MD5算法产生新的判重字段。

免费直播

    精选课程
    相关推荐
    大数据未来的发展前景怎样?
    张老师 大数据工程师

    大数据产业是以数据采集、交易、存储、加工、分析、服务为主的各类经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。数据服务、基础设施和融合应用相互交融,协力构建了完整的大数据产业链。

    从大数据产业链上下游来看,大数据行业上游是基础支撑层,主要包括网络设备、计算机设备、存储设备等硬件供应,此外,相关云计算资源管理平台、大数据平台建设也属于产业链上游;

    大数据行业中游立足海量数据资源,围绕各类应用和市场需求,提供辅助性的服务,包括数据交易、数据资产管理、数据采集、数据加工分析、数据安全,以及基于数据的IT运维等;

    大数据行业下游则是大数据应用市场,随着我国大数据研究技术水平的不断提升,目前,我国大数据已广泛应用于政务、工业、金融、交通、电信和空间地理等行业。

    在上游领域,基础设施层是整个大数据产业的引擎和基础,它涵盖了网络、存储和计算等硬件基础设施,资源管理平台以及各类与数据采集、预处理、分析和展示相关的方法和工具。相关代表企业有紫光集团、联想、中兴通讯、阿里云、腾讯云、华为、中科曙光等。

    在中游大数据服务领域,数据服务层是大数据市场的未来增长点之一, 随着5G商用的全面推广,数据采集和预处理需求将快速上升;此外,随着数字技术日益复杂,提供第三方数据分析、可视化和安全服务的市场也将持续壮大,相关代表企业有久其软件、拓尔思、太极股份、荣联科技等。

    大数据开发具体要怎样学习?
    梦老师 大数据工程师

    1、编程语言的学习

    对于零基础的同学,一开始入门可能不会太简单。因为需要掌握一门计算机的编程语言,大家都知道计算机编程语言有很多,比如:R,C++,JAVA等等。建议从Java入手,容易学而且很好用,Java只需理解一些基本的概念,就可以用它编写出适合于各种情况的应用程序。现在一般也都是从JAVA开始学起,这相当于也是一个基础。

    2、大数据相关技术的学习

    学完了编程语言之后,一般就可以进行大数据部分的学习了。一般来说,学习大数据部分的时间比学习Java的时间要更长,JAVA算作学习大数据要学习的一部分,除此之外学习大数据还需要学习其他相关类型的数据知识。大数据部分,包括Hadoop 、Spark、Storm开发、Hive 数据库、Linux 操作系统等知识,还要熟悉大数据处理和分析技术。如果要完整的学习大数据的话,这些都是必不可少的。

    3、项目实战阶段

    学习任何一门技术,除了理论知识,项目的实战训练也是非常重要的,进行一些实际项目的操作练手,可以帮助我们更好的理解所学的内容,同时对于相关知识也能加强记忆,在今后的运用中,也可以更快的上手,对于相关知识该怎么用也有了经验。在项目实战中,遇到问题最好积极动手记录下来,这样才能更好的去解决你遇到的问题。

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司