关于大数据的处理的一些经验

2020/09/29 01:21

1.数据库的技术上，目前我们公司在研究hadoop分层数据库，具体了解不多；外面流行的NoSql非关系型数据库，像亚马逊、谷歌还有一些日本企业都有自己的NoSql数据库；

2.传统关系型数据库的优化，数据库层的优化和上层使用的优化。

数据库层：需要DBA进行优化，减少碎片，进行分区等；

使用层的优化，即优化SQL

从外界因素来看影响SQL有：CPU、RAM、Network、Disk

CPU：SQL的大量order by，大量group by，case when等都会很费CPU，需要CPU进行计算。是否可以使用汇总来减少此问题

RAM：查找的数据量过大，导致内存资源占用过多。

如无where的SQL，select *的SQL，全表扫描等；

频繁的update、insert都会影响内存，每次对SQL的解析都需要一定的时间和空间。采用绑定变量。

Network：过多的DB连接，频繁的DB开关，跨库的关联，大量数据的导出，复杂的SQL等。

Disk：

大数据量的表，建立索引，保证索引的有效性；

减少大表的insert和delete，会造成磁盘碎片，导致磁盘指针的不连续性；

大表的insert和delete会造成索引的失效，必要时先去掉索引再操作增删改；

索引其实是一张表，要保证其精简

索引的建立，最好用在易排序字段，如number，date等，勿varchar；

varchar字段尽量保持长度的一致性，宁可多给出空间；

减少磁盘的读取次数；

对大表禁止顺序性的全表扫描，使用索引；

减少disdinct，用unionall代替union；

Not like，<>，全模糊like，is null，is not null，not in都会使索引失效；

索引上不要使用任何函数，尽量在等号的另一头使用函数；

SQL的书写一致，减少解析时间；

选择最佳的执行计划，复杂的SQL，不如多个简单的SQL；

减少嵌套子SQL，使用关联查询；

避免笛卡尔积连接；

避免使用*，数据库需要对*进行一次匹配，会消耗资源，而且并不一定所有的字段都要进行查询或者写入，写入时表结构变化还会导致出错，所以避免*；

全表删除，不要使用delete，使用truncate；

全表分页的效率较低，建议使用分步是分页；

3.在数据读取优化到一定程度后，代码上也可以进行很大的优化。

避免过多的开装箱，使用值类型；

对引用类型的集合，多使用泛型；

避免循环嵌套，和无休止的递归；

避免循环中建立大对象；

对大对象的释放；

4.逻辑上的优化

在需要查询大量数据的时候，可以使用分页；

分页影响到一些图标的产生时，可以借助汇总，先展示汇总信息和图标，然后在进行详情的钻取；

时间空间的相互替换。

5.对常用信息的本地化保存，如QQ第一次加载很慢，但后面登陆会很快。

免费直播

精选课程更多

VBA实战速成：从零到一的突破

数据分析师 62次课共11学时

吴开斌

吴开斌

火热报名中

WPS高效数据管理

数据分析师 17次课共4学时

王忠超

王忠超

火热报名中

Fine BI 商业智能数据分析

数据分析师 27次课共6学时

王忠超

王忠超

火热报名中

【Excel 高效应用:HR 数字化管理实战】

数据分析师 30次课共3学时

王忠超

王忠超

火热报名中

Power BI 轻松入门：零基础到数据大师

数据分析师 23次课共49学时

吴开斌

吴开斌

火热报名中

Excel函数大师班：效率与精通的融合

数据分析师 62次课共62学时

吴开斌

吴开斌

火热报名中

0基础入门数据分析5天训练营

数据分析师 5次课共4学时

曹峥

张玮

11647人已报名

Power Bl 商务智能数据分析

数据分析师 37次课共10学时

王忠超

王忠超

火热报名中

Excel综合应用案例-进销存、工资管理、应收账款、员工信息人事表

数据分析师 66次课共11学时

吴开斌

吴开斌

火热报名中

Excel入门到精通

数据分析师 12次课共10学时

高老师

高老师

火热报名中

查看更多课程

相关推荐

热门推荐

最新推荐

登录｜注册｜电脑版

版权所有 2003-2020 广州环球青藤科技发展有限公司