缺失值的填补方法是什么?

2020/09/28 04:51

处理数据过程中,一般而言只要数据缺失的比例不不大于30%,就应该尽可能不做删除处理,而是选择进行做缺失值填补,那么有哪些填补的办法呢?

(1)Excel实现

在Excel中,缺失值的填充和缺失值删除一样,利用的也是定位条件,先把缺失值找到,然后在第一个缺失值的单元格中输入要填充的值,最常用的就是用0填充,输入以后按Ctrl+Enter组合键就可以对所有缺失值进行填充处理。

缺失值填充前后的对比如下图所示:


在数据中年龄用数字填充合适,但是性别用数字填充就不太合适,那么可不可以分开填充呢?答案是可以的,选中想要被填充的那一列,按照填充全部数据的方式进行填充就可以了,只不过如果想要要填充几列,则需要执行几次这样的操作。


上图是数据填充前后的对比,年龄这一列我们使用平均值进行填充,性别这一列我们使用众数进行填充。

除了用0填充、平均值填充、众数(大多数)填充,还有向前填充(即用缺失值的前一个非缺失值填充,比如上个例子中编号A3 对应的缺失年龄的前一个非缺失值就是16)、向后填充(与向前填充对应)等方式。

(2)Python实现

在Python中,我们利用的 fillna ( ) 方法对数据表中的所有缺失值进行填充,在fillna ( )后面的括号中输入要填充的值即可。


在Python中我们也可以按不同列进行填充,只要在函数fillna ( ) 方法的括号中指明列名即可。


上面的代码中只针对性别这一列进行了填充处理,数据中其他列均未进行任何更改。

也可以同时对多个列填充不同的值:

虽然数据时代的数据收集相对更容易,但是仍然要爱惜数据,所以缺失值的填补方法非常重要,大家要重视!

免费直播

    精选课程 更多

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司