python如何做数据清洗？

385次观看

标签：如何做数据 python

老师回答

1.数据清洗的代码：

import pandas as pd
import numpy as np
# 创建空的df，保存测试数据
test_df = pd.DataFrame({'K1':['C1','C1','C2','C3','C4','C2','C1'],'K2':['A','A','B','C','D',np.NaN,np.NaN]})
# 按K1列进行分组，组内进行unique操作（去除重复元素，返回元组或列表）
test_df_unique = pd.DataFrame(test_df.groupby(['K1'])['K2'].agg('unique'))
# 自定义函数判断元组中是否含有nan
def has_nan(list):
    flag = False
    for x in list:
        if x is np.NaN:
            flag = True
            break
    return flag
# 自定义函数判断元组中是否不含有nan
def no_nan(list):
    flag = True
    for x in list:
        if x is np.NaN:
            flag = False
            break
    return flag
# 获取k2列含有nan的数据
test_df_unique_has_nan = test_df_unique[test_df_unique['K2'].apply(has_nan)]
# 获取k2列不含有nan的数据
test_df_unique_no_nan = test_df_unique[test_df_unique['K2'].apply(no_nan)]
# 管理测试数据，获取源数据
test_df_get = test_df[test_df['K1'].isin(test_df_unique_has_nan.index.tolist())]
test_df_alone = test_df[test_df['K1'].isin(test_df_unique_no_nan.index.tolist())]
# 去除含nan的重复数据
test_df_get_nonan = test_df_get[~test_df_get['K2'].isna()]
# 组合数据
result = test_df_get_nonan.append(test_df_alone)
# 去重，得到最终结果
result_save = result.drop_duplicates(subset=['K1','K2'],keep='last')
# 结果落地
result_save.to_excel('C:/Users/zhen/Desktop/数据清洗之去重.xlsx')

2、测试数据：

3、结果：

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

相关推荐

怎么学好编程语言?

刘老师 Python编程

1.课前预习

对于初学者来说尤其是零基础的同学，既然已经比那些有基础的同学差了一截，那么为什么不更加的努力去学呢?课前都会有课件或者书籍提前给到同学，可以自己利用课余时间预习一下，在预习的过程中肯定还会有自己解决不了的问题，先记录下来课上解决就好。

2.课上认真听课

在上课的时候讲师肯定不可能照顾到所有的同学，这个时候如果你有问题或者没听懂一定要及时去问，千万不要不懂装懂，否则后面你就会发现问题越来越多。

3.课下项目复习

课上讲过的东西不能光看会就够了，一定要自己亲自上手去实操一下看看，只有自己做的时候才知道到底学到什么程度，还有哪里没有掌握。

4.记笔记

好记性不如烂笔头，当你遇到解决不了的问题，自己可以找一个笔记本记录下来，课上老师讲的东西感觉不是很明白也要记下来，没事翻看一下避免以后再犯同样的错。

5.不用慌张

对于零基础的初学者刚开始学习的时候都会遇到听不懂听不明白的现象，因为确实你的基础水平很低，但是不要害怕听不懂是能理解的，就怕你听不懂之后就不认真学习了，主要你坚持学下去你会发现后面的知识学起来超级简单，就跟0到1和1到100的概念是一样的。

python中extend()方法如何实现列表合并？

梦老师 Python编程

对于python中多个列表，我们可以选择将有用的列表合并使用。python中extend()方法可以在列表的尾部追加一个列表。使用这种方法可以直接在原有列表后加上了需要合并的新列表，扩增的原有的列表，已达到合并列表的需求。本文主要介绍extend()实现列表合并的原理和使用实例。

1、extend()

向列表尾部追加一个列表，将列表中的每个元素都追加进来；

在原有列表上增加，可以将一个序列合并到列表中。

2、语法

list.extend(sequence)

3、参数

sequence：要并入的序列（不可省略）。

4、返回值

无

5、使用extend()合并列表实例：

list_a = ['a','b','c']
list_b = ['d','e','f','g']
list_a.extend(list_b)
print(list_a)

输出

>>> ['a', 'b', 'c', 'd', 'e', 'f', 'g']

以上就是关于extend()实现列表合并的原理和使用实例，希望能对你有所帮助哦~

python中如何进行集合交集运算？

刘老师 Python编程

方法一：使用&计算

lis1,lis2=[1,2],[1]

print(list(set(lis1) & set(lis2)))

输出为：[1]

方法二：使用python推导式计算

lst_a = [1,2,3,4,5]
lst_b = [3,4,5,6,7]
lst_c = [x for x in lst_b if x in lst_a]
# lst_c = [x for x in lst_a if x in lst_b]
print(lst_c)

输出

[3, 4, 5]

方法三：使用python集合的内置方法计算

L = [[1,2,3,4], [2,3,4,5], [3,4,5,6],[1,2,3,4,5,6]]
P = set(L[0]).intersection(*L[1:])
print(P)

输出

{3, 4}