当前位置: 去除器 >> 去除器前景 >> Python笔记删除重复值
以下是pandas中对数据进行去重操作的一些常用脚本。现汇总如下:
01
构造数据集
#导入相关的包importpandasaspdimportnumpyasnp#构造数据集df=pd.DataFrame({"姓名":["小哈","小哈","小佛","小在","小等","小我","小呢"],"语文":[,,90,80,70,60,50],"数学":[99,99,88,77,66,55,66],})df
02
删除重复记录
#删除重复记录df1=df.drop_duplicates()df1
03
对某列删除重复值
#根据某一列,并且保留最先出现的记录df2=df.drop_duplicates(subset="数学")df2
04
根据多列删除重复值
#根据多列df3=df.drop_duplicates(subset=["语文","数学"])df3
05
保留第一个出现的重复值
#保留第一个出现的重复值df4=df.drop_duplicates(subset="数学",keep="first")df4
06
保留最后一个出现的重复值
#保留最后一个出现的重复值df5=df.drop_duplicates(subset="数学",keep="last")df5
07
删除重复元素对应记录
#把某一列中,凡是出现重复元素的对应记录统统删掉df6=df.drop_duplicates(subset="数学",keep=False)df6
08
Excel实用技巧
1.Excel比率可视化