python:删掉重复行之drop_duplicates（）用法

49 阅读 0 评论 0 点赞

在数据分析和处理的过程中，处理重复数据是一个常见的需求。Pandas库提供了一个非常方便的方法——drop_duplicates()，用于删除DataFrame中的重复行。本文将详细介绍drop_duplicates()的用法，并通过示例代码演示其实际应用。

`drop_duplicates()` 方法概述

drop_duplicates()是Pandas库中DataFrame对象的一个方法，其基本功能是返回一个去除重复行的新DataFrame。此方法允许用户指定依据哪些列来判断重复行，同时还支持保留或丢弃重复行的第一条或最后一条。

语法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

subset: 指定要检查重复的列。如果为None，则检查所有列。
keep: 指定保留哪一条重复记录。可选的值有：
'first'（默认值）：保留第一次出现的记录。
'last'：保留最后一次出现的记录。
False：删除所有重复的记录。
inplace: 是否在原始DataFrame上进行修改。如果为True，则不返回新对象，而是在原对象上进行修改。

示例代码

下面我们通过几个示例来演示drop_duplicates()的用法。

示例 1：基础用法

首先，导入必要的库并创建一个简单的DataFrame。

import pandas as pd

# 创建示例DataFrame
data = {
    '姓名': ['张三', '李四', '张三', '王五', '李四'],
    '年龄': [25, 30, 25, 22, 30],
    '城市': ['北京', '上海', '北京', '广州', '上海']
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

# 使用drop_duplicates()删除重复行
df_unique = df.drop_duplicates()
print("\n去重后的DataFrame:")
print(df_unique)

运行上述代码，我们可以看到原始DataFrame中有重复的行，而drop_duplicates()方法成功地去除了重复项。

示例 2：指定列去重

我们可以选择根据特定列进行去重。比如，只根据"姓名"列去重。

# 根据"姓名"列去重
df_unique_name = df.drop_duplicates(subset=['姓名'])
print("\n根据'姓名'列去重后的DataFrame:")
print(df_unique_name)

在这个例子中，只有不同的"姓名"会被保留下来，其他列将根据第一次出现的"姓名"记录进行保留。

示例 3：控制保留的记录

接下来，我们演示如何控制保留的记录。在这个例子中，我们可以选择保留最后一次出现的记录。

# 根据'姓名'列去重，保留最后一条记录
df_unique_last = df.drop_duplicates(subset=['姓名'], keep='last')
print("\n根据'姓名'列去重并保留最后一条记录的DataFrame:")
print(df_unique_last)

示例 4：就地修改

如果希望直接在原始DataFrame上进行修改，可以使用inplace=True参数。

# 原始DataFrame就地去重
df.drop_duplicates(inplace=True)
print("\n就地去重后的原始DataFrame:")
print(df)

总结

drop_duplicates()是Pandas库中功能强大的方法，能够有效地帮助我们去除数据中的重复项。通过结合subset、keep和inplace等参数，我们可以根据不同的需求灵活地操作DataFrame，确保数据的唯一性和准确性。希望本文通过示例能够帮助你更好地理解和运用drop_duplicates()方法！

点赞(0) 打赏

本文分类：后端
本文标签：开发语言 python
浏览次数：49 次浏览
发布日期：2024-09-28 19:55:24
本文链接：http://makehui.com/houduan/2208.html

python:删掉重复行之drop_duplicates（）用法

drop_duplicates() 方法概述

语法

示例代码

示例 1：基础用法

示例 2：指定列去重

示例 3：控制保留的记录

示例 4：就地修改

总结

微信扫一扫：分享

【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-转骰子【欧弟算法】全网注释最详细分类最全的华为OD真题题解

【Rust】——【面向对象语言的特征】

【Golang】关于Gin框架请求参数的获取

初级爬虫实战——巴黎圣母院新闻

微信扫一扫：分享

`drop_duplicates()` 方法概述