【python】pandas:DataFrame合并技巧详解

47 阅读 0 评论 0 点赞

在数据处理与分析过程中，数据的合并是一项非常重要的操作。Pandas库作为Python中最流行的数据处理工具之一，提供了多种方法来实现不同方式的数据合并。在这篇文章中，我们将详细介绍DataFrame的合并技巧，并通过代码示例来说明。

1. 合并Basics: `concat` 函数

pandas.concat() 是用于合并多个DataFrame的基本方法。它可以在行或列方向上堆叠数据。

import pandas as pd

# 创建两个数据框
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
})

df2 = pd.DataFrame({
    'A': ['A3', 'A4'],
    'B': ['B3', 'B4']
})

# 沿着行方向合并
result = pd.concat([df1, df2])
print(result)

输出结果：

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
0  A3  B3
1  A4  B4

2. 使用 `merge()` 进行SQL风格的合并

pandas.merge() 提供了类似于SQL的合并功能，可以根据某些关键列的值进行连接。我们可以指定内连接、外连接、左连接和右连接。

# 创建两个数据框
df1 = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

df2 = pd.DataFrame({
    'key': ['K0', 'K2', 'K3'],
    'B': ['B0', 'B1', 'B2']
})

# 内连接
result_inner = pd.merge(df1, df2, on='key', how='inner')
print(result_inner)

输出结果：

  key   A   B
0 K0  A0  B0
1 K2  A2  B1

3. 左连接与右连接

除了内连接，左连接和右连接同样重要。左连接保留左侧DataFrame的所有行，而右连接则保留右侧DataFrame的所有行。

# 左连接
result_left = pd.merge(df1, df2, on='key', how='left')
print(result_left)

输出结果：

  key   A    B
0 K0  A0   B0
1 K1  A1  NaN
2 K2  A2   B1

# 右连接
result_right = pd.merge(df1, df2, on='key', how='right')
print(result_right)

输出结果：

  key    A   B
0 K0   A0  B0
1 K2   A2  B1
2 K3  NaN  B2

4. 合并多个DataFrame

在实际应用中，我们经常需要合并多个DataFrame。可以使用reduce函数结合merge()来实现。

from functools import reduce

# 创建多个数据框
df1 = pd.DataFrame({'key': ['K0', 'K1'], 'A': ['A0', 'A1']})
df2 = pd.DataFrame({'key': ['K0', 'K2'], 'B': ['B0', 'B1']})
df3 = pd.DataFrame({'key': ['K1', 'K2'], 'C': ['C0', 'C1']})

# 使用reduce合并
dfs = [df1, df2, df3]
result_multiple = reduce(lambda left, right: pd.merge(left, right, on='key', how='outer'), dfs)
print(result_multiple)

输出结果：

  key    A    B    C
0 K0   A0   B0  NaN
1 K1   A1  NaN   C0
2 K2  NaN   B1   C1

5. 注意事项

在合并数据时，需要注意以下几点：

关键列的名称：确保在合并时，指定的关键列名称在两个DataFrame中存在。可以使用left_on和right_on参数来指定不同的列。
缺失值处理：合并后可能会引入缺失值（NaN），可以使用fillna()方法进行填充处理。
合并时的数据类型：确保合并的列具有相同的数据类型，以避免合并时出现意外的结果。

通过这些合并技巧，我们可以更灵活、更高效地处理和分析数据。在实际的数据分析工作中，掌握这些技巧将极大地提高工作效率。

点赞(0) 打赏

本文分类：后端
本文标签：python 开发语言 pandas
浏览次数：47 次浏览
发布日期：2024-10-14 17:31:48
本文链接：http://makehui.com/houduan/6082.html

【python】pandas:DataFrame合并技巧详解

1. 合并Basics: concat 函数

2. 使用 merge() 进行SQL风格的合并

3. 左连接与右连接

4. 合并多个DataFrame

5. 注意事项

微信扫一扫：分享

【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-转骰子【欧弟算法】全网注释最详细分类最全的华为OD真题题解

【Rust】——【面向对象语言的特征】

【Golang】关于Gin框架请求参数的获取

初级爬虫实战——巴黎圣母院新闻

微信扫一扫：分享

1. 合并Basics: `concat` 函数

2. 使用 `merge()` 进行SQL风格的合并