【Python】Pandas简要教程

54 阅读 0 评论 0 点赞

Pandas简要教程

Pandas 是一个强大的数据分析和处理工具，广泛应用于数据科学、机器学习和数据分析等领域。它提供了丰富的数据结构和函数，能够轻松地处理结构化数据。本文将简要介绍 Pandas 的基本用法，并给出相应的代码示例。

安装 Pandas

在使用 Pandas 之前，我们需要先安装它。可以使用 pip 安装：

pip install pandas

导入 Pandas

安装完成后，我们可以在 Python 中导入 Pandas：

import pandas as pd

基本数据结构

Pandas 主要有两个数据结构：Series 和 DataFrame。

Series

Series 是一维数据结构，类似于 Python 的列表或字典。可以通过以下方式创建一个 Series：

data = pd.Series([1, 2, 3, 4, 5])
print(data)

# 带标签的 Series
data_with_labels = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(data_with_labels)

DataFrame

DataFrame 是二维数据结构，可以看作是一个表格，其中每列可以是不同的数据类型。可以通过以下方式创建一个 DataFrame：

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

数据基本操作

读取数据

Pandas 可以从多种格式（如 CSV、Excel 等）读取数据。下面是从 CSV 文件读取数据的示例：

df = pd.read_csv('data.csv')
print(df.head())  # 显示前五行

数据选择

可以通过列名选择 DataFrame 中的某一列：

print(df['name'])  # 选择 'name' 列
print(df[['name', 'age']])  # 选择多列

也可以通过行索引选择特定行：

print(df.iloc[0])  # 选择第一行

数据过滤

通过条件过滤数据非常简单。例如，我们可以选择年龄大于30的人：

filtered_df = df[df['age'] > 30]
print(filtered_df)

数据处理

数据排序

Pandas 允许对 DataFrame 进行排序：

sorted_df = df.sort_values(by='age', ascending=False)
print(sorted_df)

数据缺失处理

处理缺失数据是数据分析的重要步骤。可以使用 fillna 和 dropna 方法：

# 用 0 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)

数据分组

分组操作可以帮助我们进行聚合分析。例如，计算每个城市的平均年龄：

grouped = df.groupby('city')['age'].mean()
print(grouped)

数据保存

处理完数据后，你可能想把处理结果保存到文件中。Pandas 支持将 DataFrame 导出为 CSV 等格式：

df.to_csv('output.csv', index=False)

总结

Pandas 是一个功能强大的数据处理库，提供了丰富的功能来对数据进行读写、选择、过滤、处理等操作。通过简单的代码，我们可以轻松实现数据分析所需的各种任务。无论是在机器学习、数据清洗还是探索性数据分析中，Pandas 都是一个不可或缺的工具。希望通过这个简单的教程，你能够对 Pandas 有一个初步的了解，并能够在实际项目中运用它来处理和分析数据。

点赞(0) 打赏

本文分类：后端
本文标签：Python数据分析开发语言 python pandas
浏览次数：54 次浏览
发布日期：2024-09-22 05:06:56
本文链接：http://makehui.com/houduan/419.html