Python酷库之旅-第三方库Pandas(102)

47 阅读 0 评论 0 点赞

Python酷库之旅：第三方库Pandas (102)

Pandas是Python中一个非常强大的数据分析库，广泛应用于数据科学和机器学习领域。它提供了灵活的数据结构和丰富的数据操作功能，使得我们能够高效地处理和分析数据。本文将分享Pandas的一些基础知识和常见的使用示例。

1. 安装Pandas

在使用Pandas之前，我们需要确保已安装该库。可以使用以下命令来安装：

pip install pandas

2. 导入Pandas

在代码中使用Pandas前，首先需要导入该库：

import pandas as pd

3. 数据结构

Pandas主要有两种核心数据结构：Series和DataFrame。

Series：一维数组，类似于Python中的列表，但拥有索引。
DataFrame：二维表格，类似于Excel表格或SQL表格，由多列组成，每列可以是不同数据类型。

3.1 创建Series

可以通过多种方式创建Series，最常见的方式是使用列表或字典：

# 使用列表创建Series
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)

# 使用字典创建Series
s2 = pd.Series({'a': 1, 'b': 2, 'c': 3})
print(s2)

3.2 创建DataFrame

创建DataFrame的方法也有很多，通常使用字典列表或者二维数组：

# 使用字典创建DataFrame
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [23, 25, 22],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
print(df)

# 使用二维数组创建DataFrame
data_array = [
    [1, 'Alice', 20],
    [2, 'Bob', 21],
    [3, 'Charlie', 19]
]
columns = ['ID', '名字', '年龄']
df2 = pd.DataFrame(data_array, columns=columns)
print(df2)

4. 数据操作

Pandas提供了大量方便的数据操作方法，以下是一些常见功能示例。

4.1 数据选择与过滤

我们可以通过列名或条件来选择数据：

# 选择"姓名"列
print(df['姓名'])

# 按条件过滤
result = df[df['年龄'] > 22]
print(result)

4.2 数据添加与删除

可以轻松添加新列或行，或者删除现有数据：

# 添加新列
df['职业'] = ['学生', '工程师', '医生']
print(df)

# 删除列
df = df.drop('职业', axis=1)
print(df)

4.3 数据统计

Pandas也提供了多种统计分析的方法，比如计算均值、标准差等：

# 计算年龄的均值
mean_age = df['年龄'].mean()
print('年龄均值:', mean_age)

# 获取描述统计信息
print(df.describe())

5. 数据导入与导出

Pandas支持多种文件格式的数据导入与导出，常见的如CSV和Excel。

5.1 导入CSV文件

df_from_csv = pd.read_csv('data.csv')
print(df_from_csv)

5.2 导出到Excel

df.to_excel('output.xlsx', index=False)

结论

通过Pandas，我们可以高效地进行数据操作与分析，极大地方便了数据科学工作。本文仅介绍了Pandas的基础知识，实际上它还支持更加复杂的数据处理过程，如分组、合并、透视表等功能。掌握Pandas这一库，可以为你的数据分析工作打下坚实的基础。希望今天的分享能够帮助你更好地理解和使用Pandas！

点赞(0) 打赏

本文分类：后端
本文标签：标准库及第三方库开发语言 python excel 学习与成长 Myelsa的Python酷库之旅 pandas 人工智能
浏览次数：47 次浏览
发布日期：2024-09-25 09:38:28
本文链接：http://makehui.com/houduan/1284.html

上一篇 > Python读取nc文件的几种方式
下一篇 > Python中用于从图像中提取文本的8大OCR库