Python酷库之旅-第三方库Pandas(005)

48 阅读 0 评论 0 点赞

Python酷库之旅——第三方库Pandas（005）

Pandas是Python中用于数据处理和分析的一个强大库。它为我们提供了高效、灵活的数据操作工具，特别适合用于结构化数据的处理。Pandas是基于NumPy构建的，利用其高性能的数组运算能力，使得Pandas在处理大规模数据时非常高效。

一、Pandas的主要数据结构

Pandas主要有两种数据结构：Series和DataFrame。

Series: Series是一种一维的数据结构，可以看作是带有索引的一维数组。它可以存储任意类型的数据，包括整数、浮点数、字符串等。

```python import pandas as pd

# 创建一个Series data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e']) print(data) 输出结果： a 1 b 2 c 3 d 4 e 5 dtype: int64 ```

DataFrame: DataFrame是一个二维的数据结构，可以看作是一个表格，由多列（Series）构成。每列可以存储不同类型的数据。

python # 创建一个DataFrame df = pd.DataFrame({ '姓名': ['小明', '小红', '小刚'], '年龄': [25, 27, 22], '城市': ['北京', '上海', '广州'] }) print(df) 输出结果： 姓名年龄城市 0 小明 25 北京 1 小红 27 上海 2 小刚 22 广州

二、数据读取与操作

Pandas支持从多种文件格式读取数据，如CSV、Excel、JSON等。以下是一些常见的数据读取操作。

读取CSV文件: python df = pd.read_csv('data.csv') # 假设data.csv是一个存在的CSV文件 print(df.head()) # 打印前五行
数据的基本操作:
选择列: python print(df['年龄']) # 输出年龄列
筛选数据: python # 筛选年龄大于25的人 filtered_df = df[df['年龄'] > 25] print(filtered_df)
添加新列: python df['工资'] = [5000, 6000, 5500] # 新增工资列 print(df)
数据处理: Pandas提供了丰富的数据处理功能，比如数据清洗、缺失值处理、数据聚合等。
缺失值处理: python df.fillna(0, inplace=True) # 用0填充缺失值
数据分组与聚合: python # 根据城市分组并计算平均年龄 group_df = df.groupby('城市')['年龄'].mean() print(group_df)

三、数据可视化

Pandas还与matplotlib等库兼容，可以方便地进行数据可视化。

import matplotlib.pyplot as plt

# 绘制年龄的直方图
df['年龄'].hist()
plt.title('年龄分布')
plt.xlabel('年龄')
plt.ylabel('频数')
plt.show()

四、总结

Pandas作为数据分析的利器，让Python在数据处理和分析领域表现得游刃有余。无论是数据的读取、处理，还是可视化，Pandas都提供了便捷的接口。通过本次的简单介绍，希望读者能够对Pandas有一个初步的理解，能够在后续的数据分析任务中得心应手。Pandas的强大之处在于其灵活性和易用性，让我们在数据分析的旅程中，能够更高效地探索和洞察数据背后的故事。

点赞(0) 打赏

本文分类：后端
本文标签：标准库及第三方库基础知识学习和成长 python Myelsa的Python酷库之旅 pandas 开发语言
浏览次数：48 次浏览
发布日期：2024-10-06 09:03:57
本文链接：http://makehui.com/houduan/3884.html

上一篇 > 【Python】成功解决RuntimeError: The size of tensor a (2) must match the size of tensor b (3) at non-single
下一篇 > python爬虫 - 初识爬虫

Python酷库之旅-第三方库Pandas(005)