在数据分析和处理的过程中,Excel 文件是一种非常常见的数据存储格式。在 Python 中,我们可以通过多种方式读取 Excel 数据,其中最常用的库是 pandas
和 openpyxl
。本教程将详细介绍如何使用这两个库读取 Excel 数据。
环境准备
在开始之前,确保你的 Python 环境中安装了 pandas
和 openpyxl
。可以通过以下命令安装:
pip install pandas openpyxl
使用 pandas
读取 Excel 数据
pandas
是一个强大的数据分析工具,支持多种数据格式,包括 Excel 文件。我们下面将通过 pandas
读取 Excel 文件并对其进行基本操作。
假设我们有一个名为 data.xlsx
的 Excel 文件,内容如下:
| 姓名 | 年龄 | 职业 | |--------|------|----------| | 张三 | 25 | 教师 | | 李四 | 30 | 工程师 | | 王五 | 28 | 医生 |
以下是使用 pandas
读取 Excel 文件的示例代码:
import pandas as pd
# 读取 Excel 文件
file_path = 'data.xlsx'
df = pd.read_excel(file_path, sheet_name='Sheet1')
# 显示数据
print(df)
在上面的代码中,我们使用 pd.read_excel
方法读取 data.xlsx
文件中的 Sheet1
页。读取的数据被存储在一个 DataFrame
对象中,使用 print()
可以输出该对象的内容。
数据类型和基本操作
读取 Excel 数据后,你可能需要进行一些基本操作,例如查看数据的类型、删除缺失值、筛选数据等。以下是一些常用的操作示例:
# 查看数据的基本信息
print(df.info())
# 查看前五行数据
print(df.head())
# 查看年龄大于28岁的人
filtered_data = df[df['年龄'] > 28]
print(filtered_data)
# 填充缺失值(假设有缺失值)
df.fillna({'职业': '未知'}, inplace=True)
使用 openpyxl
读取 Excel 数据
openpyxl
是一个用于读取和写入 Excel 文件(.xlsx 格式)的库。虽然 pandas
更加便捷,但在某些情况下,我们可能需要使用 openpyxl
直接与 Excel 文件进行交互。
以下是使用 openpyxl
读取 Excel 文件的示例代码:
from openpyxl import load_workbook
# 加载 Excel 文件
file_path = 'data.xlsx'
wb = load_workbook(file_path)
# 选择工作表
sheet = wb['Sheet1']
# 读取数据
data = []
for row in sheet.iter_rows(values_only=True):
data.append(row)
# 显示数据
for row in data:
print(row)
在上面的代码中,我们使用 load_workbook
方法加载 Excel 文件,然后选择指定的工作表。通过 iter_rows
方法,我们可以逐行读取数据并将其存储在列表中。
小结
在本教程中,我们介绍了如何使用 pandas
和 openpyxl
读取 Excel 数据。pandas
提供了强大的工具来快速处理和分析数据,而 openpyxl
则适用于需要直接读取 Excel 结构的情况。根据实际需求选择合适的方法,就能高效地读取和利用 Excel 数据。希望这个教程能帮助你更好地掌握 Excel 数据的读取。