How do I read a large csv file with pandas?

在Pandas中，读取大型CSV文件有多种方法可以有效地管理内存使用，同时确保处理速度。以下是一些常用的策略和方法：

1. 使用 `read_csv` 的参数

分块读取

当处理非常大的文件时，可以使用 chunksize 参数来分块读取文件。这允许你每次只处理一个小部分数据，而不是一次性将整个文件加载到内存中。

python
import pandas as pd

chunk_size = 10000  # 每块的行数
chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)

for chunk in chunks:
    # 对每个chunk进行处理
    process(chunk)

只读取部分列

如果你只关心文件中的特定几列，使用 usecols 参数可以显著减少内存消耗。

python
columns = ['col1', 'col2', 'col3']  # 只需要读取的列名
df = pd.read_csv('large_file.csv', usecols=columns)

2. 数据类型优化

在读取时直接指定更加节约内存的数据类型可以减少内存使用。例如，如果知道数据范围较小，可以使用 int32 或 float32 而不是默认的 int64 或 float64。

python
dtypes = {'col1': 'int32', 'col2': 'float32', 'col3': 'category'}
df = pd.read_csv('large_file.csv', dtype=dtypes)

3. 逐行读取

虽然这种方法处理起来可能比较慢，但它可以帮助你控制内存使用，尤其是在初步检查数据结构或处理极大文件时很有用。

python
with open('large_file.csv') as file:
    for line in file:
        process(line)

4. 使用 Dask 或其他库

对于非常大的数据集，Pandas可能不是最优选。可以考虑使用如Dask这样的库，它设计用于并行计算，能够更有效地处理大规模数据。

python
import dask.dataframe as dd

df = dd.read_csv('large_file.csv')

示例应用场景

假设你在一个电商公司工作，需要处理一个包含数百万订单的大型CSV文件。每个订单包含多个属性，但你只关心订单ID、用户ID和订单金额。你可以使用 read_csv，结合 usecols 和 dtype，来优化读取过程：

python
columns = ['OrderID', 'UserID', 'Amount']
dtypes = {'OrderID': 'int32', 'UserID': 'int32', 'Amount': 'float32'}
df = pd.read_csv('orders.csv', usecols=columns, dtype=dtypes)

这种方法将显著降低内存使用并提高处理速度。

2024年7月20日 14:46 回复

1个答案

1. 使用 `read_csv` 的参数

分块读取

只读取部分列

2. 数据类型优化

3. 逐行读取

4. 使用 Dask 或其他库

示例应用场景

你的答案

How do I read a large csv file with pandas?

1个答案

1. 使用 read_csv 的参数

分块读取

只读取部分列

2. 数据类型优化

3. 逐行读取

4. 使用 Dask 或其他库

示例应用场景

你的答案

1. 使用 `read_csv` 的参数