【Python】详解 Pandas 中的 read_csv()

read_csv()

pd.read_csv() 是 Pandas 中用于从 CSV 文件中读取数据的函数。它的语法如下：

pd.read_csv(filepath_or_buffer, sep=",", delimiter=None, header="infer", names=None, index_col=None, usecols=None, dtype=None, na_values=None, skiprows=None, skip_blank_lines=True, verbose=False, skipinitialspace=False, encoding=None, squeeze=False, memory_map=False, low_memory=True, nrows=None, parse_dates=False, infer_datetime_format=False, keep_date_col=False, dayfirst=False, date_parser=None, thousands=None, decimal=".", lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding_errors="strict", dialect=None, error_bad_lines=True, warn_bad_lines=True, on_bad_lines=None)

其中，最常用的参数是 filepath_or_buffer，它表示要读取的 CSV 文件的路径或打开的文件对象。其他参数的含义如下：

sep：指定分隔符，默认为逗号。
delimiter：指定分隔符，如果与sep参数同时指定，则以delimiter为准。
header：指定表头所在行，默认为第一行。
names：指定表头的名称列表。
index_col：指定索引列的名称或位置。
usecols：指定要读取的列的名称列表或位置列表。
dtype：指定每列的数据类型。
na_values：指定缺失值的列表。
skiprows：指定要跳过的行数或行号列表。
skip_blank_lines：指定是否跳过空行，默认为 True。
verbose：指定是否输出详细信息。
skipinitialspace：指定是否忽略分隔符后的空格，默认为 False。
encoding：指定编码格式。
squeeze：指定是否将读取的 DataFrame 转换为 Series。
memory_map：指定是否使用内存映射文件来读取数据。
low_memory：指定是否使用低内存模式来读取数据。
nrows：指定要读取的行数。
parse_dates：指定是否解析日期，默认为 False。
infer_datetime_format：指定是否自动推断日期格式。
keep_date_col：指定是否保留日期列。
dayfirst：指定日期表达式中是否先解释天和月的顺序。
date_parser：指定日期解析函数。
thousands：指定千位分隔符。
decimal：指定小数点的字符。
lineterminator：指定行终止字符。
quotechar：指定引号。
quoting：指定引用程度，0 表示不引用，1 表示引用非数字项，2 表示引用所有项，3 表示引用非数字项和数字项中的负数。
doublequote：指定是否将双引号视为转义字符。
escapechar：指定逃逸字符。
comment：指定注释字符。
encoding_errors：指定编码错误处理方式。
dialect：指定 CSV 方言。
error_bad_lines：指定是否忽略读取错误行，默认为 True。
warn_bad_lines：指定是否输出警告信息，默认为 True。
on_bad_lines：指定当读取出错时的处理方式。

read_csv() 函数返回一个 DataFrame，其中包含了从 CSV 文件中读取到的数据。如果只需要读取文件中的一部分数据，可以使用参数 nrows。如果文件中有多个表格，则可以使用参数 header 和 skiprows 跳过无关的表格。读取大型 CSV 文件时，可以使用参数 chunksize 将文件分块读取。

文章版权归作者所有，未经允许请勿转载。

THE END