目录
read_csv()
read_csv()
pd.read_csv()
是 Pandas 中用于从 CSV 文件中读取数据的函数。它的语法如下:
pd.read_csv(filepath_or_buffer, sep=",", delimiter=None, header="infer", names=None, index_col=None, usecols=None, dtype=None, na_values=None, skiprows=None, skip_blank_lines=True, verbose=False, skipinitialspace=False, encoding=None, squeeze=False, memory_map=False, low_memory=True, nrows=None, parse_dates=False, infer_datetime_format=False, keep_date_col=False, dayfirst=False, date_parser=None, thousands=None, decimal=".", lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding_errors="strict", dialect=None, error_bad_lines=True, warn_bad_lines=True, on_bad_lines=None)
其中,最常用的参数是 filepath_or_buffer
,它表示要读取的 CSV 文件的路径或打开的文件对象。其他参数的含义如下:
sep
:指定分隔符,默认为逗号。delimiter
:指定分隔符,如果与sep
参数同时指定,则以delimiter
为准。header
:指定表头所在行,默认为第一行。names
:指定表头的名称列表。index_col
:指定索引列的名称或位置。usecols
:指定要读取的列的名称列表或位置列表。dtype
:指定每列的数据类型。na_values
:指定缺失值的列表。skiprows
:指定要跳过的行数或行号列表。skip_blank_lines
:指定是否跳过空行,默认为 True。verbose
:指定是否输出详细信息。skipinitialspace
:指定是否忽略分隔符后的空格,默认为 False。encoding
:指定编码格式。squeeze
:指定是否将读取的 DataFrame 转换为 Series。memory_map
:指定是否使用内存映射文件来读取数据。low_memory
:指定是否使用低内存模式来读取数据。nrows
:指定要读取的行数。parse_dates
:指定是否解析日期,默认为 False。infer_datetime_format
:指定是否自动推断日期格式。keep_date_col
:指定是否保留日期列。dayfirst
:指定日期表达式中是否先解释天和月的顺序。date_parser
:指定日期解析函数。thousands
:指定千位分隔符。decimal
:指定小数点的字符。lineterminator
:指定行终止字符。quotechar
:指定引号。quoting
:指定引用程度,0 表示不引用,1 表示引用非数字项,2 表示引用所有项,3 表示引用非数字项和数字项中的负数。doublequote
:指定是否将双引号视为转义字符。escapechar
:指定逃逸字符。comment
:指定注释字符。encoding_errors
:指定编码错误处理方式。dialect
:指定 CSV 方言。error_bad_lines
:指定是否忽略读取错误行,默认为 True。warn_bad_lines
:指定是否输出警告信息,默认为 True。on_bad_lines
:指定当读取出错时的处理方式。
read_csv()
函数返回一个 DataFrame,其中包含了从 CSV 文件中读取到的数据。如果只需要读取文件中的一部分数据,可以使用参数 nrows
。如果文件中有多个表格,则可以使用参数 header
和 skiprows
跳过无关的表格。读取大型 CSV 文件时,可以使用参数 chunksize
将文件分块读取。