目录

read_csv()


read_csv()

pd.read_csv() 是 Pandas 中用于从 CSV 文件中读取数据的函数。它的语法如下:

pd.read_csv(filepath_or_buffer, sep=",", delimiter=None, header="infer", names=None, index_col=None, usecols=None, dtype=None, na_values=None, skiprows=None, skip_blank_lines=True, verbose=False, skipinitialspace=False, encoding=None, squeeze=False, memory_map=False, low_memory=True, nrows=None, parse_dates=False, infer_datetime_format=False, keep_date_col=False, dayfirst=False, date_parser=None, thousands=None, decimal=".", lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding_errors="strict", dialect=None, error_bad_lines=True, warn_bad_lines=True, on_bad_lines=None)

其中,最常用的参数是 filepath_or_buffer,它表示要读取的 CSV 文件的路径或打开的文件对象。其他参数的含义如下:

  • sep:指定分隔符,默认为逗号。
  • delimiter:指定分隔符,如果与sep参数同时指定,则以delimiter为准。
  • header:指定表头所在行,默认为第一行。
  • names:指定表头的名称列表。
  • index_col:指定索引列的名称或位置。
  • usecols:指定要读取的列的名称列表或位置列表。
  • dtype:指定每列的数据类型。
  • na_values:指定缺失值的列表。
  • skiprows:指定要跳过的行数或行号列表。
  • skip_blank_lines:指定是否跳过空行,默认为 True。
  • verbose:指定是否输出详细信息。
  • skipinitialspace:指定是否忽略分隔符后的空格,默认为 False。
  • encoding:指定编码格式。
  • squeeze:指定是否将读取的 DataFrame 转换为 Series。
  • memory_map:指定是否使用内存映射文件来读取数据。
  • low_memory:指定是否使用低内存模式来读取数据。
  • nrows:指定要读取的行数。
  • parse_dates:指定是否解析日期,默认为 False。
  • infer_datetime_format:指定是否自动推断日期格式。
  • keep_date_col:指定是否保留日期列。
  • dayfirst:指定日期表达式中是否先解释天和月的顺序。
  • date_parser:指定日期解析函数。
  • thousands:指定千位分隔符。
  • decimal:指定小数点的字符。
  • lineterminator:指定行终止字符。
  • quotechar:指定引号。
  • quoting:指定引用程度,0 表示不引用,1 表示引用非数字项,2 表示引用所有项,3 表示引用非数字项和数字项中的负数。
  • doublequote:指定是否将双引号视为转义字符。
  • escapechar:指定逃逸字符。
  • comment:指定注释字符。
  • encoding_errors:指定编码错误处理方式。
  • dialect:指定 CSV 方言。
  • error_bad_lines:指定是否忽略读取错误行,默认为 True。
  • warn_bad_lines:指定是否输出警告信息,默认为 True。
  • on_bad_lines:指定当读取出错时的处理方式。

read_csv() 函数返回一个 DataFrame,其中包含了从 CSV 文件中读取到的数据。如果只需要读取文件中的一部分数据,可以使用参数 nrows。如果文件中有多个表格,则可以使用参数 headerskiprows 跳过无关的表格。读取大型 CSV 文件时,可以使用参数 chunksize 将文件分块读取。