系列文章目录

个人简介：机电专业在读研究生，CSDN内容合伙人，博主个人首页
Python面试专栏：《Python面试》此专栏面向准备面试的2024届毕业生。欢迎阅读，一起进步！
码字不易，如果觉得文章不错或能帮助到你学习，可以点赞收藏评论+关注哦！

文章目录

系列文章目录
Python Pandas 面试问题
- 60. 什么是 Pandas？
- 61. 什么是序列和数据框？
- 62. 如何创建一个 DataFrame?
- 63. 如何组合不同的 Pandas DataFrame？
- 64. 如何由字典创建一个 Pandas 序列？
- 65. 如何识别和处理 DataFrame 中的缺失值？
- 66. 如何理解 Pandas 的重新索引？
- 67. 如何在 Pandas DataFrame 中添加新列？
- 68. 如何从 DataFrame 中删除索引名称、行和列？
- 69. 如何获得序列 A 中没有的序列 B 中的项？
- 70. 如何获得序列 A 和序列 B 的非公共项？
- 71. Pandas 库可以识别导入的日期和时间数据吗？
Python 函数库面试问题：[华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（六）](https://blog.csdn.net/a2360051431/article/details/131861093)

本文是Python面试专栏的第五篇。在本专栏中，我将总结华为、阿里巴巴、字节跳动等互联网公司 Python 面试中最常见的 100+ 问题。每道题都提供参考答案，希望能够帮助你在求职面试中脱颖而出，找到一份高薪工作。这些面试题涉及 Python 基础知识、Python 编程、数据分析以及 Python 函数库等多个方面。

Python Pandas 面试问题

60. 什么是 Pandas？

Pandas 是一个开源的 Python 数据分析库，它提供了丰富的数据操作和处理功能，包括数据的读取与写入、切片与索引、过滤和排序、缺失值的处理、聚合和统计分析等。同时，Pandas 还集成了 NumPy 库，使得它能够更好地处理大规模的数值计算和数组操作。Pandas 的核心数据结构是 DataFrame，它可以存储和处理具有不同类型的二维标签化数据。

通过 Pandas，我们可以方便地进行数据清洗、转换和分析，对数据进行探索性分析和可视化，并与其他数据科学工具和库协同使用，如 Matplotlib、Scikit-Learn 等。

61. 什么是序列和数据框？

序列（Series）和数据框（DataFrame）是 Pandas 库中两个重要的数据结构。

序列（Series） 是 Pandas 库中的一维标记数组，类似于带有标签的一维数组。它由两部分组成：索引（Index）和值（Value）。索引提供了对数据的标签，可以用于访问和操作数据。值是存储在序列中的实际数据。序列中的数据类型可以是数字、字符串、布尔值等。
数据框（DataFrame） 是 Pandas 库中的二维表格型数据结构，类似于电子表格或 SQL 中的表。它由行索引和列索引组成，每列可以包含不同类型的数据。数据框可以看作是多个序列按照同样的索引组合而成的。数据框常用于处理和分析结构化的数据。

62. 如何创建一个 DataFrame?

要创建一个 DataFrame，可以使用 Pandas 的 DataFrame() 构造函数，并传入相应的数据和参数或者从 CSV，Excel，Json 等文件中读取。

import pandas as pddata = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]df1 = pd.DataFrame(data, columns=['Name', 'Age'])# 从列表创建data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}df2 = pd.DataFrame(data)# 从字典创建df3 = pd.read_csv('data.csv')# 从 CSV 文件读取df4 = pd.read_excel('data.xlsx', sheet_name='Sheet1')# 从 Excel 文件读取df5 = pd.read_json('data.json')# 从 Json 文件读取

63. 如何组合不同的 Pandas DataFrame？

可以使用以下方法组合 DataFrame：

_append() 方法：将一个 DataFrame 追加到另一个 DataFrame 的末尾。
concat() 方法：沿着指定的轴（默认沿行）连接多个 DataFrame。
join() 方法：基于索引或列的值进行连接，也可以使用 merge() 实现相同的功能。
merge() 方法：基于共同的列或索引值进行连接，并可以指定不同类型的连接。

import pandas as pddf1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})combined_df1 = df1._append(df2)# 创建一个新的 DataFrame，其中包含 df1 和 df2 的行combined_df2 = pd.concat([df1, df2], axis=0) # axis=0 表示沿着行方向组合combined_df3 = pd.concat([df1, df2], axis=1) # axis=1 表示沿着列方向组合df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]}, index=['a', 'b'])df2 = pd.DataFrame({'C': [5, 6], 'D': [7, 8]}, index=['b', 'c'])combined_df4 = df1.join(df2)# 通过索引将 df1 和 df2 进行连接df1 = pd.DataFrame({'ID': [1, 2], 'Name': ['Alice', 'Bob']})df2 = pd.DataFrame({'ID': [2, 3], 'Age': [25, 30]})combined_df5 = pd.merge(df1, df2, on='ID')# 通过 'ID' 列将 df1 和 df2 进行连接

64. 如何由字典创建一个 Pandas 序列？

要从字典创建一个 Pandas 序列，可以使用 pd.Series() 构造函数，并传入字典作为参数，将创建一个包含字典中数据的序列，索引由字典的键自动生成。如下：

import pandas as pddata = {'a': 1, 'b': 2, 'c': 3}series = pd.Series(data)print(series)'''输出：a1b2c3dtype: int64'''

上述示例中，字典的键 ‘a’、‘b’、‘c’ 成为序列的索引，对应的值 1、2、3 成为序列的数据。其中 dtype: int64 表示数据类型为整数。

除了字典，还可以使用列表、元组等来创建 Pandas 序列。在创建序列时，可以通过指定索引来自定义序列的标签，或使用默认的整数索引。

import pandas as pddata = [10, 20, 30]index = ['a', 'b', 'c']series = pd.Series(data, index=index)print(series)'''输出：a10b20c30dtype: int64'''

上述示例中，使用了自定义的索引 ‘a’、‘b’、‘c’ 来创建序列。

65. 如何识别和处理 DataFrame 中的缺失值？

在处理 DataFrame 中的缺失值时，可以采取以下步骤来识别和处理它们：

识别缺失值：使用 Pandas 库中的 isna() 或 isnull() 函数可以对 DataFrame 进行逐个元素的遍历，并返回一个布尔类型的 DataFrame，其中的 True 表示该位置存在缺失值。

import pandas as pd# 创建一个包含缺失值的 DataFramedf = pd.DataFrame({'A': [1, 2, None, 4], 'B': [5, None, 7, 8], 'C': [9, 10, 11, None]})# 判断每个元素是否为缺失值is_missing = df.isnull()print(is_missing)'''输出： ABC0FalseFalseFalse1False TrueFalse2 TrueFalseFalse3FalseFalse True'''

处理缺失值：根据具体情况，可以选择以下几种方式来处理缺失值：
- 删除缺失值：使用 dropna() 函数可以删除包含缺失值的行或列。
```
# 删除包含缺失值的行df_dropna = df.dropna()print(df_dropna)# 删除包含缺失值的列df_dropna_columns = df.dropna(axis=1)print(df_dropna_columns)
```
- 填充缺失值：使用 fillna() 函数可以将缺失值替换为指定的数值。
```
# 将缺失值替换为 0df_fillna = df.fillna(0)print(df_fillna)# 将缺失值替换为每列的平均值df_fillna_mean = df.fillna(df.mean())print(df_fillna_mean)
```
另外，fillna() 函数还可以使用其他填充方法，例如前向填充（ffill）或后向填充（bfill）。

66. 如何理解 Pandas 的重新索引？

在 Pandas 中，重新索引是指对数据结构（如 Series 或 DataFrame）的行索引或列索引进行修改、重新排序或扩充的操作。通过重新索引，可以改变数据的顺序、增加或删除索引标签，使得数据结构与新的索引对齐。

Pandas 提供了 reindex() 方法来执行重新索引操作。有以下常见的用法：

更改现有索引的顺序：传入一个新的索引顺序，将数据按照新的索引顺序重新排序。
增加缺失值或填充值：根据新的索引增加缺失值，或者使用指定的填充值填充缺失位置。
修改行索引或列索引：修改行索引或列索引。

示例代码如下：

import pandas as pd# 创建一个示例 Seriess = pd.Series([1, 2, 3], index=['a', 'b', 'c'])# 重新索引，按照新的索引顺序排序s_reindexed = s.reindex(['c', 'b', 'a'])print(s_reindexed)# 重新索引，增加缺失值s_reindexed = s.reindex(['a', 'b', 'c', 'd'])print(s_reindexed)# 重新索引，填充缺失位置为 0s_filled = s.reindex(['a', 'b', 'c', 'd'], fill_value=0)print(s_filled)# 创建一个示例 DataFramedf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])# 修改行索引df_reindexed_rows = df.reindex(['c', 'b', 'a'])print(df_reindexed_rows)# 修改列索引df_reindexed_columns = df.reindex(columns=['B', 'A'])print(df_reindexed_columns)

67. 如何在 Pandas DataFrame 中添加新列？

可以使用 + 运算符、直接赋值或者 insert() 将新列添加到 Pandas 数据帧，如下所示：

import pandas as pd# 创建一个示例 DataFramedf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # 创建新的 Seriesdf['third']= = pd.Series([7, 8, 9])#To add new column thirddf += new_columnprint (df)# 创建新的 Seriesnew_column = pd.Series([10, 11, 12])# 分配新列到 DataFramedf['D'] = new_columnprint(df)# 定义新列的名称和数据new_column_name = 'E'new_column_data = [13, 14, 15]# 在指定位置插入新列df.insert(loc=1, column=new_column_name, value=new_column_data)print(df)

68. 如何从 DataFrame 中删除索引名称、行和列？

要删除索引名称：可以执行 del df.index._name 或者将索引幅值为 None 以按名称删除索引。

import pandas as pd# 创建一个示例 DataFramedf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})# 设置索引名称为 'Index_Name'df.index.name = 'Index_Name'print(df)# 删除索引名称del df.index._name# 等效于 df.index._name = Noneprint(df)'''输出：ABIndex_Name0 141 252 36 AB014125236'''

注意：如果在 del df.index._name 之前没有设置索引的名称，那么将提示 AttributeError 错误，因为它只会删除已经存在的索引名称。

从 DataFrame 删除行/列：drop() 方法用于从 DataFrame 中删除行/列。axis=0 表示删除指定行或多行，axis=1 表示删除指定列或多列。

import pandas as pd# 创建一个示例 DataFramedf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})# 删除指定行df_without_rows = df.drop([0, 2])print(df_without_rows)# 创建一个示例 DataFramedf = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})# 删除指定列df_without_columns = df.drop(['A'], axis=1)print(df_without_columns)

69. 如何获得序列 A 中没有的序列 B 中的项？

要获取 Series A 中没有的 Series B 中的项，可以使用 Pandas 的 isin() 方法和布尔索引。

以下是一种常见的方法：

import pandas as pd# 创建示例 Seriesseries_a = pd.Series([1, 2, 3, 4])series_b = pd.Series([3, 4, 5, 6])# 使用 isin() 方法检查 Series B 中的项是否在 Series A 中is_in_series_a = series_b.isin(series_a)# 使用布尔索引获取 Series B 中不在 Series A 中的项result = series_b[~is_in_series_a]print(result)

输出结果如下所示，即为 Series A 中没有的 Series B 中的项：

2536dtype: int64

注意：以上代码假设 Series A 和 Series B 的数据类型相同（都为整数）。如果 Series A 和 Series B 的数据类型不同，需要先将它们转为相同的数据类型。

70. 如何获得序列 A 和序列 B 的非公共项？

要获取序列 A 和序列 B 的非公共项，可以使用 Pandas 的 isin() 方法和布尔索引的结合。

以下是一种常见的方法：

import pandas as pd# 创建示例 Seriesseries_a = pd.Series([1, 2, 3, 4])series_b = pd.Series([3, 4, 5, 6])# 使用 isin() 方法检查 Series A 和 Series B 中的元素是否相互存在is_in_series_a = series_b.isin(series_a)is_in_series_b = series_a.isin(series_b)# 使用布尔索引获取各自序列中不在另一个序列中的项result = series_a[~is_in_series_b]._append(series_b[~is_in_series_a])print(result)

输出结果如下所示，即为序列 A 和序列 B 的非公共项：

01122536dtype: int64

71. Pandas 库可以识别导入的日期和时间数据吗？

是的，Pandas 库可以识别和处理日期和时间数据。当从不同来源导入数据时，Pandas 提供了多种方法来解析和识别日期和时间。

使用 pd.to_datetime() 函数：可以使用 pd.to_datetime() 函数将字符串转换为 Pandas 的日期时间对象。它可以自动解析多种日期和时间格式，并将其转换为标准的日期时间格式。
```
import pandas as pd# 示例数据data = ['2022-01-01 12:00:00', '2022-01-02 13:30:45', '2022-01-03 15:15:00']# 转换为日期时间对象datetime_data = pd.to_datetime(data)print(datetime_data)
```
输出结果如下所示：
```
DatetimeIndex(['2022-01-01 12:00:00', '2022-01-02 13:30:45', '2022-01-03 15:15:00'], dtype='datetime64[ns]', freq=None)
```
在这个例子中，pd.to_datetime() 函数将日期时间字符串列表转换为 Pandas 的 DatetimeIndex 对象，这是一个包含日期和时间的索引。

dateutil.parser.parse()：在某些情况下，日期和时间可能具有非标准的格式，无法被自动解析。可以使 dateutil.parser.parse() 函数来解析这些字符串。它是 dateutil 库中的一个功能强大的日期时间解析器。

from dateutil.parser import parseimport pandas as pd# 示例数据data = ['01/01/2022 12pm', '01/02/2022 01:30pm', '01/03/2022 03:45pm']# 解析日期时间字符串datetime_data = [parse(dt) for dt in data]# 转换为 pandas 的日期时间对象datetime_data = pd.to_datetime(datetime_data)print(datetime_data)

输出结果如下所示：

DatetimeIndex(['2022-01-01 12:00:00', '2022-01-02 13:30:00', '2022-01-03 15:45:00'], dtype='datetime64[ns]', freq=None)

Python 函数库面试问题：华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（六）

华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（五）

系列文章目录

文章目录

Python Pandas 面试问题

60. 什么是 Pandas？

61. 什么是序列和数据框？

62. 如何创建一个 DataFrame?

63. 如何组合不同的 Pandas DataFrame？

64. 如何由字典创建一个 Pandas 序列？

65. 如何识别和处理 DataFrame 中的缺失值？

66. 如何理解 Pandas 的重新索引？

67. 如何在 Pandas DataFrame 中添加新列？

68. 如何从 DataFrame 中删除索引名称、行和列？

69. 如何获得序列 A 中没有的序列 B 中的项？

70. 如何获得序列 A 和序列 B 的非公共项？

71. Pandas 库可以识别导入的日期和时间数据吗？

Python 函数库面试问题：华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（六）

最新关注

热文推荐

15.云原生之k8s容灾与恢复实战

Maven阿里云镜像地址

工具分享 | PDF文档解析工具PyMuPDF

web安全学习笔记【09】——算法2

zabbix的基础使用

读程序员的README笔记14_技术设计流程（下）

华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（五）

系列文章目录

文章目录

Python Pandas 面试问题

60. 什么是 Pandas？

61. 什么是序列和数据框？

62. 如何创建一个 DataFrame?

63. 如何组合不同的 Pandas DataFrame？

64. 如何由字典创建一个 Pandas 序列？

65. 如何识别和处理 DataFrame 中的缺失值？

66. 如何理解 Pandas 的重新索引？

67. 如何在 Pandas DataFrame 中添加新列？

68. 如何从 DataFrame 中删除索引名称、行和列？

69. 如何获得序列 A 中没有的序列 B 中的项？

70. 如何获得序列 A 和序列 B 的非公共项？

71. Pandas 库可以识别导入的日期和时间数据吗？

Python 函数库面试问题：华为、阿里巴巴、字节跳动 100+ Python 面试问题总结（六）

相关文章

最新关注

热文推荐