系列文章目录
作者:i阿极
作者简介:Python领域新星作者:
5.2数据探索
查看数据数量
data.shape
有2240行,22个特征值
查看基本信息
data.info()
发现Income列有缺失值,接下来需要对缺失值进行处理
观察Income列缺失的行
income_missing = data[data.Income.isnull()]income_missing
从他们的Year_Birth中发现,很多都是1960年之前的人,很有可能退休了(2023-65=1958)
before = income_missing[income_missing.Year_Birth < 1961]after = income_missing[income_missing.Year_Birth > 1961]import matplotlib.pyplot as pltplt.bar(['before 1961','after 1961'],[len(before),len(after)])plt.show()
对于可能退休的人(小于1961)我们用0填充,其他的用平均值
data.loc[(data['Year_Birth'] < 1961) & (data['Income'].isnull())] =data.loc[(data['Year_Birth'] < 1961) & (data['Income'].isnull())].fillna(0)data.Income = data.Income.fillna(data.Income.mean())data.isnull().sum()
对于可能退休的人(小于1961)我们用0填充,其他的用平均值,已经没有缺失值。
5.3处理非数值型变量
查看类型为object的列
non_num_cols = [cols for cols in data.columns if data[cols].dtype == 'object']non_num_cols
首先我们将Dt_Customer转化为日期格式
data['Dt_Customer'] = pd.to_datetime(data['Dt_Customer'])
处理类别变量,先来看看有几种类别
data.Education.value_counts()
data.Marital_Status.value_counts()
因为alone、YOLO、Abusurd样本数很少,所以本次分析将 alone、YOLO、Abusurd 统一归为 Single。
data.Marital_Status = data.Marital_Status.replace(['Alone','YOLO','Absurd'],'Single')data.Marital_Status.value_counts()
Marital_Status = pd.get_dummies(data.Marital_Status,prefix='Marital_Status')data = data.drop('Marital_Status',axis=1).join(Marital_Status)
同理应用于教育状况
Education = pd.get_dummies(data.Education,prefix='Education')data = data.drop('Education',axis=1).join(Education)data
再来看看处理之后的特征值
data.info()
5.4构造模型
划分训练集和测试集
from sklearn.model_selection import train_test_splity = data.Response #目标变量X = data.drop('Response',axis=1)train_x,val_x,train_y,val_y = train_test_split(X,y,train_size=0.8,test_size=0.2,random_state=0)
用统计的方法看看相关性
cor = data.corr()features = cor[(cor['Response'] < -0.1) | (cor['Response'] > 0.1)] .index.drop('Response')
模型搭建
from sklearn.linear_model import LogisticRegressionlr = LogisticRegression()lr.fit(train_x[features],train_y)
验证
prey = lr.predict(val_x[features])from sklearn.metrics import accuracy_scoreaccuracy_score(val_y,prey)
开始预测predictions = lr.predict(data[features])results = pd.DataFrame(data={'Id':data.Id,'Response':predictions})results[:15]
文章下方有交流学习区!一起学习进步!
创作不易,如果觉得文章不错,可以点赞收藏评论
你的支持和鼓励是我创作的动力❗❗❗
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END