本数据集由保险公司收集,其中主要包括参保人健康信息如:是否患有糖尿病,高血压、和患者的年龄信息共11个字段。本案例里通过机器学习和可视化的方法分析哪些因素对保费价格影响最大。

1.读取医疗保险保费数据集

含了986例保险人的身体健康指标等数据,包括是否患有糖尿病,高血压等。

Age Diabetes BloodPressureProblems AnyTransplants AnyChronicDiseases Height Weight KnownAllergies HistoryOfCancerInFamily NumberOfMajorSurgeries PremiumPrice
45 0 0 0 0 155 57 0 0 0 25000
60 1 0 0 0 180 73 0 0 0 29000
36 1 1 0 0 158 59 0 0 1 23000
52 1 1 0 1 183 93 0 0 2 28000
38 0 0 0 1 166 88 0 0 1 23000

2.字段基本统计信息

对医疗保险保费数据集的各个字段进行统计分析,并展示相应的信息。

Age Diabetes BloodPressureProblems AnyTransplants AnyChronicDiseases Height Weight KnownAllergies HistoryOfCancerInFamily NumberOfMajorSurgeries PremiumPrice
样本数 986 986 986 986 986 986 986 986 986 986 986
均值 41.7454361055 0.4198782961 0.4685598377 0.0557809331 0.1805273834 168.1825557809 76.9503042596 0.215010142 0.1176470588 0.6673427992 24336.7139959432
标准差 13.9633713899 0.4937892288 0.4992637777 0.2296146599 0.3848213057 10.0981548277 14.2650958391 0.4110378716 0.3223532463 0.7492049513 6248.1843822397
最小值 18 0 0 0 0 145 51 0 0 0 15000
下四分位数 30 0 0 0 0 161 67 0 0 0 21000
中位数 42 0 0 0 0 168 75 0 0 1 23000
上四分位数 53 1 1 0 0 176 87 0 0 1 28000
最大值 66 1 1 1 1 188 132 1 1 3 40000

通过上表可以发现,年龄的最小值为18岁,最大值为66岁,其中保费价格的均值为24336元,最小值为15000元最大值为40000元。

3.查看唯一值及数量

下面我们用查看唯一值及数量组件检测是否患有糖尿病字段。

0 572
1 414

可以发现其中患有糖尿病的患者为414人,不患有糖尿病的为572人。

4.数据相关性

index Age Diabetes BloodPressureProblems AnyTransplants AnyChronicDiseases Height Weight KnownAllergies HistoryOfCancerInFamily NumberOfMajorSurgeries PremiumPrice
Age 1 0.210908 0.244888 -0.008549 0.051072 0.039879 -0.01859 -0.024416 -0.027623 0.429181 0.69754
Diabetes 0.210908 1 0.127727 -0.036652 -0.089428 -0.003783 -0.024563 -0.080102 -0.055527 0.122722 0.076209
BloodPressureProblems 0.244888 0.127727 1 -0.024538 0.045424 -0.037926 -0.061016 -0.01155 0.048239 0.251568 0.167097
AnyTransplants -0.008549 -0.036652 -0.024538 1 0.035285 -0.031543 0.002087 0.001876 -0.020171 -0.004154 0.289056
AnyChronicDiseases 0.051072 -0.089428 0.045424 0.035285 1 0.047419 -0.033318 -0.027418 0.008666 0.014835 0.20861
Height 0.039879 -0.003783 -0.037926 -0.031543 0.047419 1 0.066946 -0.0102 0.010549 0.037289 0.02691
Weight -0.01859 -0.024563 -0.061016 0.002087 -0.033318 0.066946 1 0.037492 0.003481 -0.006108 0.141507
KnownAllergies -0.024416 -0.080102 -0.01155 0.001876 -0.027418 -0.0102 0.037492 1 0.115383 0.103923 0.012103
HistoryOfCancerInFamily -0.027623 -0.055527 0.048239 -0.020171 0.008666 0.010549 0.003481 0.115383 1 0.212657 0.083139
NumberOfMajorSurgeries 0.429181 0.122722 0.251568 -0.004154 0.014835 0.037289 -0.006108 0.103923 0.212657 1 0.26425
PremiumPrice 0.69754 0.076209 0.167097 0.289056

 用散点图分析医疗保险保费数据集中年龄与保费的关系,面板参数中,选择列选择agePremiumPrice

用柱状图分析医疗保险保费数据集中,保费价格的情况,面板参数中,选择列选择PremiumPrice

 

用饼状图展示参保人中患有糖尿病的情况,在面板参数中,选择列选择Diabetes

 

15.回归决策树

通过回归决策树组件,我们分析一下医疗保险保费数据集中,各个特征的重要性,其中参数面板中,特征列选择除PremiumPrice其他列,标签列选择PremiumPrice

 

 

16.模型预测

利用训练好的决策树进行预测

Age Diabetes BloodPressureProblems AnyTransplants AnyChronicDiseases Height Weight KnownAllergies HistoryOfCancerInFamily NumberOfMajorSurgeries PremiumPrice PremiumPrice_predict
-0.4116736331 1.1754329041 -0.9389778428 -0.2430560883 -0.4693581039 1.1708516657 -0.2069247574 -0.5233562924 -0.3651483717 -0.8911866704 -0.2140449572 -0.0017144346
0.3048492305 1.1754329041 1.0649878564 -0.2430560883 -0.4693581039 1.5671646565 -0.2069247574 1.9107441996 -0.3651483717 0.4442389481 -0.2140449572 -0.0017144346
1.3079812396 -0.8507503886 1.0649878564 -0.2430560883 -0.4693581039 -1.702417518 0.774989767 -0.5233562924 -0.3651483717 1.7796645666 0.5865936157 0.6267650284
0.4481538033 -0.8507503886 1.0649878564 -0.2430560883 -0.4693581039 0.0809909408 0.1437590013 -0.5233562924 -0.3651483717 0.4442389481 -0.2140449572 0.6267650284
-0.6982827786 -0.8507503886 -0.9389778428 4.1142766955 2.1305693705 0.2791474362 -1.399249537 -0.5233562924 2.7386127875 0.4442389481 2.1878707616 1.9850423231

总结

通过可视化分析中的相关性矩阵,和机器学习中决策树,我们发现与医疗保险保费相关性最大的是年龄字段,由此可知年龄直接决定了医疗保险保费的价格。

Logo

一站式 AI 云服务平台

更多推荐