发布网友
共1个回答
热心网友
我个人觉得有些缺失值是没有办法处理的,像你这个里面的jobs,这种属于背景变量类型的,很难以通过一定的数据分析方法来预测,除非你能够找出job的不同类型数据 与其中某个变量紧密相关,然后可以通过这两个相关性建立一个模型预测,否则的话 这种缺失性 只能在分析时将其忽略了
其他一些如果有些在这个数据表中是因变量性的,可以通过其他一些数据指标进行预测的,就找出他们之间的关系模型,对其进行预测,反正缺失值处理是个非常复杂的事情,要针对每个变量的不同情况来看
还要分析下每个缺失是属于随机缺失还是非随机缺失,如果是随机缺失的话,对结果影响不大,你完全可以不理它也没关系,如果是非随机的缺失,那一方面很难预测,另一方面,对结果有影响