发布网友
共1个回答
热心网友
可以将类别(属性)数据进行量化成连续数据。
例如,属性数据是 等级数据,很好、较好、一般、较差……,可以将之用量表如5/4/3……。赋值好后,用中心极限定理,将之转化成均值为0,标准差为1的标准正态分布的连续数据即可。
但如果是类别数据,例如分区域,如南方、北方、东部……这样的话,建议用虚拟变量,0和1来处理。追问那虚拟变量有多个该怎么办,比如东南西北,0和1不够啊,还有就是,虚拟变量怎么用于做Logistic回归呢
追答东南西北要用3次转换的,先将4个方向分成2类,一类3方向一类1方向;然后还将3方向的分2类,以此类推。但这种回归不能够全部自变量都是虚拟变量,最好要有连续变量,否则回归方程做出来效果可能不太好