胸部疼痛类型,痛感由重到轻依次为typical、atypical、non-anginal及asymptomatic。
trestbps
血压。
chol
胆固醇。
fbs
空腹血糖。如果血糖含量大于120mg/dl,则取值为true,否则取值为false。
restecg
心电图结果是否有T波,由轻到重依次为norm和hyp。
thalach
最大心跳数。
exang
是否有心绞痛。true表示有心绞痛,false表示没有心绞痛。
oldpeak
运动相对于休息的STDepression,即ST段压值。
slop
心电图STSegment的倾斜度,程度取值包括down、flat及up。
ca
透视检查发现的血管数。
thal
病发种类,由轻到重依次为norm、fix及rev。
status
是否患病。buff表示健康,sick表示患病。
数据预处理的SQL脚本示例如下。
selectage,(casesexwhen'male'then1else0end)assex,(casecpwhen'angina'then0when'notang'then1else2end)ascp,trestbps,chol,(casefbswhen'true'then1else0end)asfbs,(caserestecgwhen'norm'then0when'abn'then1else2end)asrestecg,thalach,(caseexangwhen'true'then1else0end)asexang,oldpeak,(caseslopwhen'up'then0when'flat'then1else2end)asslop,ca,(casethalwhen'norm'then0when'fix'then1else2end)asthal,(casestatuswhen'sick'then1else0end)asifHealthfrom${t1};②
特征工程主要包括特征的衍生及尺度变化等功能。本工作流首先通过类型转换组件将输入特征转换为DOUBLE类型(因为逻辑回归模型的输入数据必须为DOUBLE类型),然后使用过滤式特征选择组件判断每个特征对于结果的影响(通过信息熵和基尼系数反映其影响)。同时,使用归一化组件将每个特征的数值范围转换为0~1,从而去除量纲对结果的影响,其公式为result=(val-min)/(max-min)。