MachineLearning5.癌症诊断和分子分型方法之支持向量机（SVM）|机器学习分、、和_在线学习

支持向量机（SupportVectorMachine,SVM）是一类按监督学习（supervisedlearning）方式对数据进行二元分类的广义线性分类器（generalizedlinearclassifier），其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane）。

支持向量机还代表了一种强大的技术，用于一般(非线性)分类、回归和异常点检测的监督学习方法，具有直观的模型表示。SVM使用铰链损失函数（hingeloss）计算经验风险（empiricalrisk）并在求解系统中加入了正则化项以优化结构风险（structuralrisk），是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法（kernelmethod）进行非线性分类，是常见的核学习（kernellearning）方法之一。支持向量机的优点是:在高维空间有效。在维数大于样本数的情况下仍然有效。在决策函数中使用训练点的子集(称为支持向量)，因此它也是有效的内存。通用性:可以指定不同的核函数作为决策函数。提供了通用内核，但也可以指定自定义内核。支持向量机的缺点包括:如果特征的数量远远大于样本的数量，在选择核函数时避免过拟合，正则项是至关重要的。支持向量机不直接提供概率估计，这些估计是使用昂贵的五次交叉验证计算出来的。

1.软件安装

这里我们主要使用e1071和class两个软件包，其他都为数据处理过程中需要使用软件包，如下：

if(!require(class))install.packages("class")if(!require(e1071))install.packages("e1071")if(!require(caret))install.packages("caret")library(class)library(e1071)library(caret)library(reshape2)library(ggplot2)2.数据读取

数据分割将原始数据分割成训练数据和测试数据，测试数据不参与训练建模，将根据模型在测试数据中的表现来选择最优模型参数。

一般做数据分割会留70%的训练数据和30%的测试数据，当然这个比例可以更改，但是一般是训练数据要大于测试数据，用来保证模型学习的充分性。

此外，在做分类任务时，有一个需要额外考虑的问题就是需要尽可能保证训练数据和测试数据中正负样本的比例相近。这里采用「分层抽样」来完成这个任务。

library(sampling)set.seed(123)#每层抽取70%的数据train_id<-strata(data,"diagnosis",size=rev(round(table(data$diagnosis)*0.7)))$ID_unit#训练数据train_data<-data[train_id,]#测试数据test_data<-data[-train_id,]#查看训练、测试数据中正负样本比例prop.table(table(train_data$diagnosis))####BM##0.62814070.3718593prop.table(table(test_data$diagnosis))####BM##0.62941180.37058823.实例操作

一个简单的向后选择，也就是递归特征消除(RFE)算法。这里面涉及到四种核函数的计算方法，我们每种方法都做一遍，最后汇总比较哪种方法的准确性最高，敏感度更好！

1.linear

1.比较每种方法的准确性及置信区间，如下：

2.绘制ROC曲线

将四种不同方法绘制在同一张图上，其中，Poly与Sigmoid曲线非常接近，所以sigmoid使用细线，并且是实线，如下：

THE END

MachineLearning5.癌症诊断和分子分型方法之支持向量机（SVM）

机器学习模型，全面总结！

机器学习算法的基本概念分类和评价标准，以及一些常用的机器学习算法的原理和特点

机器学习算法中分类知识总结！分类器阈值样本

干货如何用马尔科夫链蒙特卡洛(MCMC)解决机器学习的高维度的积分和最优化问题

北京航空航天大学2025年考研大纲：842人工智能基础综合考研

PhpStorm2021下载PhpStorm2021(PHP编程软件)V2021.5破解版下载

MachineLearning5.癌症诊断和分子分型方法之支持向量机（SVM）

Vol.189医疗大健康投融资周报公司融资平台提供医疗

机器学习微积分中的雅可比和海森