一种复杂数据预测模型的构建方法与流程

本发明涉及一种复杂数据预测模型的构建方法。

背景技术:

新一代测序技术的出现,使研究人员能够处理收集的大数据(例如,使临床研究人员能够处理收集自患者的上百个生物样本),并进行如全基因组表达水平、甲基化水平或体细胞突变的分析,这里称为高维组学数据(hdod,highdimensionomicsdata)。虽然可获得的临床样品量通常有限,但由于每个样本被观测的变量的数目可以达到数千或数百万,因此临床研究的瓶颈,已经从样品采集转移到了数据管理和数据分析上。利用hdod连同其它临床变量建立特定临床结果的预测模型,已经是生物医学信息学的研究人员的众多分析目标之一。

建立预测模型已经成为一些学科的定量研究员共享的研究点。研究员一直在积极利用来自数据库的大数据集进行预测模型的开发,采用的方法包括机器学习算法、支持向量机和遗传算法。此外,基于对数据库技术和可视化工具的熟练掌握,研究员可以有效地构建hdod,通过缩放p计算分析hdod,并使得hdod衍生的结果可视化,从而使生物医学研究人员可以对hdod进行处理,并可以直观地观测结果。

构建预测模型已经是现有技术,通常是根据已知预测多变量的结果,构建基于回归的预测模型,且大多采用广义线性模型(glm)。hastie和tibshirani放宽了参数假设,描述了广义相加模型(gam),用非参数回归方法结合几十年的研究。近年来,统计学家一直在研究使用惩罚似然技术(包括lasso、gbm和弹性网络技术)来使hdod自动的选择协变量。这些方法是转化研究中用于处理维度灾难的主要工具。

虽然计算机科学与统计学之间存在交叉,但之间的基本区别在于,计算机科学通常从系统的角度探索带有多变量的图谱,而统计学倾向于遵循节省原则确定几个协变量预测模型。统计学面临的一个主要挑战是如何控制根据hdod选择预测器的假阳性错误率的过度膨胀,其将导致“过度拟合”预测模型。与此相反,计算机科学或生物信息学中,则主要对hdod图谱感兴趣,常常想要量化直观的图谱,重复生成图谱独立的数据集。

本发明保留这两种分析方法的特点,提出一种混合算法,包括两个步骤:在第一步骤中,要确定一组代表对象hdod图谱的“范例”,所述“范例”一般通过无监督学习的聚类分析法获得。为了代表集群图谱,选择单一集群的质心作为范例。每个范例通过p个元素的hdod向量分类。范例的数目(q)通常小于等于样本量(n)。参照各范例,可以计算每个对象的相似性度量,生成具有维度(n×q)的相似性度量的矩阵,通常情况下,p>>n≥q。本步骤可以有效地将高维稀疏矩阵hdod(n×p)转换成“稠密数据矩阵”(n×q)。在第二步骤中,使用惩罚似然方法来选择出那些符合预测结果的范例。由于维数从p大幅减小到q,惩罚似然方法可以很好地选择出包含信息的范例,大大减少了惩罚计算的步骤。本过程首先基于“无监督学习”的范例,然后通过“有监督学习”选择与结果关联的包含信息的范例。由于结果回归范例特异性的相似性,这种方法被称为“面向对象的回归”,或简称为oor。

尽管oor与核机器方法紧密联系,但仍有区别。首先,比核机器学习方法先进的是,oor的范例可以从外部获得或从内部数据衍生。其次,通过把所有计算得到的相似性度量作为协变量,oor通过惩罚似然法使用“变量选择算法”,如lasso、脊回归或弹性网络,来侧重于不同于零的有意义的项。第三,以“整体观”对待复杂的变量,oor提供了一种天然量化工具来发现和验证复杂的变量之间的相互作用,所述复杂的变量之间的相互作用已成为在生物医学研究和系统生物学的一个长期的研究课题。最后,从oor分析得到的预测模型很适合于将基于相似性的搜索应用到大型数据库。

在下文中,本发明第一部分示出了oor的统计学动机,勾画出了oor框架,确定了选择范例的方法,并构建出预测模型。此外,本发明还介绍了从协变量转换到相似性度量,然后建立预测模型的部分流程。除了详细介绍了对范例以及预测器的选择,还介绍了如何评估选择惩罚参数的稳定性以及如何通过自助法评估所含信息范例的一致性。为了说明oor,应用部分介绍了i型糖尿病的研究,并说明了oor在探索疾病与hla基因的关联以及构建预测模型的应用。结果部分介绍了应用于hla-drb1基因以及八个hla基因的所有结果。

技术实现要素:

为了解决现有技术的不足,本发明提供了一种复杂数据预测模型的构建方法。

本发明提供的一种复杂数据预测模型的构建方法,所述方法包括以下步骤:

a、获取一高维组学数据hdod,确定出对于所述hdod具有代表性的一组数据对象作为范例;

b、确定出所述hdod中每个数据对象与每个所述范例的相似性度量,并据此构建数据对象与范例的相似性度量矩阵;

c、由所述数据对象与范例的相似性度量矩阵,通过惩罚似然法从所述范例中选出包含信息的范例;

d、基于所选出的范例构建预测模型。

可选的,步骤a所述具有代表性的一组数据对象包括:可分别代表hodo的不同组数据的各特性的各数据对象。

可选的,步骤a所述具有代表性的一组数据对象包括:具有远离集群、相对独特性的hodo特性的数据对象,即不易由质心或它们的组合来表示其hdod特性的对象。

可选的,所述独特性的对象用下面的回归方法来确定:

假设预先已确定了一组起始的t个质心作为范例,表示为[1],[2],...,and[t],

首先,通过公式将所有对象x的hdod回归到质心的协变量;其中xi表示第i个对象,是回归系数,表示对应xi的初始回归系数表示对应xi、第k的回归系数,x[k]表示第k个对象,εi是对应xi的残差向量;k表示t个质心中的某个质心;

然后,针对每个xi估算来自上述线性回归的残差平方的总和(srsi),并且计算由这些信息代表的残差变化的分数;当第i个对象xi满足公式i=argmax(srsi/srs0),subjectto(srsi/srs0)≥f时,其加入到所述范例中;其中srs0是不包含范例的srs,f是一预先选择的阈值。

可选的,步骤a所述确定出对于所述hdod具有代表性的一组数据对象作为范例的步骤包括:基于面向对象的回归oor方法通过无监督聚类分析来对hdod确定出所述一组数据对象作为范例。

可选的,步骤b所述相似性度量的确定步骤包括:所述相似性度量通过相似性度量函数进行计算时,相似性度量的选择取决于所述hdod的特性和/或对于要回归的目标结果的解释。

可选的,步骤c包括:通过惩罚似然法,由所述相似性度量矩阵的各个范例对应的各相似性度量,计算出的各个范例对应的回归系数值,选择该回归系数值与设定阈值区间匹配的回归系数值所对应的范例为包含信息的范例。

可选的,步骤c所述惩罚似然法为lasso算法。

可选的,步骤c所述各个范例对应的回归系数值的计算采用下述公式计算:

其中,f表示密度函数,yi是对应第i个范例的要回归的结果,si是对应第i个范例的相似性度量值,α是截距,β是回归系数,n是当前范例对应的样本的个数,q是所述范例的个数,λ是调谐参数。

本发明方法的范例可以从外部获得或从内部数据衍生。其次,通过把所有计算的相似性度量作为协变量,本发明方法可通过惩罚似然法使用“变量选择算法”,如lasso、脊回归或弹性网络,来侧重于不同于零的有意义的项。第三,以“整体观”对待复杂的变量,本发明方法提供了一种天然量化工具来发现和验证复杂的变量之间的相互作用,所述复杂的变量之间的相互作用已成为在生物医学研究和系统生物学的一个长期的挑战。最后,根据本发明方法得到的预测模型很适合于通过基于相似性的搜索应用到大型数据库。

附图说明

图1示出了面向目标的回归的流程图,其中a)协变量矩阵的高维组学数据(hdod),b)通过无监督学习方法组织hdod,c)通过双向聚类分析聚类的hdod,以进行范例的确定,d)计算每个范例的相似性度量,将它们当作协变量,e)相似性度量的稠密协变量矩阵,可用于构建预测模型,f)在广泛线性模型下,使用惩罚似然来选择包含信息的范例,g)在训练集和验证集上进行roc分析,以检查预测模型的有效性;

图2示出了训练集和验证集的所有患者的诊断年龄分布;

图3示出了通过对数秩检验法,使用kaplan-meier曲线探索年龄、性别、肿瘤类型和分期与5年内预后存活的边际关联,其中左栏为训练集,右栏为验证集;

图4示出了度量基因表达与i期指示器的关联的对数p值的估算分布;

图5示出了训练集中296个对象中被观测到的789个基因的高维组学数据(hdod);

图6示出了训练集中2506个基因的高维组学数据(hdod)的选择的22个范例;

图7示出了训练集中789个基因的高维组学数据(hdod)的选择的11个范例;

图8示出了1000次蒙特卡洛模拟分析的估算惩罚参数值的经验分布,其中所选择的惩罚值(λ=0.021)已标出;

图9示出了20个固定惩罚值的多次lasso的变量选择的估算(对数值示于对角线上),其中每一个xy图展示了2个不同lasso的估算评价系数;

图10示出了oor分析的范例特异性预测模式下以及传统回归分析的协变量特异性预测的估算对数相对风险,其中左栏为训练集,右栏为验证集;

图11示出了预测模型下训练集的预测风险评分的分布(左栏),风险评分1(参考)、2、3和4的估算存活率;

图12示出了训练集中705个对象的计算的相似性矩阵(705×705),各元素取值分别为0(绿)、0.5(黑)和1(红),以说明成对对象共享0个等位基因、1个等位基因和两个等位基因;

图13示出了通过lasso、脊回归、弹性曲线和逐步回归选择的范例的预测模型在训练集(实线)和验证集(虚线)估算的敏感度、1-特异性和曲线下面积(auc),其中图中右侧彩色条为各个模型下相应的风险评分值();

图14示出了估算的各个元素的相似性矩阵,度量hla-drb1,drb345,dqa1,dqb1,dpa1anddpb1的未加权状态同源,其中颜色范围从绿到黑再到红,对应于备注中的低、中、高相似性;

图15示出了训练集(顶部图)和中验证集(底部图)的ii类hla基因(hla-drb1,-drb345,-dqa1,-dqb1,-dpa1和-dpb1的t1d预测模型的评价,箱图显示了训练集和验证集的风险评分分布,roc曲线示于左手区域;

图16示出了通过不同的惩罚参数下图谱偏差函数的反复交叉验证估算(上部区域的图)得到的估算惩罚参数的经验分布;

图17示出了1000个自助样本的平均系数估算的成对xy坐标图,其中x轴为一个惩罚值,y轴为另一惩罚值(y轴),惩罚参数对数值示于对角线;

图18示出了当惩罚参数固定为15个对数独特系数之一时,通过lasso选择的范例的所有预测模型的roc分析与选择的范本由lasso,计算在训练集(彩色曲线)以及在验证集(黑色虚线)的auc值;

图19示出了惩罚参数固定为时1000个自助样本的估算的lasso估算系数的大小,颜色强度对应系数的大小,绿色表示正值,而红色表示负值。

具体实施方式

下面结合具体实施例进一步描述本发明,以更清楚的阐述本发明的优点和特点。下述实施例仅为具体的范例,并不对本发明的保护范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,均落入本发明的保护范围内。

第一实施例:下面,以来自临床转化研究的高维组学数据的预测模型的构建过程为例,详细介绍本发明方法。

1、方法:

1.1、动机

1.1.1、问题陈述:以数据库中的n个对象(i=1,2,…,n)为样品。在每个第i个对象(xi)上,将观测到的一组高维(该例中为p维度)稀疏的协变量,表示为xi=(xi1,xi2,…,xip),基于hdod的典型特征,其中协变量的数目通常比样品量大很多。在每个第i个对象上还观测到对应的目标yi的结果变量,它可以是二元的、分类的、连续的或截尾的(即,部分被观测到的)。所有观测到的数据的似然可写成

其中上述求和函数中是对n个对象求和(即i=1到n),f(yi|xi)是已知协变量xi的yi的条件密度,并且f(xi)是协变量的多变量分布函数。本公式目的是为了通过对f(yi|xi)的边际均值建模,建立结果(yi)与协变量(xi)的关联,其可以被写成

g[e(yi|xi)]=h(xi,θ)[2]

其中g(.)通常称为关联函数,由每个结果(yi)限定,e(yi|xi)是条件均值,并且h(xi,θ)是由未知参数θ索引的协变量函数。

1.1.2、表现定理:kimeldorf和wahba(1971)已经表明,当协变量函数是未知的并且未被限定,且已知观测的样品为(x1,x2,…,xn)时,上述函数通常可表示为

其中sk(xi)=k(xi,zk)是第i个对象xi与第k个范例zk的相似性度量,q是范例的数量(将在后文描述),并且(α,βk)是待被估算的未知回归系数。当回归系数βk不等于零时,意味着当所述xi的hdod的特性与zk相似时,xi通过上述oor与结果关联。

oor将结果回归到对象x与范例的相似性,而不是作为协变量回归到hdod。正如预测的那样,本例中的回归系数是针对于与范例的相似性的,此类情况类似于计算机科学家经常使用的数据查询。正如预测的那样,oor是对范例特异性关联的“整体解释”,而不是对协变量特异性关联的“整体解释”。

1.2、oor框架

图1提供了oor过程的示意图。作为输入数据的hdod是一个关于多个单一、连续的元素的大型协变量矩阵(图1a)。作为对于任何有意义的聚类分析的常规要求,过滤掉那些是噪声信息或不可能包含信息的协变量是很重要的。当没有结果数据时,oor首先通过无监督聚类分析来对hdod确定范例zk(图1b和c)。无监督学习的结果形成包括q个范例(z1,z2,...,zq)的阵列。基于选定的相似性度量k(xi,zk)(见如下讨论),可以计算每个第i个对象xi与每个第k个范例zk的相似性度量(图1d)。通过把相似的度量作为协变量,可得到稠密协变量矩阵(图1e)。在广义线性模型下通过适当地选择关联函数,可以再选择包含信息的范例,来形成预测模型(图1f)。在下文中,通过训练集的roc分析,对oor预测模型的敏感度和特异性进行初步估算,然后对验证集进行roc分析。下面的章节集中描述了oor框架的重要组成部分。

1.3、无监督学习

当处理hdod时,通常会出现很多远离集群的含有相对独特的hdod特性的对象,此类“独特的对象”可定义为不易由质心或它们的组合来表示其hdod特性的对象。这种独特的对象被作为范例时,可用下面的回归方法来确定这些对象。假设预先已确定了一组起始的t个质心作为范例,表示为[1],[2],...,and[t],首先,通过下式将所有对象的hdod回归到质心的协变量,而不是回归到那些由hdod代表的集群:

其中xi表示第i个对象,是回归系数,表示对应xi的初始回归系数表示对应xi、第k的回归系数,x[k]表示第k个对象,εi是对应xi的残差向量;k表示t个质心中的某个质心。

针对每个个体估算来自上述线性回归的残差平方的总和(srs),并且计算由这些信息代表的残差变化的分数。当第i个个体满足下列公式时,其可以加入到该组的范例中:

i=argmax(srsi/srs0),subjectto(srsi/srs0)≥f,[5]

其中srs0是不包含范例的srs,f是一个预先选择的阈值(例如,0.5)。需注意的是,由于该分析未参照结果选择范例,故并不影响任何下游的监督学习(参见下文)。并且,除了从内部推导范例,还可以包括来自外部资源的范例。

1.4、监督学习

下面对单一结果(yi)与q个选择的范例zi=(zi1,zi2,…,ziq)的相似性度量进行分析,为了估算结果yi与范例zi的关联,已知相似性度量si,可以通过以下分布函数表示yi的分布

其中ωi称为标准参数,主要由以下的边际均值限定,c(yi)是预先限定的函数,δi是用于确保上述函数整合到相同单位的归一化常数。上述功能可以通过下面边际均值来充分限定

通过上述回归方程,便限定了与相似性度量关联的边际均值。一旦嵌入glm,可以援引似然理论的整体含义来支持参数的估算和推断。

其中,对所有随机样本通过常规对数似然函数进行第一求和,对q个回归系数的所有绝对值进行第二求和,λ用于确定那些非零回归系数的惩罚幅度的调谐参数,且,估算调谐参数λ可得到基于交叉验证的最小预测误差。其中,f表示密度函数,yi是对应第i个范例的要回归的结果,si是对应第i个范例的相似性度量值,á是截距,是回归系数,n是当前范例对应的样本的个数,q是所述范例的个数,λ是调谐参数。

1.5、相似性度量

对于oor,选择合适的度量以及对象和范例之间相似性的程度来测量相似性是至关重要的,因为它决定了如何计算相似性、如何确定集群、如何确定范例。通常,所述度量的选择取决于hdod的特性和对于结果的解释。本例中,下面介绍了几种常见的相似性度量。按照惯例,该相似性度量是距离的倒数,即1和0的相似性分别等于零距离和无穷大距离。

1.5.1、欧氏距离函数:考虑hdod协变量向量(xi,xi')的两个对象,其中所有参数均为数字型参数。其欧几里得距离可表示为

dii'=||xi-xi'||,[8]

1.5.2、径向基核函数:该核函数是将上述距离转换为相似性度量的另一种常见的函数,如下:

其中为一调谐参数,该参数取决于平滑度的要求,并且可以作为各两对象成对距离的标准差。

1.5.3、余弦相似函数:在信息理论中,余弦相似性是两个向量(xi,xi')之间的常用度量,其可被写为

除了上述常用距离或相似性的度量,还有其它的域特异性的度量。在遗传学的背景下,遗传学家曾用“血缘同源”,“状态同源”或亲缘关系系数作为遗传相似性的度量。当处理文字时,也存在很多用于语义相似性的度量。可灵活选择最适用于给定的oor中应用的相似性度量。

1.6、oor与协变量特异性回归的比较

如上所述,oor与协变量特异性回归(csr)的方法存在固有关联,但仍存在一些如在分析对象、应用领域、结果解释和分析能力方面的根本差异。在下文中,将着重描述两个回归方法之间的一些关键差异。

2应用:

在tcga肺癌研究方面的应用

与其他癌症相比,男性和女性由肺癌引起的死亡率均最高,占所有癌症死亡率的28%左右。由于被诊断时大都已经为晚期,因此肺癌预后很差。肺癌早期的预后会好些,五年存活率约为60%。即使在i期患者中,一些患者的存活期也都相对较短。预测i期患者的预后存活率成为了研究热点,以便于肿瘤学家为较低存活率的患者可以设计更积极的治疗计划来改善预后。

2.1、数据源

表1训练集和验证集中年龄、分期和肿瘤类型的分布(数据集来自tcga)

2.2、预后存活率

在当前组合的数据集中,包括了腺癌和鳞状细胞癌的患者,从数据来看,存活率并不与年龄(p值=0.143)、或者与性别(p值=0.605)、或与肿瘤类型(p值=0.444)显著关联,存活率而与肿瘤分期(p值<0.001)显著关联。首要目标是构建一个预测模型,用于预测i期患者的预后存活率。在训练集中,有296个i期患者。为了保持用于构建预测模型的样本量,并不会按肿瘤类型、性别或年龄将肿瘤样本进行分类,因为这些并不与存活率显著关联。

2.3、rna-seq数据

2.4、基因筛选

2.5、基因图谱的选择

2.6、路径分析

表s1各种路径和组织的基因列表

表2:根据基因与分期的关联分析选择的一组789个基因的确定的路径和组织(i期与其他更高期相比)

2.7、范例的研究

如上确定范例的步骤完成后,可得到代表观测到的集群或单体的273个范例。考虑到大多数范例都不太可能与预后存活率关联,因此进行边际关联处理,仅保留那些有边际关联的范例。通过关联p值为0.05选出22个范例(该22个范例将被lasso进一步进行选择)。表4列出了边际关联分析的估算系数、风险比、标准误差和p值。

表4:对于训练集、验证集和所有数据的风险评分,并进行cox回归分析,得到的估算的系数、风险比、标准误差、z分数和p值

由所选的22个范例,计算每个对象与每个范例的相似矩阵,生成“稠密协变量矩阵”,可参见图1e所示。图6示出了具有296行×22列的相似性矩阵。灰色、黄色和红色分别对应于对象与范例的弱、中等和强烈的相似性。通过聚类分析将296个对象和22个范例构建为不同的子集。将22个范例分成三组,其中“列”中的彩条代表每个范例的边际关联:红色为保护关联,绿色为风险关联。为了进一步深入了解预后存活率,此处创建了一个为期一年的存活率指标,该指标需要取存活的值(0和绿色)、死亡值(1和红色)和断尾值(丢失和黑色),并将彩条放入“行”中。为了方便观测,图中突出显示了两个高风险区,所述高风险区包括与拥有风险表达特性的范例高度相似的多个对象。与此同时,图中还突出显示了具有更好的一年存活率的对象。

2.8、根据所选范例构建预测模型

根据所选范例,先通过lasso从“稠密协变量矩阵”选择包含信息的范例。结果示于表3的最后一列,其中的11个范例被选为用于预后结果的包含信息的范例(图7所示)。表中已列出估算的回归系数,而未选择的范例其系数则设置为零。可观测到的是,在第8列中的估算的回归系数往往比其对应的第三列的来自边际回归分析的系数小,这可能反映了lasso将边际关联分配给了与多个范例的关联,而惩罚一些例如第一范例那样的不稳定的范例(表示为例1)。

根据估算回归系数,可以通过下式继续计算任一训练集、验证集或所有i期样本中的每个个体的风险评分

其中,是第k个包含信息的范例的估算系数。估算的目的在于,通过固定的范例和系数计算当前数据中的每个对象的风险评分。这种风险评分的含义是:与“基准个体”比较时对象的相对风险,所述“基准个体”与任何选定范例没有相似性。为了估算所计算的风险评分与存活结果之间的关联,对风险评分进行存活结果的cox回归运算。表4的第一行显示了估算的系数、风险比、标准差、z分数和p值。正如预测的那样,p值通过训练处理而增大。更重要的是在进行验证集的估算统计中,当p值=0.015时与风险评分的关联比较明显,这恰好支持了验证,而外部验证对明确验证预测模型是很重要的。.

2.9、惩罚参数的蒙特卡洛稳定性分析

2.10、通过自助分析选择范例的稳定性

表5:通过lasso选择的范例之间的kappa平均值,其中右上方的三角区内为不同的惩罚值,下面的三角区为1000个自助样本的标准偏差。

2.11、与协变量特异性回归分析的比较

3、分析

oor与最近流行的被称为序列核关联测试(skat)方法,也存在着内在的联系,这是因为oor和skat都采用表现定理作为理论基础。在很大程度上,skat使用表现定理来表示所有snp的组合和它们的作用,作出关于所有回归系数的合理多变量假设,并根据无效假设测试他们的偏离。最近,pan(2011)表明,skat测试本质上等同于上述oor提到的相似性回归。而oor比skat更进一步,其将结果回归到相似性评分,而不是假设它们为随机变量。

上述已经介绍了用于分析hdod的新的分析框架。介绍了上述技术推导,以及与现有方法的各种关联,oor给我们介绍了探索hdod的“整体关系”与临床结果的分析框架。协变量特异性研究已经应用于“简化论观点”几十年,上述方法是对协变量特异性研究的补充。在大数据和系统生物学的时代背景下,该整体的框架不仅会促进hdod的系统研究,也会生成组学数据的“可重复结果”。

第二实施例:下面,以构建多态性多等位基因hla基因的疾病预测模型为例,进一步详细介绍本发明的方法。

1、方法

从形式上看,对基因型分布表示为的多个基因进行分析,其中所述多个基因是在第i个对象(i=1,2,...,n)上观测到的。在所有对象中,识别独特的基因型分布,并作为第k个范例(k=1,2,...,q)表示为基于观测到的基因型,可以通过相似性函数测量对象与每个范例的相似性,所述相似性函数表示为该相似性函数在一些文献中也被称为核函数。已知oor的分析对象与疾病表型遗传关联,表示为(对照yi=0,病例yi=1),则可采用下面的逻辑回归模型:

其中,logit是对疾病的概率的典型logit变换,α是截距,回归系数βk用于量化疾病与第k个相似性度量的关联,所述相似性度量为与范例的相似性度量。通过以上回归的构建,oor可评估疾病与相似性度量的关联,所述相似性度量为每个对象与所有范例的相似性度量。当估算的系数非零(βk≠0)时,表示类似于第k个范例的对象的疾病风险的增加或减少,系数为零(βk=0)时,表示类似于第k个范例的对象疾病的风险无关紧要。通过研究范例相似性,只要它们的相似性可以被测量和定量,则可以通过上述回归方法克服关于基因型的复杂性的挑战。

1.2、面向对象的回归框架概述

oor的动机是直接的,而它的表现也非常简单。目前,要使用oor必须解决不同的三个方法学问题:1)相似性度量的选择,2)范例的选择,3)包含信息的范例的选择(即非零βk系数),各种不同的选择会导致生成不同版本的oor框架。

1.2.2、范例的选取:

范例的选取方法有很多,主要取决于所要分析的目标。第一种方法,鉴于这些hla基因可能具有不同的基因型分布,可通过对所有对象的聚类分析,以及采用特定的相似性度量来确定主要图谱。其中,可将每个集群内具有代表性的基因型分布选为范例。第二种方法,将每个独特的基因型分布选为范例。第三种方法,从文献中确定一组基因型分布,这样也可以确保结果可被合理解释。第四种方法,通过对某些联合关联或基因-基因的相互作用的研究,设计一定的基因型分布来作为范例。关于范例的选取方法,后文将有描述。

1.2.3变量选择:

1.3、范例的选择

如前所述,oor方程确定的范例可从外部或内部选择。从外部选择范例通常是从文献选择,或者基于用于特定解释的特殊hla基因型结构进行选择。而本文的重点是从内部选择范例,是通过或不通过hla基因型数据的聚类分析而选择。

1.3.1、聚类分析:作为编码人体先天免疫的必需基因,hla基因在整个人类的进化过程是高度选择的。如前所述,hla的基因型数据倾向于集群,这可以通过成对出现的相似性度量,在n×n相似性矩阵的聚类分析来进行检测。需说明的是,聚类分析是一种无监督学习,因为它不涉及疾病表型。

1.3.2、“独特”的对象:不进行任何聚类分析,而对成对的相似性度量进行观测,发现那些彼此相同的对。在消除这些相同的对之后,可以利用剩余的基因型分布来代表所有的“独特的对象”,并把它们作为范例。为了放宽“相同基因型分布”的判定标准,可以选择一个预先确定的阈值(δ):如果成对相似性量度大于阈值,当两个基因型分布不相同时,则可以认为是“高度相似”,因此,该对可以只用其中的一个来表示。在实践中,这个阈值作为oor的调谐参数。

1.4、变量选择

1.4.1、逐步选择:最有名的传统变量选择的策略大概是由预测器进行的逐步选择,无论是仅向前,仅向后或双向,均是基于信息准则(ic)的度量的,基于ic的度量可如akaike’sic(aic)或者bayesianic(bic)。基于大量文献对似然估算的描述,须注意的是,概率模型可以构建如下带有aic惩罚的对数似然函数:

1.4.2、惩罚似然:当范例的数量接近样本量,首选的变量选择的方法是使用惩罚似然法,所述惩罚似然法包括三种被广泛使用的方法:lasso、脊回归和弹性网络。使用上述公式[13]中相同的符号和变量来表示,该惩罚对数似然函数可被写为

其中λ是用以确定惩罚水平的调谐参数,|β|1和|β|2分别是l1的范数和l2的范数,θ分别取值为0或1或0.5,分别对应lasso、脊回归和弹性网络。优选的,估算的调谐参数λ具有基于交叉验证的最小预测误差。

1.5、惩罚参数和变量部分

众所周知,在惩罚似然方法的文献中,调谐参数将估算回归系数的偏差与他们的估算的方差进行交换。通常,惩罚参数的估算是通过交叉验证进行的,然而,交叉验证过程是一个随机过程,并且因此估算的惩罚参数也是随机的,因此会不可避免地影响变量的选择。在这里,建议采用多次重复交叉验证过程,并基于随后会利用固定的惩罚参数进一步对变量选择的稳定性(参见下文)进行评估,估算它的经验分布。计算上,可用10倍交叉验证估算惩罚参数(在cv.glmnet默认推荐,glmnet的r实现),并重复计算,比如100次。所有经验估算的参数随后被用于构建经验分布,以评估这些估算是否来自单一模式分布。

1.6、评估固定惩罚参数的变量选择的稳定性(λ)

1.7、t1d病例对照研究

正如上面提到的,青少年i型糖尿病(t1d)和hla基因的病例对照研究促进了oor研究的发展,其中的细节已被公开(zhaoetal.2015提交)。简单地说,这项研究确定了970个i型糖尿病患者作为病例,他们的年龄范围从1岁到18岁,且来自不同位置的诊所。并从相应的地区确定了448个未患i型糖尿病者作为对照。遵循人类受试者的审查和批准的要求,从所有研究对象中采集血液样本,并提取他们的dna。虽然测试多个分子靶点,本研究使用下一代测序技术以评估hla基因的高分辨率基因型(hladrb1*,*drb345,*dqa1,dqb1*,dpa1和dpb1)。这项研究的分析目标是研究i型糖尿病与hla基因的关联,并构建i型糖尿病特性与这些hla基因型的预测模型。为了建立验证集,随机选择了479个病例和226个对照作为训练集,其余部分作为验证集(222个对照和483个病例)。对照以及病例的所有基因的等位基因频率在训练集和验证集中很大程度是类似的(为了说明,补充表s2包括hla-drb1对照以及来自训练集和验证集的病例的等位基因频率)。

表s2在训练集和验证集中对照以及病例的hla-drb1等位基因频率

2、结果

2.1、应用于hla-drb1

为了对oor处理复杂的hla数据的过程进行说明,首先对t1d仅与hla-drb1基因的关联进行分析。表6的对角线的上方和下方分别列出了对照和病例中的hla-drb1的基因型分布。对于那些对角线以下的纯合基因型,对照和病例中的基因型频率分别用分子和分母(#/#)表示。该基因型频率表示出的直观印象是,只有44个等位基因的基因型分布是稀疏的,且只有159个独特的基因型,数量上比理论上根据hwe计算的可能的基因型数目990(=44×45/2)要小得多。其次,需注意的是,某些基因型在病例和对照之间呈现出明显不同的频率,该频率意味着它们与t1d的关联情况。例如,纯合体04:01:01/04:01:01在病例和对照中分别具有0.6/9.3的频率,这意味着15.5的频率比。在另一个极端,杂合子15:01:01/07:01:01在病例和对照中分别具有0/3.4的频率,这意味着这个杂合子看起来可预防i型糖尿病。对于那些常见的基因型,基于当前的样本量对t1d关联的直接评价是实际可行的,且在文献中已经被研究。然而,对于许多不太常见的基因型,因为稀疏、样本量小,以及大量的比较,则很难进行严谨的评估。考虑到期望整体检测t1d与基因的关联,也在寻找可替代的其他分析方法。

表6:对照(对角线的上方)和病例(对角线的下方)的训练集中的hla-drb1的估算的基因型频率。对照和病例的纯合基因型的基因型频率分别对应分子/分母。

考虑通过公式[12]训练t1d与hla-drb1的关联的oor模型,而无需采用任何假设。由于某些等位基因的等位基因频率不同以及与hwe的偏差,理论上可能并不存在许多基因型,即,它们的频率为0(表6),故,oor则可被简化为

其中fk对应第k个独特基因型的频率,可被视为新的回归系数,对数据集中所有159个独特hla-drb1基因型求和,其中,这些独特的基因型被视为oor的范例。这些159个回归系数中,除了少数包含信息的范例外,预计大部分等于零。

在本例中,在各对对象之间,相似性矩阵的元素采用值1表示为相同,采用值0.5表示为共享一个等位基因,采用值0表示不共享等位基因。图12示出了其中的705个对象的相似性矩阵的热图,其中示出了共享两个等位基因的对象(红),共享一个等位基因的对象(黑色)和不共享等位基因的对象(绿色)。从hla-drb1的角度来看,可以识别出一组相同的对象(红色正方形落在对角线上),以及另一组只共享一个等位基因的对象(绿色长方形)。

表s3:范例特异性边际回归分析得到的估算的回归系数、标准偏差、z分数和p值。

表7通过oor从边际关联分析提取估算的z分数(四舍五入到整数,等于或大于2)。两个主要的等位基因(hla-drb1*03:01:01和*04:01:01)用于评估较大的风险关联(红色条)。6个等位基因(hla-drb1*07:01:01,*11:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01)用于评估与i型糖尿病的较大的保护关联。

表s4:使用4个不同选择方法得到的训练集中hla-drb1的估算回归系数

然而,与第四种逐步回归分析的结果对比,预计auc下降到0.5,为空值。这一结果表明,逐步的过程可能会因估算出较大的回归系数,过度拟合训练数据集。

2.2、应用于所有ii类hla基因

为了建立一个i型糖尿病的预测模型,将oor应用到所有8个ii类hla基因(hla-drb1,drb345,dqa1,dqb1,dpa1和dpb1),使用相同的训练集研究范例,并建立预测模型,并验证验证集中的预测模型。相对于上述相似性度量,此处使用了等式中定义的未加权相似性度量,表示为其中,n=705,并且每个元素取值范围为0和1之间的值。为了便于可视化,使用分级聚类算法来构建这个相似性矩阵,可参见示出的其热图(图14)。中央对角线集群(通过注释箭头突出标示的红色方块,)表示存在许多彼此相同或彼此高度相似的对象。此外,通过注释箭头还指出了多个高度相似的对象的更小的集群。集群图谱表明,在右下角的对象往往携带较常见的基因型分布,这是因为更多的个体携带常见基因型分布,其成对的相似性度量往往较高。另一方面,那些在左上角的对象倾向于具有更小的个体的集群,所述个体带有相对相似性度量,这可能是因为它们的基因型分布具有相对低的频率,相对较小的群组的个体携带相似基因型分布。其中,右上角的对象有相对较低的相似性度量,这可能是因为具有常见的基因型分布的个体往往与那些具有不太常见的基因型分布的个体相互隔离。

基于该相似性矩阵,将被观测的基因型分布的一个子集选为范例。鉴于样本量相对有限和基因型分布的神秘,将训练集中所有独特的基因型分布选为范例。换句话说,选择的所有范例均是独特的,并涵盖训练集中观测到的所有基因型分布。操作上,用于进行成对相似性度量的阈值设置为1,训练集中共有499个范例,且作为描述性关联分析的一部分,应用oor进行i型糖尿病与所有范例的单变量关联分析;并沿hla基因型列出(表s5)了估算系数、标准误差、z分数和它们的p值。其中,范例由z分数排序,并且z分数值与病例和对照状态相一致。

表s5:对hla-dr,-dq和-dp基因的全部499个范例进行边际关联分析,得到的估算回归系数、标准偏差、z分数和p值

目前的任务是要用lasso建立预测模型。在前面的讨论中,逐步方法适用于过度拟合预测模型,而并不适用建立预测模型。即使预测性的auc是所需要的,脊回归往往为所有范例提供“谨慎估算系数”,且对任何范例都不取消选择。而弹性网络相对于脊回归和lasso是一种折衷的方法,其具有与lasso相当的性能。为了对变量选择进行分析,选择lasso建立一个i型糖尿病的预测模型。表3列出了基于lasso的回归系数估算,其中该回归系数估算由回归系数排序。通过lasso选择的共有26个包含信息的范例。通过合并病例(d)/对照(n)和研究识别号码得到范例识别号码。显然,对那些从病例衍生的范例的估算系数倾向于为正,而对那些来自于对照的范例的估算系数倾向于为负。例如,与范例如d1612高度相似的对象,具有相对高的t1d的风险;与范例如n000982相似的对象,将有相对较低的t1d风险。

根据从训练集估算的作为权重的系数,可构造一个风险评分作为加权的和的公式,如下所示:

其中,对那些所有26个选定的范例求和,在表3中示出估计风险评分为了评估风险评分的经验分布,示出了训练集中对照和病例的风险评分的箱图(图15)。显然,训练集中,病例的风险评分通常比对照的更大,这种差异在统计学看来比较显著(p值<0.001,未示出)。对照的风险评分呈对称分布,而这些病例中的风险评分有些倾斜。根据风险评分范围从-5.52到4.1,计算出的灵敏度(roc曲线的y轴)和1-特异性(x轴)构成了训练集的roc曲线,该roc曲线的auc=0.92。

2.3、选择范例的稳定性

已知的是,该惩罚参数(λ)的选择对变量的选择有直接和深刻的影响。常规的交叉验证通常用于确定出可实现最小偏差的惩罚值(或其他性能度量,如分类误差,或auc)。图16的顶图显示了偏差与不同的惩罚参数值(对数刻度)的xy坐标图。它示出了最低的估算惩罚参数的对数值,所述对数值取值在-6.0到-5.5之间。此函数的平坦性意味着对应于最小偏差的估算惩罚参数在很大程度上受交叉验证过程的影响。为了评估它的影响力,重复1000次估算惩罚参数,并估算相应的值。图16的下图显示估算惩罚参数的经验分布。可见,在训练集中估算的惩罚值是离散的15个不同的值,这可能是因为相似性矩阵的离散性造成的。

鉴于类似的性能和不同的惩罚参数值下选择的范例的高度一致性,选择了中等惩罚参数值来评估1000个自助样本中单个系数估算的稳定性。图19示出在执行双向聚类分析后,1000个自助样本中的499个范例的估算系数。各个估算系统值在被限定于-2和2之间,以便于可视化。很明显,在1000个自助样本中,固定的惩罚值下的估算系数也保持非常的一致。

3、分析:

在本文中,描述了一种面向对象的回归(oor)的新方法,来建立关于生物大数据的共同特征,即高度多态性基因的预测模型。为了解决多态性基因的复杂性,首先,通过oor确定一组范例,其中,该范例的基因型分布在所观测到的基因型中具有代表性。然后,通过oor选择每个对象和范例之间的取决于场景的基因的相似性度量,作为一个新的“度量”来度量所有对象和范例的相似性,并创建协变量矩阵。然后,通过采用现代惩罚似然方法,通过oor选择一组包含信息的范例来构建预测模型。然后,作为“经典”的回归方法,使用oor分析“范例”与疾病的单变量关联以及多变量的关联。不同于常规侧重于单个基因的回归,oor的回归系数在量化疾病与范例相似性的关联时,需要结合上述新的度量来进行分析,即结合上述与范例的相似性来确定风险等级(见下文关于整体评估的详细讨论)。从这个角度来看,oor是对常规的回归方法的一种补充。

基于hla-drb1的初步研究的结果,对所有hla基因(drb1,drb345,dqa1,dqb1,dpa1和dpb1)建立了一个预测模型,随后评估其性能,以及评估在不同惩罚参数值下所选择的预测器的稳定性。在训练集中,oor选择了26个包含信息的范例作为预测器,该预测模型拥有极好的敏感度和特异性特性,对应的auc为0.93。固定范例和回归系数后,将预测模型应用在独立选择的验证集上,通过roc分析显示与那些训练集中类似的灵敏度和特异性,此时auc为0.89。如果由外部的数据集进一步验证后,这个预测模型可随时用于在一般人群中筛查t1d。

oor的另一个重要特性是,oor结果对于等位基因特异性或基因型特异性的传统回归分析的结果是互补的。hla基因的基因型特异性回归分析,通常仅限于那些常见的基因型,诸如hla-drb1*03:01:01/03:01:01或*04:01:01/04:01:01,其中为了统计分析,还要求观测数量足够大。为了克服此限制,等位基因特异性回归分析假设了模型的额外效果,并量化疾病与个别等位基因的关联。但是,额外效果的假设可能不适合某些等位基因。当然,等位基因特异性回归分析(当包括多个基因时,等同于单倍型特异性回归分析)对于不常见等位基因也同样存在着挑战性。与此相反,oor则绕过上述限制,将分析目标侧重于评估疾病与对象和范例的基因型相似性的关联。

对于结果的解释,oor和协变量特异性回归方法有一定的不同。协变量特异性回归侧重于个别协变量的特定影响,以及如果统计学上显著,对于个别回归系数的解释为相应的协变量有显著的关联,即“简约”论。与此相反,oor评估疾病与对象和范例组的相似性的关联,如果发现一个或多个回归系数从零显著偏离,其结果意味着,与该范例的相似性指示了较高或较低的疾病的风险,即个人风险的“整体”论。事实上,正是oor的这种“整体性”,规避了传统回归分析的复杂性的问题。

oor还与一些现有的分析方法存在联系。在统计遗传学文献的背景下,oor与序列核关联测试(skat)共享相同的理论基础,即表现定理。最近开发的用于检测gwas基因-基因之间作用的方法中,skat在遗传分析方面受到巨大好评,因为它使用该定理来非参数化地表示snp的所有基因间作用的综合影响,并检测基因-基因之间的作用的存在,这是一个gwas遗传分析的挑战性的问题。最近,pan(2011)表明,skat测试与相似性回归方法本质是等同的。除了共享相同理论基础,oor还具有完全不同的分析目标,即评估疾病与“范例特异性相似性”的关联,并因此直接对范例的相似性度量建模,而不是为范例特异性系数假设一个随机分量。

对于计算机科学文献的数据挖掘来说,oor与k近邻方法(knn)也有着密切的联系。k近邻方法的核心思想是由某些特性定义的相对“亲密邻居”的对象趋向于有类似的结果。从本质上说,可以用k近邻方法进行预测,而不用做任何建模假设,因此该方法也被称为非参数预测方法。然而,k近邻方法的效率没有其它建模方法高,其原因之一是它并没有考虑到这样一个事实,即许多邻居具有同等疾病关联(即结果关联)(无论是无效假设或备择假设),而通过邻居的组合是可以提高预测精度的。相比之下,oor利用周边信息(即,相似性度量)与多个包含信息的范例关联。在概念层面,oor可以被看作是k近邻回归函数估算的延伸。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于本领域技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

THE END
1.数据挖掘算法(AnalysisServices–数据挖掘)MicrosoftLearn为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。 https://technet.microsoft.com/zh-cn/library/ms175595(v=sql.100).aspx
2.干货一文读懂工业大数据的算法与模型基本知识与应用算法和模型是大数据分析系统中的两个问题,很多时候人们无法将这两个概念准确的区分开来,或者在某些场景下经常把算法和模型当做是同一个概念。实际上,算法和模型是有紧密联系的。 数据分析的算法是一般规则,所采用的方法是具有通用性和一般性的,如果需要用算法来解决实际的问题,达到商业的价值,就需要将算法和实际的应https://www.evget.com/doclib/s/14/10645
3.谷歌的成功源自用大数据重新定义HR管理十大模式3、人才保留算法 谷歌借助自己开发的一个数学算法积极并成功地预测到哪些员工很有可能会离职。这项举措允许管理者在为时过晚之前采取行动,并为员工留任提供个性化解决方案的空间。 4、人才管理预测模型 谷歌的人事管理是具有前瞻性。因此,它开发了一个预测模型并运用有效分析进一步改善对未来人事管理问题与契机的预测。https://www.ruthout.com/wapzixun/486.html
4.数据分析常用的知识点概括泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。 泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限,x取值可以无限大,只是可能性无限接近0,f(x)的最终值很小。 x代表发生x次,u代表发生次数的数学https://mp.weixin.qq.com/s?__biz=MzA3NzIxNDQ3MQ==&mid=2650329307&idx=1&sn=a8acceeb61e80f30140e97cb94f5c059&chksm=86fc3b0e8e011cb7b5774fd8ddeac196609601fc74c38130b8619d2c15ef06adc9328cce132c&scene=27
5.数据挖掘应用(精选十篇)①数据选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据预处理:研究数据的质量,进行数据的集成、变换、归约、压缩等,为进一步的分析作准备,并确定将要进行的挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,这是数据挖掘成功的https://www.360wenmi.com/f/cnkeymoknlxl.html
6.数据挖掘论文的参考文献绝大读书数据挖掘岗位都是做应用,数据清洗,用现成的库建模,如果你自己不往算法或者架构方面继续提升,和其他的开发岗位的性质基本没什么不同,只要会编程都是很容易入门的。 2.北上广以外的普通公司用的多吗?待遇如何? 实际情况不太清楚,由于数据挖掘和大数据这个概念太火了,肯定到处都有人招聘响应的岗位,但是二线城https://www.yjbys.com/bylw/cankaowenxian/76866.html
7.免费数据分析常见的预测模型及算法.pdf预测模型资源在数据分析领域,预测模型是至关重要的工具,它们帮助我们从历史数据中挖掘规律,并对未来可能出现的情况进行估计。本文将深入探讨三个广泛使用的预测模型:时间序列分析、灰色预测模型和神经网络,这些模型在处理各种预测问题时都有其独特的优势。 1. **时间序列分析**: 时间序列分析是一种依赖于数据收集时刻的方法,它https://download.csdn.net/download/qq_16027093/87740650
8.几种流行的大数据分析产品模型预测功能介绍文章教程随着大数据分析在实际生产中的广泛应用,越来越多的大数据分析产品在市场中出现,有在传统数据分析中占据重要市场地位的 SPSS 一族产品,也有新兴的一些快速发展的数据分析产品,那么对于数据科学家,熟悉目前市场上主流或者说流行的产品,称为必备的技能。 本文以支持导出标准的模型标记语言(PMML)的模型为例,利用产品试用版对https://www.wenjiangs.com/article/u7relodwhdfv.html
9.基于大数据的疾病预测.pptx基于大数据的疾病预测.pptx,数智创新 变革未来基于大数据的疾病预测 疾病预测的重要性与应用 大数据与疾病预测的结合 大数据来源与收集方法 预测模型与算法简介 疾病预测的实践案例 预测准确性与可靠性评估 大数据疾病预测的挑战 未来展望与改进方向目录 疾病预测的重要性与https://max.book118.com/html/2023/1111/6224200001010005.shtm
10.干货▏面向大数据的时空数据挖掘而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。 IBM SPSS Modeler 是参照行业标准 CRISP-DM 模型设计而成的数据挖掘工具,可支持从数据到更优商业成果的整个数据挖掘过程。通过结合时空数据和其他商业数据,并且运用数据挖掘工具 IBM SPSS Modeler 对时间和https://czj.guiyang.gov.cn/new_site/zwgk_5908373/zszc_5908415/202205/t20220531_74514473.html
11.基于大数据的家电故障预测.docx23/26基于大数据的家电故障预测第一部分大数据的收集与预处理 2第二部分家电故障模式的识别与提取 4第三部分故障相关特征的筛选与提取 9第四部分基于大数据的故障预测模型构建 11第五部分故障预测模型的评估与优化 14第六部分家电故障预测系统的开发与应用 16第七部分基于大数据的家电故障预测的挑战与展望 21第八部分https://m.renrendoc.com/paper/331160475.html
12.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有哪些算法 大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构https://www.fanruan.com/blog/article/71906/
13.大数据模型有哪些决策树模型:主要用于分类和预测。 在大数据分析中,决策树模型常常用于建立数据的分类模型。 例如,在金融领域,可以使用决策树模型来建立信用评级模型。 常见的算法有C4.5算法和CART算法。 人工神经网络模型:在大数据分析中,人工神经网络模型常常用于建立数据的分类模型。 https://www.ai-indeed.com/encyclopedia/10729.html
14.朱庆华宋珊珊风险视角下生成式人工智能的司法应用路径(3)模型选择:选择合适的生成式人工智能模型进行构建,比如基于循环神经网络(RNN)模型或者变分自编码器。(4)模型构建和训练:使用深度学习技术,例如神经网络,对数据进行处理和训练模型,生成可以预测量刑的模型。使用清洗后的数据进行模型训练,通过梯度优化算法进行迭代训练。(5)模型调整和验证:训练完成后需要对模型进行调整https://www.jfdaily.com/sgh/detail?id=1247369
15.大数据金融第二章大数据相关技术第一节 大数据处理流程 首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 https://www.jianshu.com/p/d68251554c66
16.针对公安民警开展数据建模方法的研究和实践(1)模型设计多样化。支持通过基础计算组件的自由组合,按照各类统计分析和技战法等实际需求,搭建关联模型、分类模型、聚类模型、预测模型。 (2)建模应用流程化。实现了从模型设计、任务定制,到应用发布、共享评价的完整的建模应用流程。 (3)建模过程可视化。以非技术专业民警可以理解的业务语言对所有基础算法进行封装,通过https://www.secrss.com/articles/7120
17.河北省职业院校技能大赛4、以下哪些选项属于电商销量预测模型的方法? A.主观观测 B.人为学习 C.时间序列 D.机器学习 5、数据分析的类别一般包括() A.诊断性分析 B.指导性分析 C.验证性分析 D.描述性分析 E.预测性分析 6、10. 常用的分类算法有支持向量机和() A.ARIMA http://hbszjs.hebtu.edu.cn/jnds/newsContent?newsId=2616&colId=7