凸在线学习:理论与实践木言成反

这篇博客主体内容已经写完,还有些细枝末节之后再做补充。

本文将会聚焦在线学习中极为重要的一类,凸在线学习(OnlineConvexLearning),从理论上解读并理解在线学习模型,探究当前工业界应用最广的FTRL-Proximal方法的演变过程,为之后的代码实现和方法应用铺平道路。

接下来,我们仔细谈谈凸在线学习里面的各种低Regret算法,在这里我们主要谈一阶方法,比如镜面下降(MirrorDescent)以及FTRL(FollowtheRegularizedLeader),这两大类的本质是相同的,只是看待问题角度不同,这一点在之后会谈到。

在正式开始讨论之前,我们首先要定义几个符号。\(w_t\)是\(t\)时刻的参数,\(f_t(w_t)\)是\(t\)时刻的损失函数,\(S\)是参数所在的凸集,\(\alpha\)是学习率,\(\nablaf_t\)是梯度,\(\partialf_t\)是次梯度。

如何进行在线学习?最容易想到的方法就是最小化累积损失,也就是FTL(FollowtheLeader),其形式如下:

在2.1节我们谈到了能最小化累计损失不能说明此算法在在线学习场景是有效,我们需要探究算法的Regretbound。

对任意的\(u\inS\),都有

通过归纳法可以很容易证明以上定理,但是这个上界在\(w_t\)不停上下震荡(比如在1和-1循环取值)的时候是会达到\(O(T)\),不满足次线性。事实上FTL在损失函数强凸的情形下是满足Regret次线性的,但在一般凸函数情形下不满足。我们可以在FTL基础上加上正则项\(R(w)\)使得算法变得“平稳”一些。这就是FTRL(FollowtheRegularizedLeader)。注意,FTRL里的正则项和所谓的稀疏性并没有联系,只是为了让算法更稳定从而满足次线性。其形式如下:

正则项可以有多种不同的选择。首先我们讨论线性损失函数加上\(L_2\)正则项的情形。为方便起见,定义\(z_t=\partialf_t(w_t)\)。

损失函数为\(f_t(w)=\left\),正则项为\(R(w)=\frac{1}{2\eta}||w||_2^2\),其中\(\eta\)是某个常数,代入FTRL更新式很容易验证:

这就是在线梯度下降(OnlineGradientDescent(OGD)),OGD是FTRL当损失函数为线性以及正则项为\(L_2\)的特殊形式,它的Regretbound可以被证明是\(O(\sqrtT)\),这里就不展开了,这能够说明OGD在在线学习场景中是有理论来保障其性能的。我们还能延扩到其它凸损失函数领域而不只是局限于线性函数,利用凸函数定义可得,

可以看到线性函数的Regret构成了凸函数的上界,所以我们只需要针对线性函数即可,能够证明凸损失函数函数加上\(L_2\)正则项的Regretbound在满足一定条件下是\(O(\sqrtT)\)的,同时延拓到其它强凸的正则项\(R(w)\)也是可行的。此时我们可以得到FTRL的通式:

在每回合,FTRL都需要求解一个优化问题,在线镜面下降(OnlineMirrorDescent(OMD))可以简化FTRL,同时其Regretbound和FTRL是一致的。OMD和线性损失函数加正则项的FTRL是等价的,下面我们来推导一下。为了方便起见,定义\(z_{1:t}=\sum\limits_{i=1}^tz_i\)。

定义连接函数\(g(\theta)=\arg\max_w\left-R(w)\)(注意连接函数可以是已定义的函数,此时OMD就不需要每回合求解一个优化问题)此时FTRL的更新式就变成了以下形式:

OMD的更新形式很像是OGD,事实上,OGD正是OMD最简单的形式。当\(g(\theta)=\eta\theta\),\(\eta>0\)以及\(S\inR^d\),很容易能看出OMD就是OGD。当\(g\)函数是一般的非线性函数时,\(w_{t+1}\)是通过连接函数\(g\)将\(\theta_{t+1}\)“映射”(mirror)到\(S\)集合中得到的。这就是OMD名字的由来。

OMD是一个大家族,包含了各种梯度下降式算法,我们首先从OGD看起,OGD形式如下:

我们在此讨论离线形式的随机梯度下降(SGD),即每次输入一个样本对参数进行更新,其本质和OGD是一致的。顺便说一句,SGD有一个别称叫增量梯度下降IGD(IncrementalGraidentDescent),其对应了增量学习(IncrementalLearning),具体不展开了,想了解可以自行查阅资料。SGD有一个很大的缺陷,即要求目标函数必须是光滑的,这一点在现实中较难满足,因为通常为了达到稀疏性我们要考虑正则项,\(L_1\)正则在\(0\)点是不可微的。因此需要对SGD作出一点改进,将梯度改成次梯度,次梯度的定义为\(\partialf=\{u\midf(y)\geqf(x)+u^T(y-x)\}\),此时\(L_1\)正则在\(0\)点的次梯度为\(\left[-1,1\right]\)中元素。

梯度下降转化为了次梯度下降(SubgradientDescent(SubGD)),形式如下:

次梯度下降从理论上解决了非光滑损失函数这一类问题,但是其收敛速度较慢,只有\(O(1/\sqrtt)\),梯度下降的收敛速度为\(O(1/t)\)。究其原因,由于损失函数非光滑,导致次梯度值会出现急剧变化,比如从-1跳到了1,尽管\(w_t\)和\(w_{t+1}\)是很接近的,这就导致了收敛速度减慢。为了解决这种问题,我们可以采取“作弊”的方式,用\(t+1\)时刻的次梯度去更新得到\(w_{t+1}\),这就是后向次梯度下降。这个问题第一眼看是没法解的,我们得不到\(w_{t+1}\)的更新式,不过我们可以利用Fermat引理来求解。

为方便起见,引入邻近算子(proximaloperator)概念:

这时后向次梯度下降的形式为:

在实际的大量凸优化问题中,损失函数本身可能是凸光滑的,所带的正则项是非光滑的,问题转化为最小化\(f(w)+\lambda\Psi(w)\),\(\Psi(w)\)是非光滑的正则项。这时为了适应特定问题场景,后向次梯度下降转化为了前向后向分割(FOBOS),FOBOS的全称是Forward-BackwardSplitting,之所以不叫FOBAS是为了和之前的FOLOSForward-LookingSubgradients保持一致,避免引起读者的误解。

FOBOS分为两步进行,对于光滑项梯度下降,对于非光滑项后向次梯度下降。具体形式如下:

统一起来,其形式为

因此FOBOS又可以被叫做邻近梯度下降(ProximalGradientDescent(PGD))

以上导出FOBOS的过程看上去很直观,但实际上缺乏一些理论依据。接下来我们从理论角度重新推导FOBOS。

首先,对于损失函数,我们采用二阶近似来逼近,用\(\frac{1}{\eta}I\)代替\(\nabla^2f\)。

这就是FOBOS的最终形式。

看上去FOBOS是比梯度下降复杂多了,实际上不然,在很多场景下邻近算子是非常容易求得的,比如LASSO。当正则项为\(L_1\)的时候,我们把它的邻近算子称为软阙值算子\(T_\alpha\)(soft-thresholdingoperator),其形式为:

以上,我们都是在讨论线下场景的凸优化,凸在线学习本质上和线下凸优化是一致的,不过也有一些不同。以梯度下降为例,在线学习中梯度下降的形式为在线梯度下降(OGD),OGD和SGD本质上是相同的,即每次使用一个样本的梯度下降。但是两者应用的场景不同,OGD适用于线上情景,损失依次到来,其Regretbound\(\alpha-\)能达到\(O(\sqrt(T))\),Regret次线性增长能够证明OGD是适用于在线学习场景的。另外虽然SGD形式和OGD一致,但两者思路还是有区别,SGD的梯度是靠样本去估计的,而OGD则是直接进行处理。FOBOS的在线版本也是同理,Regretbound在损失函数\(\alpha-\)强凸情况下能达到\(O(log(T))\)。

SubGD还有一个问题,在于新的次梯度的权重比老次梯度要低。具体的推导如下:

考虑二阶近似,令\(Z_t=\sum\limits_{i=1}^t\eta_i\),\(g_t=\partialf(w_t)\)

可以看出,老的次梯度相比新的次梯度有更高的权重,这显然不合理。对偶平均(DualAveraging)通过赋予所有次梯度同等权重,解决了SubGD这种缺陷。

定义\(\hatg_t=\frac{1}{t}\sum\limits_{i=1}^tg_i\),

其中\(\mu_t\)是步长。

SubGD的在线版本还有一个额外的缺陷,即无法得到稀疏解,于是微软提出了正则对偶平均(RegularizedDualAveraging(RDA)),能得到比FOBOS更稀疏的解。相比于DA,RDA增加了一个正则项\(\Psi\),用一个强凸函数\(h\)替代了原先的二阶范数,其形式如下:

由于是在线算法,因此出于运行效率的考量,通常选取简单形式的\(h\)和\(\Psi\),比如二阶范数和\(L_1\)正则项,令\(\mu_t=\gamma\sqrtt\)。接下来,我们就来求解这种简单形式的RDA:

将其右式分成\(n\)个独立式分别求解,令\(\gamma_t=\frac{\gamma}{\sqrtt}\),这就转化为了:

求导之后可得,

其中\(w^*\)是最优解,\(\delta\in\partial\vertw\vert\),之后根据\(\delta\)的取值分情况讨论,最终可以得到RDA的闭式解,

现在我们有了两个SubGD加强版算法,FOBOS以及RDA。FOBOS相比RDA能够达到更高的精度,而RDA能够得到更稀疏解,Google融合两者各取所长提出了如今在工业界中应用甚广的FTRLProximal。

为了看得更清楚一些,我们把FOBOS和RDA写成相似的形式(推导过程不严格):

在这里\(Q\)是学习率,\(g_t\)是损失函数的梯度,\(g_{1:t}=\sum_{i=1}^tg_i\)。从以上可以看出,更新式分为三项,第一项是损失函数的一阶近似,第二项是非光滑正则项,此处为\(L_1\)正则,第三项为强凸正则项,此处为\(L_2\)正则。

从通式上我们能看出FOBOS和RDA总共有三点不同:

事实上,Google在论文中证明了一个等价定理,即OMD和FTLR等价。如此一来FOBOS的更新式能够等价地写成:

此处\(\phi\)是\(L_1\)正则的次梯度。这个更新式和RDA就更像了。FOBOS的优化是针对基于次梯度估计的累积\(L_1\)正则,经实验验证正是因为次梯度估计的存在才导致了FOBOS的稀疏性不如RDA来得好。FOBOS的强凸项中心化点为当前的点而非原点,这个好处是更新后我们不会在预测我们已经见过的样本时有太多偏差,这就是所谓的Proximal名字的来历。

FTRLProximal在处理稀疏性上和RDA一致,处理中心化点上和FOBOS一致,如此一来既达到了更好的稀疏性又提升了精确度,其形式如下:

注意\(L_1\)正则前并没有\(t\)。【3】和【4】中FTRL-Proximal公式在这一点上是不同的,不过都是\(\alpha_t\)的特殊形式,一个是\(\alpha_t=1\),一个是\(\alpha_t=t\)。我特地发邮件问了作者BrendanMcMahan,他的回复是在实践中固定的\(\lambda_1\)经常makesthemostsense。

看上去这个优化问题有点复杂,但实质上这和\(RDA\)的求解是非常相似的。定义\(z_t=g_{1:t}-\sum\limits_{i=1}^t\sigma_iw_i\),其中\(\sigma_{1:t}=\frac{1}{\eta_t}\)。如此一来,优化式就转化为:

这个形式和上面的RDA是一模一样的,求解完全相同。最终结果是:

FTRL-Proximal的伪代码如下:

最后,我们对上面讲过的内容做一下总结归纳。

在线学习是一种强大的线上模型训练方法,一个低Regret算法能够保证其平均表现和最优决策的平均表现是相当的,我们着重介绍了在线学习中的一大类,一阶凸在线学习,其代表算法是FTRL。FTRL通过最小化累计损失来更新参数,加上了正则项来使算法平稳。通过选取不同的损失函数和正则项,FTRL可以转化为多种形式,比如OGD。

OMD也是一种代表算法,它与FTRL本质相同,由于其梯度特性被认为是梯度下降类算法的通式。OGD是OMD最简单的形式,它一种高效简洁的在线学习方法,在不少问题上能以很小的计算消耗达到不错的精度,但其有两大缺陷,一是稀疏性不够,即使加上了正则项也会因为浮点数相加而很难得到精确零值。这时可以采用截断法,比较流行的有TruncatedGradient以及FOBOS。二是不能处理非光滑函数,这时就需要用次梯度代替梯度,即SubGD。SubGD虽然能处理非光滑,但收敛速度慢,FOBOS通过向前看一步,有效提升了收敛速度。而且在加上正则项后通过软阙值截断,能达到较好的稀疏性。RDA也是SubGD的加强版,相比FOBOS能达到更好的稀疏性,不过由于其中心化点是原点,可能会在预测我们已经见过的样本时有一定偏差。

虽然我们在上面没有提,不过从FTRL通式和RDA通式能看出两者的相似性,RDA实质上是FTRL家庭中的一员。当我们融合RDA和FOBOS,将FTRL和OMD相联结,我们就得到了FTRL-Proximal,既能达到较高的预测精度,又能达到较好的稀疏性。

还有几点零碎的我想说的,一并写在这里。

【1】IntroductiontoOnlineConvexOptimization.EladHazan.PrincetonUniversity.2016.

【2】OnlineLearningandOnlineConvexOptimization.ShaiShalev-Shwartz.2011.

【3】AdClickPrediction:aViewfromtheTrenches.H.BrendanMcMahanet.al.Google.2013.

【4】Follow-the-Regularized-LeaderandMirrorDescent:EquivalenceTheoremsandL1Regularization.H.BrendanMcMahan.Google.2011

【5】EfficientOnlineandBatchLearningUsingForwardBackwardSplitting.JohnDuchiet.al.2009.

【6】AdaptiveSubgradientMethodsforOnlineLearningandStochasticOptimization.JohnDuchiet.al.2011.

【7】DualAveragingMethodsforRegularizedStochasticLearningandOnlineOptimization.LinXiao.Microsoft.2010.

【8】AUnifiedViewofRegularizedDualAveragingandMirrorDescentwithImplicitUpdates.H.BrendanMcMahan.Google.2011

【9】OptimizationandMatrixComputationcoursebyJianfengCai.HongKongUniversityofScienceandTechnology.2017.

【10】OptimizationcoursebyGeoffGordon.CarnegieMellonUniversity.2012.

【11】IntroductiontoOnlineLearningcoursebyHaipengLuo.UniversityofSouthernCalifornia.2017.

【12】Normalizedonlinelearning.StephaneRosset.al.2013

【13】ASurveyofAlgorithmsandAnalysisforAdaptiveOnlineLearning.H.BrendanMcMahan.2017

【14】IntroductiontoOnlineLearningTheory.WojciechKotlowski.InstituteofComputingScience,Pozna′nUniversityofTechnology.2013

【15】Wikipedia,Quora,StackOverflow,CrossValidated,Zhihu

THE END
1.模型在线学习:实时更新与适应新数据在线学习模型为了解决这个问题,我们需要一种能够实时更新并适应新数据的学习方法。在线学习(Online Learning)正是这样一种方法。在线学习算法可以在数据流中逐个处理样本,实时更新模型参数,从而使模型能够适应数据分布的变化。在线学习在许多实际应用场景中具有重要价值,例如金融市场预测、网络安全、推荐系统等。 https://blog.csdn.net/universsky2015/article/details/136413077
2.火爆国内外的大模型究竟是什么?有哪些大模型学习和参赛的网站推荐系统:大模型在个性化推荐、广告点击率预测等方面有着重要应用,如DeepFM、Wide&Deep等。 金融风险管理:大模型在信用评分、欺诈检测、风险建模等领域有着重要应用,如XGBoost、LightGBM等。 Part3 学习网站 Coursera(https://www.coursera.org/):一个全球性的在线学习平台,提供了众多来自世界顶级大学的课程,涵盖了从https://cloud.tencent.com/developer/article/2400558
3.原创基于大数据的在线学习警告模型设计学习预警是提升在线学习质量的重要途径。如何基于大数据成功地实现在线学习预警,是在线教育发展过程中亟需解决的重要问题。文章从预警的实现形式、内容与方式、采用的技术算法和工具、成效及不足等方面比较分析了国外五个典型学习预警系统,在此基础上提出了学习预警系统的通用设计框架,并构建了学习预警系统的功能模型和过程https://www.360doc.cn/article/55244777_751350828.html
4.如何实现大模型的在线学习(OnlineLearning)·构建你的智能应用摘要: 大模型的在线学习是指大型AI模型通过不断获取新数据并进行迭代训练,以持续适应和学习新知识。本文将介绍大模型在线学习的意义、实现方式以及相关技术挑战。 一、大模型在线学习的意义 大模型在线学习的意义体现在哪些方面?此功能的推出会带来怎样的影响? https://docs.lanyingim.com/quest/20240615/40_20240615_1_109_1718390308.html
5.强化学习的基本概念在线学习看起来好像和单步更新差不多,离线学习好像也和回合更新差不多,但实际上毫无关联,不能混淆。在线学习模型,可以采用回合更新的方式,即在回合中每次交互之后的时候将梯度计算好,保存起来,回合结束之后批量更新。离线学习模型也可以采用单步更新的方式,每一个交互产生之后,就从存储的经验中拿出一批数据计算梯度,更新https://www.jianshu.com/p/28625d3a60e6
6.MOOCAP学习者在线学习行为和学习效果评价模型研究学习者在线学习能力模型构建的实证研究 刘玲艳等;中国成人教育; 在线学习模式下大学生学习绩效评价模型研究 倪彤光等;福建电脑; 高职学生信息素养—在线学习投入—在线学习绩效结构方程模型 易福侠;湖北开放大学学报; 基于网络学习行为画像的高职大学生学习绩效提升研究 https://d.wanfangdata.com.cn/periodical/zgycjy201907005
7.深度学习模型在线训练猜你喜欢:深度学习模型在线训练的基本模式是机器学习的重要手段,当训练数据集在进行模型训练时,会使用一定的参数,为了提升训练性能,用户可以根据自己的模型调整数据。MoXing是一套用于超参数的分布式训练场景,在超参数下增加超参,增加超参、搜索空间、超参支持某个超参的最优超参组合,可以极大地提高模型训练的精度。在https://www.huaweicloud.com/zhishi/edits-17568358.html
8.机器学习中的在线学习(OnlineLearning)与增量更新3.在在线学习中,模型可以根据新的数据样本进行快速更新,从而保持模型与实时数据的匹配度,而增量更新则是实现这一目标的关键步骤之一。 4.增量更新可以提高在线学习的效率和灵活性,减少重新处理整个数据集的开销,使得在线学习更加可行和可扩展。 综上所述,在大数据时代,机器学习中的在线学习与增量更新变得越来越重要。在http://www.360doc.com/content/24/0306/16/82054816_1116318772.shtml
9.一步一步教你在线免费训练机器学习模型(启用GPU和TPU)关于Kgle、colab和机器学习的其他资源跟随Siraj Raval和Yufeng G. 由于我无法在这篇文章中涵盖所有在线训练机器学习模型的服务,因此本文将有第二部分。 所有需要学习和实践机器学习的资源都是开源的,可在线获取。从计算、数据集、算法以及免费在线提供的各种高质量教程,你只需要互联网连接和学习的热情。 https://blog.itpub.net/31545819/viewspace-2216969/
10.开题报告:智能教育视角下基于眼动追踪的在线学习认知模型及自适应全国教育科学规划课题开题报告(附研究思路模板、可修改技术路线图三个)《智能教育视角下基于眼动追踪的在线学习认知模型及自适应机制研究》 课题开题报告一、课题基本信息课题名称:智能教育视角下基于眼动追踪的在线学习认知模型及自适应机制研究课题来源:教育部人文社会科学研究项目课题类型:应用研究课题负责人及主要成员:https://www.renrendoc.com/paper/370581158.html
11.9大高效学习模型,让你实现快速自我提升!很多人觉得学习很难,遗忘很快,我们也从小就听家长老师说要掌握高效的学习方法和养成良好的学习习惯,那到底什么样的学习方法和学习习惯才是好的呢?本文结合高效在线学习工具boardmix博思白板为大家分享9大经典高效学习模型,帮助大家进行有效的思维训练,掌握高效学习方法,以轻松有趣的方式去获取知识,提升自己! https://boardmix.cn/article/studymodel/
12.在线学习RBF神经网络的模型参考自适应控制器.pdf在线学习RBF神经网络的模型参考自适应控制器.pdf,2001年第2期 般机发展 【文章蕾号) 1005—3751(2001)02—0005—03 在线学习RBF神经网络的模型参考自适应控制器 ModelReferen~~AdaptiveController ofOn—lineLearningRBFNem-alNetworks 朱明星 龚蓬(安徽大学自动化系,https://max.book118.com/html/2017/0321/96259798.shtm
13.浅谈机器学习与计算流体力学(MLANDCFD)电子创新网Imgtec社区利用机器学习技术对CFD模拟结果进行更有效的后处理。这包括从复杂的模拟数据中提取关键信息、优化结果的可视化、减少计算结果中的噪音等。 25.在线学习和适应性模型: 建立在线学习系统,可以根据不断变化的流体系统条件来适应模型。这对于实时应用和长时间仿真中的适应性非常重要。 https://imgtec.eetrend.com/node/100577586
14.深度学习模型在线提取中间特征图图像深度特征提取深度学习模型在线提取中间特征图 图像深度特征提取 1.0 SIFT原理: 尺度不变特征转换即SIFT (Scale-invariant feature transform)是图像处理领域中用来描述图像局部特征的常用特征提取方法,它用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe在1999年所https://blog.51cto.com/u_16213613/8485848
15.机器学习模型如何上线或者online学习?但机器学习模型终究是要在线上环境进行inference的,如何将离线训练好的模型部署于线上的生产环境,进行线https://www.zhihu.com/question/37426733
16.weidlxDeepRec:热门微博推荐框架性能提升实战weidl在线学习平台 热门微博推荐系统从2018年开始,经过几年的升级,在实时性和规模上都有了本质的提升。 2.2.1 实时性 实时性包括模型学习到用户行为的速度,模型参数的更新应用到线上模型服务的速度。推荐系统的更新速度越快,越能够反应用户最近的用户习惯,越能够给用户进行越有时效性的推荐;模型更容易发现最新流行的https://weibo.com/ttarticle/p/show?id=2309404856352370721194
17.飞桨PaddlePaddlePaddleHub是飞桨生态下的预训练模型的管理工具,旨在让飞桨生态下的开发者更便捷地享受到大规模预训练模型的价值。用户可以通过PaddleHub便捷地获取飞桨生态下的预训练模型,结合Fine-tune API快速完成迁移学习到应用部署的全流程工作,让预训练模型能更好服务于用户特定场景的应用。 https://www.paddlepaddle.org.cn/tutorials/projectdetail/2538216
18.国外优秀STEM课程如何学习制作模型肺?澎湃号·湃客国外优秀STEM课程 | 如何学习制作模型肺? STEAM在线 今天我们要和大家分享的是优秀的国外STEM课程《制作模型肺》。本课程旨在让学生通过生活中常见的工具去制作模型肺,探索呼吸过程中肺部吸入和呼出空气的过程。 课程基本信息 年级:3-5年级 课时:2课时 团队规模:2-3人https://www.thepaper.cn/newsDetail_forward_6635977
19.一文了解:计算机视觉领域下自监督学习方法原理BYOL(Bootstrap Your Own Latent)是一种自监督学习方法,其基本原理是通过在线网络和目标网络之间的相互学习来训练模型。 在线网络(online network)和目标网络(target network)是两个神经网络,它们在BYOL中起着关键的作用。在线网络负责从图像的增强视角中提取特征,并预测同一图像在不同增强方法下的目标网络表示。目标网https://developer.aliyun.com/article/1257862
20.时代光华企业数智化学习服务商企业在线学习平台基于移动互联网的交互模式,构建全新学习体验 主动收集真实有效的学习反馈并搭建目标群体的学习大数据 以数据为驱动,运营项目为支撑,借助人工智能、大数据 建立“学员-讲师”为中心的社群学习文化,帮助企业构建全新学习生态圈 基于成熟度模型构建数字化学习标准,收集并整合学习数据 https://www.21tb.com/product.html
21.七月在线七月在线创始人,七月大模型与机器人技术总负责人 北理工校外导师,微软AI MVP,Github上2万余star,CSDN 2000万PV博客『结构之法 算法之道』博主,去过近百所985/211高校分享算法,亦是华为云等数十个大会的演讲嘉宾。2015年创办七月在线,并于2018年获得好未来千万投资,到2022年平台上聚集了350+的大厂专家讲师团队http://julyedu.com/
22.Mo蓦Mo(momodel.cn)人工智能教学实训平台,浙江大学智海团队开发,助你从 Python 开始,一步步掌握机器学习、 深度学习、大模型等 AI 核心知识技能。Mo-Tutor 手把手沉浸式教学模式,理论与实操相结合,助教辅导助力高效学习。https://momodel.cn/