当线性模型遇见机器学习

1、多因子选股体系中不可规避的一个问题是因子选择,该领域的学术以及商业研究相对较少。作为机器学习系列二研究,我们通过引入机器学习中的特征选择方法,运用Filter&Wrapper构建因子选择体系,进一步构建线性和非线性融合的动态选股因子,该因子选股能力斐然。

2、针对于选择的因子通过线性回归的方式构建动态选股因子DLS:因子IC、ICIR、T值分别为0.106、1.50、16.06,而基准(选择过去5年ICIR最优因子等权合成)则分别为0.061、1.16、12.48;分位数测试来看,DLS因子多空年化收益、夏普率分别达到43.0%、4.99,同期基准达到24.3%,3.48,且DLS因子在各组别中的单调性和稳定性要优于基准的表现。

3、为了更好的利用非线性选股信息,我们将机器学习系列一构建的集成学习因子引入到线性回归中(相当于在Filter&Wrapper选择的因子基础上添加集成学习因子),构建线性和非线性叠加的A-DLS因子。A-DLS因子IC达到0.13、ICIR为2.07,多空组合年化收益69%、夏普率6.55,整体表现优于集成学习因子。

4、基于A-DLS因子构建主动量化以及增强选股策略,各策略表现优异。其中主动量化策略年化超额收益26.9%、夏普率4.61;针对于沪深300和中证500采用线性优化的方式构建指数增强策略,以针对于中证500构建的全市场选股增强策略为例:策略超额收益达到18.4%、风险收益比达到4.14、最大回撤3.7%。

风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。

一、引言

1.1

效用递减、进退两难

1952年Markowitz建立了以均值方差模型为基础的现代资产组合管理理论(MPT),该理论确立了金融学收益风险均衡的分析范式,标志着现代金融学的诞生。Black、Sholes和Morton于1973年建立了期权定价模型(OPM),为衍生品定价问题确立了分析范式;Ross在1976年建立了无套利定价理论(APT),构成量化选股的理论基础;进一步Fama与其同事French在1992年提出了Fama-French三因子模型。至此,现代量化投资的理论基础的构建大致完成。

在量化理念从混沌初开到如今枝繁叶茂的漫长征途中,出现过因子选股、统计套利、趋势交易等著名的投资模型,也出现过LTCM、文艺复兴、AQR等量化巨头公司……但当下不少国内的量化投资从业者却正在面临着越来越激烈的竞争和不断衰退的阿尔法(超额收益)。以量化选股领域为例:1、曾经选股能力强的因子的有效性在不断降低,且波动愈发剧烈;2、以往的数据源、研究视角/研究方法进一步挖掘的边际效用不断递减,投入产出比在持续收窄;3、随着模型和数据同质化的加剧,踩踏风险也变得越来越高。该如何有效的应对这些问题是每个量化从业者面临的难题。

正如所有新事物的诞生、成长都需要一个过程,这些新的方法也面临着诸多挑战。质疑者认为:动态因子选择长期来看不够稳定,同时也增加了交易的成本;机器学习方法过于复杂、难以解释、黑箱属性较重;动态模型主要依靠数据驱动,模型的逻辑性和样本外表现都有待于进一步商榷……但无论怎样,正是这些质疑的声音构成了我们前进的动力,也正是这些质疑让量化选股体系变得更加完善。我们有理由相信这些新的方法经过不断的打磨和雕琢,终将成为未来量化选股模型的中流砥柱。届时我们亦不必进退两难,正应了那句话:前途是光明的、道路是坎坷的、尝试是值得褒奖的。

兴业证券金融工程团队将机器学习应用于量化选股体系的研究正是在这样的背景下产生的。我们并不会简单地将每一个机器学习算法都做一些尝试(实际上在2015年-2016年我们有撰写过5篇机器学习的深度报告,详细介绍了各种算法在选股领域的应用),而是更加看重基于某个具体角度的深入挖掘,注重研究的延展性和可落地性。继上一篇《基于集成学习算法的量化选股模型研究》在2019年6月发布之后,我们推出了机器学习系列的第二篇深度报告《当线性遇上非线性》。本系列的第一篇报告以改进版的Adaboost算法为核心,将非线性信息利用、因子动态选择、因子权重确定等一系列问题有效地融合于同一个分类算法之中,取得了非常好的实践效果;而本文则将目光聚焦于更为传统、却也更受主流投资者喜爱的线性多因子体系,并主要在以下两个方面有所突破:

1.借鉴机器学习中Filter&Wrapper的特征选择方法,构建了一套系统化的、有效的动态因子选择机制;

2.引入我们之前开发的集成学习因子E-NELS,将其视作因子对股票收益非线性预测能力的代表,而后将该因子纳入我们的线性模型框架,构建线性、非线性彼此融合的新一代多因子框架。

在正式介绍模型之前,我们先将本文的研究测试时段做一个说明:整个研究样本的时段为2005年1月4日-2019年7月31日;如不加特殊说明,我们一般采取60个月的滚动窗口的实证方式,因此因子和策略的样本外研究自2009年12月31日开始。

二、机器学习之因子选择综述

2.1

机器学习简介

在《基于集成学习算法的量化选股模型研究》的深度报告中,我们详细的对机器学习的大致分类、算法、集成学习的方法等做了详细介绍,并对人工智能/机器学习在投资领域的应用做了简单描述。整体来看机器学习在量化领域的应用越来越广。

人工智能、机器学习对投资的影响应该说是全流程的,从新数据源的解析与挖掘,到模型构建的方方面面,再到具体的交易模块,越来越多的业界投研人员将两者紧密地结合在一起。具体到我们平日常用的线性多因子框架,其中的因子选择环节就是一个展现机器学习方法优势的非常好的例子。

2.2

特征选择与特征提取

在机器学习中,随着数据维度的上升,提供可靠分析所需的数据量将成倍增长。贝尔曼将这种现象称为“维度的诅咒【1】。

当数据集的维数持续增加时,数据集中有意义的数据将会越来越稀疏,这将增加证明模型结果具有统计学意义的难度。而大数据集中所谓的“大,小“问题(其中是特征数量,是样本数量)往往使模型过度拟合,从而将小波动误认为是重要的数据差异而导致分类错误。此外过多的特征也会使得数据集的噪声增加,数据集中的噪声定义为“测量方差的误差”,可能来自测量误差或数据本身的方差【2】。机器学习算法很容易受到嘈杂数据的影响,另外从计算量上来看,随着维度的增加计算成本也会以指数方式提升,因此应该尽可能的减少噪音以避免不必要的复杂性,从而提高算法的效率【3】。

要克服以上问题就必须要找到一种方法来减少备选的特征数量。解决高维数据集问题的一种流行方法是从原始数据集中挑选出有效的变量,删除无效的变量。或者在尽可能保留信息的条件下,寻找一种映射方法将高维数据投影到低维空间上,这两种技术分别称为:特征选择(featureselection)和特征提取(featureextraction)。

2.2.1特征提取

特征提取通过组合原始变量创建新变量,从而减少所选特征的维数。特征提取算法有两大类:线性和非线性。

线性特征提取假设数据位于较低维度的线性子空间,从而可以直接通过矩阵分解将数据投影在子空间上以实现降维。常见的方法有PCA-主成分分析【18】,ICA-独立成分分析【19】及MDS【20】。非线性特征则通过不同方式进行降维,常见的方法有两大类:1、针对特征之间的非线性关系,可以使用提升函数将特征映射到更高维空间。在更高的空间上,特征之间的关系可以被视为线性的,从而我们能使用线性降维的方法,将高维数据映射回较低维度的空间以实现降维。常见的方法有KernelPCA【21】;2、另一种方法通称为流形学习ManifoldLearning【22-25】,其思想是若高维数据存在流形结构,则我们能通过非线性方法将高维数据映射到低维空间,同时尽量保有高维数据的本质。

常见的特征提取方法总结如下:

2.2.2特征选择

1.过滤式特征选择,直接从数据中提取特征(与后续学习过程无关);

2.包裹式特征选择,把最终将要使用的模型性能作为特征子集的评价准则;

3.嵌入式特征选择,将特征选择过程与学习器训练过程融为一体,两者在同一个过程中完成。

过滤式(Filter)

方差分析(ANOVA,Analysisofvariance)的思路为:按照不同的特征类别将特征划分为不同的总体,接着检验不同总体之间均值是否相同。如果相同,那么这个特征就不能很好地解释因变量的变化。方差分析检验方法如下,计算每个特征的F统计量,接着按每个特征F值的大小进行排序,去除F值小的特征;

信息增益分析基本方法如下:对于一个特征,计算模型有它和没它的时候信息量各是多少,两者的差值就是这个特征给模型带来的信息量(即增益)。通过对信息增益排名即可挑选出效果较好的变量。

包裹式(Wrapper)

向后选择从使用所有的数据集开始,该方法需要为每个特征与模型计算t检验或f检验的p值。然后,从模型中删除最不重要的特征(依据p值)。重复上述过程,直到模型中不重要特征被删除完毕为止;

向前选择从零个特征开始,对于每个单独的特征,该方法同样需要计算t检验或f检验的p值,然后选择p值最低的特征并将其添加到模型中。接下来,在保有第一个特征的条件下运行添加第二个特征的模型,并选择p值最低的第二个特征。以此类推,直到所有具有显著p值的特征都被添加到模型中;

遗传算法首先随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,其中评分越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后,种群中就可能产生评价函数值最高的特征子集;

嵌入式(Embedded)

嵌入式方法将特征选择作为模型创建过程的一部分。该方法通常为前面两种选择选择方法的折衷。其中Lasso、岭回归【14】及决策树【15-16】是较为常见的嵌入式特征选择方法。

常见的特征选择方法总结如下:

2.2.3特征选择Vs特征提取比较

特征提取和特征选择都属于数据降维的方法。两者主要的不同在于特征提取是在原有特征基础之上去创造出一些新的特征出来,而特征选择则只是在原有特征上进行筛选。因此在数据的解释层面上特征选择能较好的保有原始数据的特征。

通过对特征选择和特征提取的整体分析,我们认为特征选择更加适合选股领域的分析,解释性和接受程度也更高。在特征选择里面,我们首先通过Filter限制变量的个数,进一步通过Wrapper确定最终的选股变量。

三、基于Filter&Wrapper的动态线性选股模型构建

3.1

数据准备&整体流程

为了避免行业市值的影响,我们对于每个因子都会做行业市值中性化,处理方法如下:以中信一级行业为标准,以每个行业内所有股票的流通市值中位数为界来进行大小票的划分,中位数以上者为该行业的大盘股,以下者视为该行业小盘股。而后分别在每个行业市值股票池内进行横截面因子的分位数变换标准化。除了因子层面的标准化之外,对于收益率我们同样通过分位数变换标准化的方式进行处理,以保证可比性。所以后续回归中的收益率均是标准化后的结果。

在运用Filter以及Wrapper选择每期(比如月度选择)的有效因子后,我们运用线性回归的方式来构建最终的线性多因子模型,而这也使得我们保持了从特征选择到预测模型所使用的方法的统一性(Wrapper使用的就是线性回归)。我们将通过上述一整套流程得到的线性复合因子称作动态线性因子(DynamicLinearSignal,DLS)。

3.2

动态因子选择

兴业证券金融工程团队所构建的因子库共计包含165个量化选股指标,进一步细分为价值、成长、质量、分析师情绪、动量反转、另类这六大类指标,其中另类进一步分为:规模、风险、流动性、技术这四个子类(部分因子定义参见附录)。

3.2.1Filter筛选

1.选择每类中表现优秀的因子:

滚动计算过去5年每个因子的ICIR表现,从六大类别中分别选择表现最优秀的30%的因子;

3.2.2Wrapper筛选

在完成Filter步骤后,我们进一步通过Wrapper筛选剩余的因子。Wrapper有多种实现方式,这里我们采用的是逐步倒向线性回归的方式(与最后利用线性回归构建预测模型保持一致)来挑选因子。逐步倒向回归需要设定因子表现好坏的标准,我们这里以回归系数的P值作为参考,阈值设定为0.05,具体流程和注意事项如下:

1.为保证算法的稳定性,我们用过去3年36个月月底的横截面数据来构建训练样本。自变量为当期选中的因子过去三年的月度数据,Y为过去3年标准化的月度收益;

2.期初回归时,将截面选中因子全部放进去进行回归,如果所有因子P值都能达到要求,则程序终止,否则将表现最差因子剔除,同时以剩余因子为自变量再回归,重复该步骤,直至所有因子P值均满足要求;

在完成Wrapper筛选后,我们每期保留的因子数大幅度下降,从Filter筛选后平均32个左右降低至18个的水准。观察每类因子的数目变动趋势,我们发现成长、动量反转变动最小,数目也最少,而质量和另类因子的数量变动幅度最大。

最终我们带着经过Filter&Wrapper筛选后的因子进入到下一个环节,用线性回归的方式构建多因子收益率预测模型。完整的Filter&Wrapper筛选流程参见图表-14。

3.3

DLS因子表现分析

经过动态因子选择环节,我们确定了每期选中的因子,进一步通过线性回归的方式将因子合成。同时为了保证算法的稳定性,与前面一致,我们用选中的因子过去3年36个月月底的横截面数据来构建回归样本,并通过最小二乘回归确定回归系数,进而得到最终的复合因子DLS(DynaimcLinearSignal)

3.3.1DLS全市场表现分析

IC以及分位数测试结果显示该因子的选股能力非常强:IC均值达到10.6%,ICIR达到1.50;而多空年化收益率达到43.0%、夏普率高达4.99。

3.3.2DLS与基准模型的对比分析

前文详细描述了DLS因子的构建方式,这里我们尝试通过较为简单的方法为DLS因子构建一个基准模型,并对两者进行对比分析。基准模型的构建方法如下:在某个时刻,计算过去5年所有165个因子表现,从每个类里面选择最为有效(ICIR)的3个因子(这一步亦是Filter的第一步;而每类选择3个也保证了最终因子总量和DLS所选择的因子数量基本一致)等权合成,称之为BenchmarkModel(BM)。

从同时期的IC以及分位数组合测试结果来看:DLS因子的IC均值达到0.106,ICIR以及T值分别为1.50、16.05,远高于BM相应指标的水准。从IC的移动平均趋势也可以看出DLS的有效性要远高于BM因子;同样,DLS的多空年化收益率以及夏普率分别为43.0%,4.99,也优于基准因子的表现。

3.3.3DLS在宽基指数成分股内的表现分析

我们将股票池缩小至主要宽基指数范围内(沪深300/中证500),从测试结果来看,DLS因子的有效性和稳定性规律依然不变,以在中证500测试为例:DLS因子IC、ICIR、T值分别达到0.88、0.97、10.45,多空组合年化收益率31.3%,夏普率3.02,大幅度优于基准的表现,且各组别的单调性要优于基准因子的表现。

3.4

A-DLS因子表现分析

整个DLS因子的构建逻辑(包括Filter&Wrapper的因子筛选流程)都是假设因子和收益之间的关系是线性的,因此那些具有非线性选股能力的因子将会被全部剔除。为了能够更好地将非线性预测能力与上述模型融为一体,我们引入了在《基于集成学习算法的量化选股模型研究》中所构建的集成学习因子(基于改进版的Adaboost算法)。如何将DLS与集成学习因子结合起来呢?这里大致有两种思路:

2.将集成学习因子作为一个体现非线性选股能力的单因子,与Filter&Wrapper选择的因子一起进行线性回归,并得到最终的复合因子。

我们对上述两种方式都进行了实证分析,这里重点呈现第二种方式(第一种方法的结果请参见附录1),并把利用该方法生成的因子称为A-DLS(Adaboost&DynamicLinearSignal)。注意在构建A-DLS因子时,所有方法和细节处理均保持不变,只是在每期回归时,多增加了一个集成学习因子。

从最终合成因子的测试结果来看,A-DLS因子的表现十分优秀:从IC来看,A-DLS因子IC均值、ICIR以及T值分别为0.141、2.01和21.58;从分位数组合测试来看,A-DLS因子多空组合年化收益率高达60.5%、夏普率达到6.55,且A-DLS因子各分为组合的单调性、换手率均优于集成学习因子的表现。整体来看A-DLS表现略胜一筹。

四、基于A-DLS因子的选股策略研究

一般而言,投资者会结合自己的需求(如投资风险偏好不同、资金容量要求不同、换手频率不同等)构建不同风格的投资策略。接下来我们基于A-DLS因子构建主动量化以及增强选股策略。

4.1

主动量化策略构建

基于A-DLS因子我们构建了主动量化选股模型:

1.每期选择100只股票,以中证500作为业绩比较基准;

2.调仓日:若当期持仓的股票下一期没有跌出前200,仍然继续持有;

3.其他设定:选股池需删除ST、同时保证上市天数满180天;交易成本双边0.3%。

从测试结果来看,我们基于A-DLS因子构建的主动量化策略成绩斐然,策略多头超额收益风险比为4.61,最大回撤为6.6%。

4.2

指数增强选股策略构建

指数增强策略旨在控制跟踪误差的前提下,尽可能获取超越基准的表现。综合考虑投资者的偏好,针对于沪深300以及中证500宽基指数,我们构建了2个增强模型,不同模型的实现细节参见图表32。

4.2.1基于A-DLS因子的沪深300增强策略

基于沪深300的增强策略表现非常优异,以策略二为例:策略相对沪深300指数的年化超额收益稳定在7.5%左右,最大回撤为2.5%,风险收益比高达3.14。分年度来看,选股策略在每一年均能稳定的跑赢基准,2019年以来(截至7月31日)超额收益稳定在4.5%。

同时我们发现策略一和策略二表现非常接近,这实际上意味着:沪深300具有非常鲜明的市值、行业、Beta特点,只要这三类风格做到相对中性,那么即便不添加沪深300成分股权重占比80%以上的要求,策略依然可以做到稳定的跟踪沪深300的表现。

4.2.2基于A-DLS因子的中证500增强策略

与沪深300的增强策略框架一致,我们构建了中证500指数增强策略。从结果来看策略表现突出,以策略一为例:策略年化超额收益率高达18.4%,收益风险比达到4.14,回撤为3.7%。分年度来看,各策略也能稳定的战胜基准,2019年以来策略一、策略二分别战胜基准10.4%、6.4%个点。

五、总结

本文的研究主要聚焦于两个方面展开:1、借鉴机器学习中特征选择的方法,在不窥探未来数据的情况下构建了一套完整的动态因子选择方法,并验证了该方法的有效性;2、尝试将非线性因子与线性模型相融合,进一步构建完整的选股体系。回顾我们的机器学习系列研究,每个系列侧重解决的问题不尽相同:

1.在2015年初-2016年的5篇系列里面,我们详细的介绍了各个机器学习模型的优缺点,以及在选股领域的应用尝试。该系列更多的是让大家对机器学习在选股领域有一个初步的认知;

2.在《基于集成学习算法的量化选股模型研究》中,我们以Adaboost为基础,详细探讨了机器学习和选股结合的一系列深度问题:机器学习的可解释性、过拟合问题、低换手大容量模型、高换手模型等等,更加具有针对性和落地意义;

3.本篇报告,我们聚焦于机器学习的前序篇章:因子选择问题。通过将特征选择引入进来,层层递进,我们构建了一个完整的因子选择体系。

六、增强策略今年以来表现

我们统计了2019年1月1日-2019年9月12日期间指数增强策略的表现,从结果来看:针对于沪深300的增强策略今年以来的超额收益稳定在2.6%,最大回撤1%;针对于中证500的增强策略有一定差异,其中策略二今年以来的超额收益稳定6.8%,最大回撤1.9%。各增强策略表现优异。

七、附录

7.1

部分中间测试结果

DLS与集成学习因子合成测试

参考文献

【1】R.E.Bellman,“DynamicProgramming,PrincetonUniversityPress,”Princeton,NJ,USA,1957.

【2】J.Han,“DataMining:ConceptsandTechniques,”MorganKaufmannPublishers,SanFrancisco,Calif,USA,2005.

【3】D.M.Strong,Y.W.Lee,andR.Y.Wang,“Dataqualityincontext,”CommunicationsoftheACM,vol.40,no.5,pp.103–110,1997.

【4】Y.Saeys,I.Inza,andP.Larranaga,“Areviewoffeatureselectiontechniquesinbioinformatics,”Bioinformatics,vol.23,no.19,pp.2507–2517,2007.

【5】A.L.BlumandP.Langley,“Selectionofrelevantfeaturesandexamplesinmachinelearning,”ArtificialIntelligence,vol.97,no.1-2,pp.245–271,1997.

【6】S.Das,Filters,“Wrappersandaboosting-basedhybridforfeatureselection,”inProceedingsofthe18thInternationalConferenceonMachineLearning(ICML’01),pp.74–81,MorganKaufmannPublishers,SanFrancisco,Calif,USA,2001.

【7】C.DingandH.Peng,“Minimumredundancyfeatureselectionfrommicroarraygeneexpressiondata,”inProceedingsoftheIEEEBioinformaticsConference(CSB’03),pp.523–528,IEEEComputerSociety,Washington,DC,USA,August2003.

【8】M.A.Hall,“Correlation-basedfeatureselectionformachinelearning,”Tech.Rep.,1998.

【9】P.Yang,B.B.Zhou,Z.Zhang,andA.Y.Zomaya,“Amulti-filterenhancedgeneticensemblesystemforgeneselectionandsampleclassificationofmicroarraydata,”BMCBioinformatics,vol.11,supplement1,articleS5,2010.

【10】H.GlassandL.Cooper,“Sequentialsearch:amethodforsolvingconstrainedoptimizationproblems,”JournaloftheACM,vol.12,no.1,pp.71–82,1965

【11】VanLaarhovenPJM,AartsEHL.“Simulatedannealing:Theoryandapplications,”Springer,Dordrecht,1987:7-15.

【12】T.Jirapech-UmpaiandS.Aitken,“Featureselectionandclassificationformicroarraydataanalysis:evolutionarymethodsforidentifyingpredictivegenes,”BMCBioinformatics,vol.6,article148,2005.

【13】C.H.OoiandP.Tan,“Geneticalgorithmsappliedtomulti-classpredictionfortheanalysisofgeneexpressiondata,”Bioinformatics,vol.19,no.1,pp.37–44,2003.

【14】S.Ma,X.Song,andJ.Huang,“SupervisedgroupLassowithapplicationstomicroarraydataanalysis,”BMCBioinformatics,vol.8,article60,2007.

【15】R.D′az-UriarteandS.AlvarezdeAndr′es,“Geneselectionandclassificationofmicroarraydatausingrandomforest,”BMCBioinformatics,vol.7,article3,2006.

【16】H.Jiang,Y.Deng,H.-S.Chenetal.,“Jointanalysisoftwomicroarraygene-expressiondatasetstoselectlungadenocarcinomamarkergenes,”BMCBioinformatics,vol.5,article81,2004.

【17】SaeysY,InzaI,LarraagaP.,“Areviewoffeatureselectiontechniquesinbioinformatics,”bioinformatics,2007,23(19):2507-2517.

【18】JolliffeI.,“Principalcomponentanalysis,”SpringerBerlinHeidelberg,2011.

【19】HyvrinenA,OjaE.,“Independentcomponentanalysis:algorithmsandapplications,”Neuralnetworks,2000,13(4-5):411-430.

【20】KruskalJB,WishM.,“Multidimensionalscaling,”Sage,1978.

【21】B.Scholkopf,A.Smola,andK.R.Muller.,“Nonlinearcomponentanalysisasakerneleigenvalueproblem,”NeuralComputation,10(5):1299-1319,1998

【22】J.B.Tenenbaum,V.deSilva,andJ.C.Langford,“Aglobalgeometricframeworkfornonlineardimensionalityreduction,”Science,290,pp.2319-2323,2000

【23】SamT.Roweis,andLawrenceK.Saul,“NonlinearDimensionalityReductionbyLocallyLinearEmbedding,”Science22December2000

【24】MikhailBelkin,ParthaNiyogi,“LaplacianEigenmapsforDimensionalityReductionandDataRepresentation,”Computation,2003

【25】XiaofeiHe,ParthaNiyogi,“LocalityPreservingProjections,”AdvancesinNeuralInformationProcessingSystems16(NIPS2003),Vancouver,Canada,2003

证券研究报告:《当线性模型遇见机器学习》。

报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)

THE END
1.主动学习(十二)——可复现的主动学习(cvpr2022)迄今为止的大部分主动学习都只采用了最简单的数据增广方式,也就是随机翻转这类。其中,主动学习与强数据增广兼容的问题已经在主动学习(七)——强数据增强遇上主动学习(LADA)这篇文章中聊过,这篇文章提出来的也是一个可以兼容大部分现有主动学习算法的插件,所以这个问题大概算是部分解决。另外的两个还没见到有关的https://zhuanlan.zhihu.com/p/573531562
2.人工智能论文综述深度学习与算法创新在AI研究中的应用人工智能论文综述:深度学习与算法创新在AI研究中的应用 人工智能的发展历程 ai论文综述显示,人工智能从早期的规则系统、符号处理到现代深度学习和机器学习,其发展路径由此可见。人工智能技术的进步不仅促进了计算机科学领域的飞跃,也对经济社会产生了深远影响。 深度学https://www.9e80wtu09.cn/zhi-neng/386956.html
3.自然语言强化学习:一个可处理语言反馈的强化学习框架详情请见:大模型2.0读书会:融合学习与推理的大模型新范式! 推荐阅读 1.Nat. Mach. Intell. 速递:测试用于预测人类语言判断的自然语言模型的极限 2.Nat. Mach. Intell. 速递:大规模网络控制的高效和可扩展的强化学习 3.因果科学 x Agents:如何让AI更好地理解因果?|TMLR (2023) 因果强化学习最新综述 https://hub.baai.ac.cn/view/41851
4.AI在自然语言处理中的突破:从理论到应用腾讯云开发者社区自然语言处理(Natural Language Processing,NLP)是人工智能(AI)的一个重要分支,旨在实现计算机与人类语言的交互。近年来,随着深度学习和大规模语言模型的发展,自然语言处理取得了显著突破,从理论研究到实际应用,推动了多个领域的进步。本文将介绍NLP的核心技术及其突破,并通过代码示例展示其应用。 https://cloud.tencent.com/developer/article/2479408
5.人工智能技术栈深度解析从基础算法到前沿应用作为人工智能的基石之一,计算机科学提供了理解数据、编写代码以及构建复杂系统所需的理论框架。学习计算机科学意味着掌握数据结构、算法设计、操作系统原理等核心概念。在这些基础知识上建立起来,将有助于理解后续学习的人工智能模型及其工作原理。 机器学习与深度学习 https://www.xstkmqmgl.cn/shu-ma/98601.html
6.解析人工智能三大算法机器学习深度学习与强化学习的核心之旅解析人工智能三大算法:机器学习、深度学习与强化学习的核心之旅 人工智能三大算法是现代计算机科学领域中的重要组成部分,它们分别是机器学习、深度学习和强化学习。每种算法都有其独特的特点和应用场景,共同推动了人工智能技术的发展。 机器学习:数据驱动的革命 机器学https://www.fmovhaqkz.com/shou-ji/530948.html
7.算法干货主动学习算法学习笔记主动学习方法被提出以有效地处理这类问题。主动学习(Active Learning)是指通过自动的机器学习算法,从数据集中自动筛选出合适的候选集给人工标注的过程。有效的主动学习数据选择策略可以有效地降低训练的代价并同时提高模型的识别能力。在主动学习中,学习器能够主动地选择包含信息量大的未标注样例并将其交由专家进行标注,然https://developer.aliyun.com/article/1177917
8.主动学习(ActiveLearning)简介综述汇总以及主流技术方案从上图也可以看出来,在相同数目的标注数据中,主动学习算法比监督学习算法的分类误差要低。这里注意横轴是标注数据的数目,对于主动学习而言,相同的标注数据下,主动学习的样本数>监督学习,这个对比主要是为了说明两者对于训练样本的使用效率不同:主动学习训练使用的样本都是经过算法筛选出来对于模型训练有帮助的数据,所以效https://blog.csdn.net/2401_84495725/article/details/139475484
9.主动学习算法综述摘要: 主动学习算法作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,在有限的时间和资源的前提下,提高分类算法的效率.主动学习已成为模式识别、机器学习和数据挖掘领域的研究热点问题.介绍了主动学习的基本思想,一些最新研究成果及其算法分析,并提出和分析了有待进https://d.wanfangdata.com.cn/periodical/jsjgcyyy201234001
10.小样本学习及其在美团嘲中的应用一个数据人的自留地除了上面提到的三种场景, 还有一种是,如何在有限的标注成本中选择更有针对性的样本进行人工标注(主动学习)。因此我们将小样本学习划分为下面几种: 图2 小样本学习相关工作 2 方法综述 预训练语言模型?BERT?,在NLP许多任务中取得非常好的结果。BERT是基于Transformer的深度双向语言表征模型,利用Transformer结构构造https://www.shangyexinzhi.com/article/4900642.html
11.基于生理信号的情感计算研究综述(二)之情感计算中的机器学习包括生理信号的采集、预处理、特征提取、特征平滑、特征融合、模型训练与测试等. 然后重点介绍了为解决情感计算任务中个体差异的迁移学习方法, 减少标注数据量的主动学习方法, 以及基于深度学习的生理信号的深层情感表示和多模态生理信号的特征融合等相关算法. 最后介绍了两个在基于脑电信号的情感计算中广泛使用的公开数据https://www.4008489789.com/newsinfo/1809711.html
12.单评丨佳能EOSR5MarkII002 智能AI算法(深度学习技术) 得益于此次新处理器的加入,R5 Mark II也进一步加入了智能AI算法功能,尤其是在对焦方面,基于智能AI算法能够大幅提升对物体的识别、追踪性能,并且能够进一步捕捉被摄体的动作、特征等来进行持续的追踪对焦,且保持对焦的高精度。 https://www.360doc.cn/article/50323889_1131095639.html
13.算法“黑箱”中的青年由此,本研究将基于北京地区高校在读大学生群体,调查他们在新媒体实践中所生成的算法意识、算法态度以及算法操纵行为,以期基于用户视角,呈现大学生群体与平台算法之间博弈的情景。 二、文献综述 1.算法意识与算法态度:用户对于平台算法的感知 作为算法的使用者,用户在使用算法的过程中,会通过自身经验以及对算法的了解,https://www.huxiu.com/article/620239.html
14.论文开题报告2、论文综述/研究基础。 传统绘画和摄影艺术作为具备文化价值和审美价值的符号,是大众获取艺术知识、培养美学理念的重要源泉之一。近几十年来,随着文化需求的增长,为摄影艺术提供了更加广阔的发展空间。最初的摄影家主要对客观世界进行重现和描绘,之后逐渐注重对自身内在思想的剖析和探讨,在转变的过程中一些视觉表现形式也https://www.wenshubang.com/baogao/3043006.html
15.FCS期刊动态《计算机科学前沿》2021年第一期精彩文章—论文—科学网【FCS 人工智能专栏】基于点态流形正则化的半监督学习 2021 15(1):151303 Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。https://news.sciencenet.cn/htmlpaper/2021/4/202142112434356462946.shtm
16.国际TOP10药学期刊文章信息(2023年10月)14. 利用大数据和机器学习算法提取神经发育障碍的可能治疗靶点 (Use of big data and machine learning algorithms to extract possible treatment targets in neurodevelopmental disorders) 作者:Muhammad Ammar Malik, Jan Haavik* (Computational Biology Unit, Department of Informatics, University of Bergen, Norwayhttps://www.ctdm.org.cn/.php?s=/Meeting/metDynamicById/id/68ef8a5ecf3143fc9c6096903dad2b87/meetingid/365e19d34eb54caeaa6e974e66b82c15
17.科学技术与工程杂志中国技术经济学会主办2018年第01期果蝇优化算法研究综述 关键词:果蝇优化算法 改进策略 应用研究 果蝇优化算法(FOA)是一种新兴的群体智能算法,其思想来源于果蝇群体觅食行为。为进一步推广应用FOA并为深入研究该算法提供相关资料,在分析FOA基本原理和优缺点的基础上,从FOA各种改进技术及其应用等方面进行深入调查,论述了该算法的改进策略,并阐述了FOA在复https://www.youfabiao.com/kxjsygc/201801/
18.总目录∣工程科学学报2021—2022年10.基于S-LRCN的微表情识别算法 李学翰,胡四泉,石志国,张明 工程科学学报, 2022, 44(1): 104 3.基于机器学习的边坡安全稳定性评价及防护措施 武梦婷,陈秋松,齐冲冲 工程科学学报, 2022, 44(2):9.神经网络在无人驾驶车辆运动控制中的应用综述 张守武,王恒,陈鹏,张笑语,李擎 工程科学学报, 2022,https://cje.ustb.edu.cn/news/index_tabliod/0625b272-7c19-4c66-bcce-c01ab4a2dbf8.htm
19.跨领域文本分类算法研究2)提出了新的多领域主动学习问题。与传统主动学习问题不同,多领域主动学习研究的是如何从多个领域中选择全局最优数据进行标注,从而节约人力标注资源。针对该问题,本文提出了一个基于支持向量机全局最优化的多领域主动学习算法(Multi-Domain Active Learning,MultiAL),并结合三个重要的分类应用对提出的算法进行了实验验证https://wap.cnki.net/touch/web/Dissertation/Article/-1013016966.html
20.主动学习在图像分类技术中的应用:当前状态与未来展望本文对近年来提出的主动学习图像分类算法进行了详细综述,并根据所用样本数据处理及模型优化方案,将现有算法分为三类:基于数据增强的算法,包括利用图像增广来扩充训练数据,或者根据图像特征插值后的差异性来选择高质量的训练数据;基于数据分布信息的算法,根据数据分布的特点来优化样本选择策略;优化模型预测的算法,包括优化获https://www.elecfans.com/d/6345703.html
21.网络空间安全中的人工智能技术综述和机器学习分类方法区队恶意软件进行分类和检测的框架;H.Hashemi[8]等人使用K近邻和支持向量机作为机器学习分类器来检测位置恶意软件;Y.Ye[9]等人构建了一个深度学习架构来检测智能恶意软件;N.McLaughlin[10]等人采用了深度卷积神经网络来识别恶意软件;H.J.Zhu[11]等人定义了一种新的机器学习算法,叫做旋转森林,以http://528045.com/article/d34389b553.html
22.名师工作室年度总结(通用24篇)我在学习的同时注重联系实际,把先进的理念做法搬进课堂,随时反思,积极撰写教育随笔,做好读书卡;本学年撰写的《算法多样化的误区及其对策》获省优秀论文二等奖,《在自主探索中主动学习》发表于省级刊物《读写算》20xx第18期;《算法多样化的误区及其对策》发表于省级刊物《新课程》20xx.03;《猜疑,一朵雨做的云》发表https://www.yjbys.com/gongzuozongjie/niandu/4117270.html
23.名师工作室工作总结(20篇)我在学习的同时注重联系实际,把先进的理念做法搬进课堂,随时反思,积极撰写教育随笔,做好读书卡;本学年撰写的《算法多样化的误区及其对策》获省优秀论文二等奖,《在自主探索中主动学习》发表于省级刊物《读写算》20xx第18期;《算法多样化的误区及其对策》发表于省级刊物《新课程》20xx。03;《猜疑,一朵雨做的云》发表https://www.yuwenmi.com/fanwen/gongzuo/4242691.html