量化投资策略科普:理念策略架构与交易 导读:本篇报告回顾了量化选股海内外发展历史,介绍了产品主流做法,并给出产品筛选标准。?目前主流量化私募基本采用不做市场择... 

导读:本篇报告回顾了量化选股海内外发展历史,介绍了产品主流做法,并给出产品筛选标准。

目前主流量化私募基本采用不做市场择时、不主动风格择时、超分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架因此,量化私募筛选需了解更多投资细节,包括量化投资流派、团队合作模式、策略研究能力和投资执行力等。

量化私募团队合作模式主要包括siloPM制和centralizedbook制。SiloPM制下,特征挖掘存在竞争优势,除核心PM以外的团队离职率对产品影响较小;centralizedbook制下,特征组合和算法交易上具备比较优势,策略迭代能力更强。

量化私募通常在特征挖掘、特征组合、组合优化以及算法交易中的某一模块具备竞争优势。在不同市场环境以及不同的投资模式下,各个模块的重要性也不尽相同。例如,当市场有效性极弱时,特征挖掘最为关键,一个好因子通常能带来非常不错的收益风险比;在基金规模不断扩大时,算法交易能够大幅降低不断增长的冲击成本;当策略逐渐低频化时,组合优化的价值凸显;当策略较为拥挤时,风险敞口管。

量化私募交易频繁,我们需要了解量化私募是否实现了实验环境和生产环境的分离,具备完善的交易指令管理体系;除此之外,量化模型无法考虑到未来所有情况,因此我们需要了解量化私募历史的突发事件应对经验;最后,IT基础建设支持重要性不言而喻。

一,1.量化选股投资简史

海外量化基金虽各有特色,但拥有共同的量化基因:通过金融与科技的结合实现投资流程系统化、投资组合分散化,交易执行纪律化。凭借系统化、分散化、纪律化的竞争优势,头部量化基金管理规模不断扩大、投资策略愈发丰富,上述不同类型策略均有涉猎、投资范围也从权益、债券扩大到另类资产。根据海外学者研究(《FactorFeatures:NotYour“90sQuant”》),截止2019年Q2,美国量化基金的规模占美股总市值的比例达到接近9%,量化基金整体的规模大约为3.3万亿美元。

量化基金发展绝非一帆风顺,历史上每一次极端风格的演绎对于量化管理人都是极大的考验。AQR创始人阿斯内斯曾写信给投资者说:任何一个策略都不会很容易,市场上没有容易钱。如果一个策略可以躺着赚钱,那它一定会很快被套利走。任何持续、长期能挣钱的因子,都是时不时会让你非常疼一下。

2000年互联网泡沫时期,以价值为导向的AQR市场中性策略遭遇巨大亏损,业绩下降近40%,但AQR依旧坚守价值,不久互联网泡沫破灭,价值风格收益大涨,AQR一战封神。2008年,Renaissance也一度严重亏损,在巨大压力下,创始人西蒙斯选择干预量化模型,主动减仓,遗憾错失了市场反弹后的收益。

国内量化私募的发展晚于海外,大致可分为四个阶段。(图1国内量化私募发展回顾)

2005年至2009年萌芽期:2004年量化公募基金光大保德信成立,2006年深圳天马资产管理的深国投·天马发行,但受制于量化工具缺乏、股票数量有限,以分散化投资为特点的量化投资难以施展其优势。

2010年至2014年探索期:2010年4月沪深300股指期货挂牌上市,量化策略开始拥有对冲工具,由于小市值风格的异常强势以及股指期货长期升水,绝对收益量化策略开发难度不大,基于学院派BGI模式的量化策略表现优异,量化私募发展进入小高潮。

2019年至今的过热期:政策方面量化私募迎来春天,2019年6月,证监会发布公募基金转融通业务指引,不久交易所公告两融标的扩充到1600只,再次丰富融券券源的种类和规模。标的证券的扩容有助于改善股票的流动性和波动率,为T0交易策略提供了更广阔的空间,扩大了配对交易的股票池,进一步丰富了量化交易策略;市场方面,股票分化成和成交量的连续攀升成就了丰厚的ALPHA收益空间。量化私募规模借此契机得以快速扩张,截止2021年年末,百亿量化私募超过100家,量化私募进入万亿时代。

根据行为金融学理论,投资者的行为偏差可分为认知上的偏差和情绪上的偏差。认知上的偏差可以通过学习和训练规避,但情绪偏差无法消除。从2008年金融危机中的经验来看,一旦出现回撤,量化传奇西蒙斯也未能克服情绪偏差选择不干预策略运行。因此,在主动投资主导的市场中,量化选股策略超额收益可能衰减,但不会消失。

如同价值投资收益存在周期性一样,量化策略ALPHA收益本身也存在周期性。随着投资者结构变化、策略拥挤度提升、市场成熟度提高,量化模型存在失效风险;当市场成交量萎靡、个股走势趋同、风格快速切换时,量化策略面临较高的投资风险。

当前A股市场新增开户活跃,成交量破万亿成为常态,散户交易维持高位,市场属于弱有效市场,因此在投资者结构发生变化前,量化选股依然处于不容错过的时代红利期,较高的投资胜率和预期收益率是当前国内量化选股产品的核心竞争优势,从海外经验来看,量化策略ALPHA断崖式消失可能性不大,长期来看,量化选股策略收益大概率缓慢衰减至合理区间。

当前主流量化私募选股流程可分为四大模块:特征挖掘、特征组合、组合优化以及交易算法。通过四大模块量化私募实现了从原始数据至真实下单的程序化交易,四大模块共同构成了量化选股私募的竞争壁垒。

3.1特征挖掘

如下图所示,特征挖掘模块大致可分以下为四个阶段。

二代特征挖掘借助遗传规划、神经网络等机器学习技术实现特征的自动挖掘,在高频量价领域机器挖掘特征具有天然的优势,标准化的数据使得挖掘算法能够突破人类思维局限性,挖掘出人脑难以构建的特征,然而特征自动挖掘技术也存在四个难点:生成因子的过拟合(样本外存活率过低)问题、生成因子的高线性、相因关子问非题线性问题以及因子生命周期不确定问题。如何解决上述四个问题是区分特征自动挖掘技术优劣的关键。

前两代特征挖掘以寻找对股票收益具有线性解释力的特征为主,而当市场.主流特征组合建模从线性模型转为非线性模型时,特征挖掘不再局限于线性因,企业性质、上市时长等非线性特征也成为了有用的增量信息。,此类特征单一预测能力远弱于前两代特征,但是数量巨大,通过特征组合建模,此类特征得以聚沙成塔,也能够形成有效的收益预测。

近年来,在量化策略趋同的背景下,某些量化私募主动转型开始第四代以另类数据为核心的特征挖掘,从非标数据中寻找企业基本面变化的代理变量。

总结来说,特征挖掘整体呈现在频率上由低到高、广度上由宽到窄、深度上由浅入深的发展趋势。

3.2特征组合

传统量化模型以低频线性因子为主,因而初代特征组合采用线性回归或者等权的方式,作为白箱模型,线性回归操作简单,易于理解,预测效果稳健,因而线性回归目前仍是以基本面因子为主或擅长低频交易的量化私募喜爱采用的特征组合方式。

伴随高频量价数据的广泛应用,第二代特征组合方式为以表的机器学习算法。XGBoost最早由2014年3月陈天奇博士提出,是目前最为成功的树形算法之一,号称“数据科学比赛夺冠的必备大杀器”,横扫机器学习竞赛罕逢敌手。因为量价因子常常存在“余弦形”预测能力,所以量价模型更适合非线性组合方式,在众多机器学习算法中,XGBoost算法同样在金融数据上大放异彩,其收益预测表现不仅超越线性回归,且显著优于传统机器学习算法。

集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。三代使用集成学习进行特征组合主要有两方面的原,CatBoost、,在数据类型多元化的背景下,集成学习可以避免单一算法的不足,将线性模型与非线性模型融为一体。集成学习技术包括统一融合、线性融合以及堆融合三种模型融合方式。统一融合使用平均法。这种方式的优点是一般泛化能力会得到加强,但是只能保证比那些模型中最差的模型要好,无法保证最终模型比原有最佳模型要好的模型;线性融合和堆融合都是二次学习技术,线性融合使用线性模型将第一步中学习到的学习器组合起来,而堆融合使用其它非线性模型进行二次学习。通过二次学习,算法得到的收益率预测结果成为新的特征重新进入特征挖掘模块,在合理使用下可有效提升模型性能。

组合优化的意义在于平衡组合的收益和风险,给出风险调整后收益最大化的资产配置方案。组合优化可细分为完成股票协方差的估计、组合优化建模以及风险敞口管理三大部分。

在股票协方差估计上,BARRA结构化风险模型为目前最为流行的做法,其他模型包括优化风险被低估问题的AlphaAlignmentFactorApproach、简单易用的ShrinkageEstimator等。

在风险敞口管理上,在风格切换加速的背景下,整体私募敞口控制趋严,增大了控制风格的数量和程度,与此同时,随着量化私募管理规模的扩大,基于因子拥挤度、因子估值等的因子敞口控制策略开始流行。

组合优化建模方面,常规组合优化建模采用马科维茨的均值-方差模型,由特征组合给出预期收益,BARRA等风险模型确定风险矩阵,但均值-方差模型给出的最优权重对收益和风险的估计过于敏感,传统算法只能简单粗暴地通过加入个股权重上限来缓解参数敏感问题。二代组合优化为稳健组合优化,进一步增强了优化结果的稳健性。稳健组合优化通常有两种做法,一是使用各类技术降低预测估计的标准误,包括Shrinkage、RobustStatistics、Black-LittermanInverseOptimisation以及BayesianOptimisation等;二是在最优化目标中加入预测误差的惩罚项,实践中,二代组合优化会同时应用上述几类技术,尽可能多得将投资中所面临的各类信息融入组合优化,例如交易成本、冲击成本、主观观点以及流动性等因素。二代稳健优化最大的弊端在于模型过于理想化,无论如何改进组合优化模型,最优化问题仍是现实投资问题的简化,现实中的许多信息无法纳入量化体系,因而新一代组合优化更加务实,将股票权重分配问题的决策转换为战略和战术两层。战略层由次优组合优化算法生成能够提供最大化风险调整后收益的备选组合配置方案组和参考最优组合,战术层基于非定量信息在备选方案中挑选最优配置方案。

第一代算法基于历史交易模式,使用历史交易记录对现在的交易进行指导。基本目标是冲击成本最小化及贴近市场成交均价,几乎没有考虑机会成本和成交风险。代表性的算法有VWAP策略、TWAP策略、VP策略等等。第一代算法为算法交易的发展打下了深厚的基础,当下许多算法模型的基础为了更好地适应市场环境,静态方法逐步向动态方法改进,向机会导向算法倾斜,力图寻求相比VWAP、TWAP更好的价格。

第三代算法在第二代算法的基础上,朝着深度和广度两个方向同时发展,开始着眼于算法对多资产之间的相互影响和平台的建立。第三代算法的特点是从单只股票到多股票组合,同时搜寻隐藏流动性(HiddenLiquidity)获得Alpha。此外,一些投资机构开发了具有特殊目标的算法策略,开发出了最优隐藏流动性算法和相应的搜寻隐藏流动性算法。第三代算法的代表算法有搜寻隐藏流动性(HiddenLiquidity)算法、游击战(Guerrilla)、

侦察员(Scout)等算法。主要是帮助寻找市场中的潜在流动性并加以执行。如果说前两代算法还是在已知的市场信息中寻求机会提高执行效率的话,第三代算法则是探索未知的市场信息并寻找潜在机会。

目前主流量化私募基本采用了不做市场择时、不主动风格择时、超分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架。因此,量化私募筛选需了解更多投资细节,包括量化投资流派、团队合作模式、策略研究能力和投资执行力。

THE END
1.HEPS机器学习助力纳米角分辨光电子能谱线站数据分析的研究进展近日,中国科学院高能同步辐射光源(HEPS)光束线软件系统与高分辨纳米电子结构(Nano-ARPES)线站在利用无监督聚类算法划分样品表面不同电子结构区域的研究方面取得重要进展。研究人员开发的多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)通过自动提取能带在表面的一致性,清晰地划分出了MoS2/BN异质结中不同衬底http://www.mei.net.cn/yqyb/202412/545478512195180437.html
2.科学网—基于R语言MaxEnt模型融合技术的物种分布模拟参数优化2、变量筛选与最佳组合的选择: 主成分分析(Principal Component Analysis,PCA)与Boruta 算法 四:基于ArcGIS、R数据处理与进阶 1、ArcGIS安装与入门 2、利用ArcGIS进行模型数据准备 3、进阶:基于R语言的数据准备 五:基于Maxent的物种分布建模与预测 1、Java、MaxEnt安装与模型界面说明 https://wap.sciencenet.cn/home.php?mod=space&uid=3595493&do=blog&id=1465206
3.时间序列支持向量机mob6454cc76dff7的技术博客在系统分析中,描述线性时序行为(linear-time behavior)可以是基于动作的(action-based approach),也可以是基于状态的(state-based approach),本章主要学习的是基于状态的(但在学习公平性时用动作描述),也就可以在TS中刻意忽略转移过程中的具体动作,而只考虑前后状态。 https://blog.51cto.com/u_16099316/12868925
4.6.MCMC理论考虑如下形式的线性规划: 其中 , , , 。 由对偶函数知,对于 有 对于其它的 有 ,因此对偶问题为 三、对偶间隙 定义:若 成立,称为弱对偶(weak duality)成立;若 ,则称强对偶(strong duality)成立或对偶间隙(duality gap)为零。 Theorem (弱对偶定理) https://www.jianshu.com/p/5bc975d51f0f
5.假定xt是其余x变量的一个完全的线性组合,你如何说明在这种情形在k变量模型中有k个正规方程用以估计k个未知数。这些正规方程见于附录C。假定xt是其余x变量的一个完全的线性组合,你如何说明在这种情形中不可能估计这k个回归系数?请帮忙给出正确答案和分析,谢谢!https://www.shangxueba.cn/2GQ9PLHE.html
6.线性代数笔记02基向量线性组合与张成空间的直观理解「线性组合」是「将缩放后的向量相加」以数值方式描述向量的过程。 「向量的张成空间」表示「通过线性组合可以达到的所有可能向量」 向量空间的一组「基向量」是「张成该空间」的一个「线性无关的向量集合」 ? 1. Basis Vectors (基向量) http://www.360doc.com/content/23/0706/07/1339386_1087504909.shtml
7.全国2002年10月自考(课程代码:00142)计量经济学试题23.如果同阶单整的线性组合是平稳时间序列,则这些变量之间关系是( ) A.伪回归关系 B.协整关系 C.短期的均衡关系 D.短期非均衡关系 24.若回归模型中的随机误差项存在一阶自回归形式的序列相关,则估计模型参数应采用( ) A.普通最小二乘法 B.加权最小二乘法 C.广义差分法 D.工具变量法 25.假如模型中第ihttps://www.cqzk.net/lnzt/2017/0216/10266.html
8.GROMACS中文手册:第四章相互作用函数和力场Jerkwin非键相互作用包含排斥项, 色散项和库仑项. 组合起来的排斥项和色散项可以取Lennard-Jones(或6–12相互作用)或Buckingham(或exp–6势)形式. 此外, (部分)带电的原子之间的非键相互作用通过库仑项表达. 图4.1: Lennard-Jones相互作用 4.1.1 Lennard-Jones相互作用 http://jerkwin.github.io/GMX/GMXman-4#492-lennard-jonespme
9.Stata:回归后假设检验一览检验生产技术是否是规模报酬不变 (多个变量系数的线性组合) ,则原假设是: H0:β1+β2=1H0?:β1?+β2?=1 Stata 提供了多个回归后命令 (postestimation commands) 进行系数检验: test单变量系数检验 (线性假设) testnl单变量系数检验 (非线性假设) https://www.lianxh.cn/news/d4eb90f8f8fb6.html
10.COMSOLMultiphysics?中进行屈曲分析的新功能COMSOL博客必须注意的是,不能完全假设轴对称壳的所有屈曲模式也是轴对称的。真正的第一屈曲模式不是轴对称的,看起来像这样: 使用完整的三维公式时的第一种屈曲模式。 活荷载和静荷载的组合 线性屈曲分析中的载荷因子可以被认为是相对于所施加载荷的一种安全系数。有时,只有某一组载荷可以变化,其他载荷具有明确定义的值,比如http://cn.comsol.com/blogs?p=326591
11.比较电影《伊豆的舞女》,1963年吉永小百合版与1974年山口百惠版注,本文最早发表于本人的新浪博客,原地址:http://blog.sina.com.cn/s/blog_6707d64e0100k9sf.html《伊豆的舞女》是曾获诺贝尔文学奖的著名日本作家川端康成的成名之作。小说根据川端康成本人1918年在日本伊豆半岛旅行的亲身经历改编,最早发表于1926年《时代文艺》,迄今为止已经被6次搬上银幕。小说和同名电影中https://movie.douban.com/review/3589184/
12.自考《线性代数(经管类)》大综合.pdf两个完全不同的概念。只有一右下角的这条对角线称n方阵的主对角线上的元素a“,a22,…,课堂笔记为A的主对角线。阶ann,称为此方阵的对角元。在本课程中,对于不是方阵的矩阵,我们不定义对角兀。*者矩阵是线性代数学的一个重要的基本概念和数学工具,是研究和求解线性方元素全为零的矩阵称为零矩阵。用Omn或0(https://m.book118.com/html/2024/0323/7051065105006055.shtm
13.现代投资组合理论知识第8章 现代投资组合理论 马克维茨运用线性规划来处理收益与风险的权衡问 题,给出了选择最佳资产组合的方法,完成了论文, 1959年出版了专著,不仅分析了分散投资的重要性,还 给出了如何进行正确的分散方法。 F 马的贡献是开创了在不确定性条件下理性投资者进 行资产组合投资的理论和方法,第一次采用定量的方法 证明https://doc.mbalib.com/view/194f883ade541f0e1c902b1527b4a153.html
14.同态签名研究综述*2010年Gennaro等人提出了一个基于RSA困难问题的线性同态签名方案[5],并证明了该方案在随机预言模型中的可证明安全性.该方案基于整数分解的困难问题,使得其效率比文献[26]中基于双线性群的线性同态签名方案更高.由于可以选择较小的整数系数来实现线性组合,因此大大减少了计算开销并提高了计算效率,能够在合理的时间内运https://www.fx361.com/page/2021/1120/12435687.shtml
15.22最佳线性预测的基本性质金融时间序列分析备课笔记这是线性预测的两个极端: 因变量和自变量不相关时线性预测无效; 因变量为自变量线性组合时可以完全线性预测。 证明: (1)?\(\forall \boldsymbol{b}\) \[\begin{aligned} E(Y - \boldsymbol{b}^T \boldsymbol{X})^2 =& E Y^2 + \boldsymbol{b}^T \Gamma \boldsymbol{b} - 2 \boldsymbol{https://www.math.pku.edu.cn/teachers/lidf/course/atsa/atsanotes/html/_atsanotes/atsa-blpprop.html