导读:本篇报告回顾了量化选股海内外发展历史,介绍了产品主流做法,并给出产品筛选标准。
目前主流量化私募基本采用不做市场择时、不主动风格择时、超分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架因此,量化私募筛选需了解更多投资细节,包括量化投资流派、团队合作模式、策略研究能力和投资执行力等。
量化私募团队合作模式主要包括siloPM制和centralizedbook制。SiloPM制下,特征挖掘存在竞争优势,除核心PM以外的团队离职率对产品影响较小;centralizedbook制下,特征组合和算法交易上具备比较优势,策略迭代能力更强。
量化私募通常在特征挖掘、特征组合、组合优化以及算法交易中的某一模块具备竞争优势。在不同市场环境以及不同的投资模式下,各个模块的重要性也不尽相同。例如,当市场有效性极弱时,特征挖掘最为关键,一个好因子通常能带来非常不错的收益风险比;在基金规模不断扩大时,算法交易能够大幅降低不断增长的冲击成本;当策略逐渐低频化时,组合优化的价值凸显;当策略较为拥挤时,风险敞口管。
量化私募交易频繁,我们需要了解量化私募是否实现了实验环境和生产环境的分离,具备完善的交易指令管理体系;除此之外,量化模型无法考虑到未来所有情况,因此我们需要了解量化私募历史的突发事件应对经验;最后,IT基础建设支持重要性不言而喻。
一,1.量化选股投资简史
海外量化基金虽各有特色,但拥有共同的量化基因:通过金融与科技的结合实现投资流程系统化、投资组合分散化,交易执行纪律化。凭借系统化、分散化、纪律化的竞争优势,头部量化基金管理规模不断扩大、投资策略愈发丰富,上述不同类型策略均有涉猎、投资范围也从权益、债券扩大到另类资产。根据海外学者研究(《FactorFeatures:NotYour“90sQuant”》),截止2019年Q2,美国量化基金的规模占美股总市值的比例达到接近9%,量化基金整体的规模大约为3.3万亿美元。
量化基金发展绝非一帆风顺,历史上每一次极端风格的演绎对于量化管理人都是极大的考验。AQR创始人阿斯内斯曾写信给投资者说:任何一个策略都不会很容易,市场上没有容易钱。如果一个策略可以躺着赚钱,那它一定会很快被套利走。任何持续、长期能挣钱的因子,都是时不时会让你非常疼一下。
2000年互联网泡沫时期,以价值为导向的AQR市场中性策略遭遇巨大亏损,业绩下降近40%,但AQR依旧坚守价值,不久互联网泡沫破灭,价值风格收益大涨,AQR一战封神。2008年,Renaissance也一度严重亏损,在巨大压力下,创始人西蒙斯选择干预量化模型,主动减仓,遗憾错失了市场反弹后的收益。
国内量化私募的发展晚于海外,大致可分为四个阶段。(图1国内量化私募发展回顾)
2005年至2009年萌芽期:2004年量化公募基金光大保德信成立,2006年深圳天马资产管理的深国投·天马发行,但受制于量化工具缺乏、股票数量有限,以分散化投资为特点的量化投资难以施展其优势。
2010年至2014年探索期:2010年4月沪深300股指期货挂牌上市,量化策略开始拥有对冲工具,由于小市值风格的异常强势以及股指期货长期升水,绝对收益量化策略开发难度不大,基于学院派BGI模式的量化策略表现优异,量化私募发展进入小高潮。
2019年至今的过热期:政策方面量化私募迎来春天,2019年6月,证监会发布公募基金转融通业务指引,不久交易所公告两融标的扩充到1600只,再次丰富融券券源的种类和规模。标的证券的扩容有助于改善股票的流动性和波动率,为T0交易策略提供了更广阔的空间,扩大了配对交易的股票池,进一步丰富了量化交易策略;市场方面,股票分化成和成交量的连续攀升成就了丰厚的ALPHA收益空间。量化私募规模借此契机得以快速扩张,截止2021年年末,百亿量化私募超过100家,量化私募进入万亿时代。
根据行为金融学理论,投资者的行为偏差可分为认知上的偏差和情绪上的偏差。认知上的偏差可以通过学习和训练规避,但情绪偏差无法消除。从2008年金融危机中的经验来看,一旦出现回撤,量化传奇西蒙斯也未能克服情绪偏差选择不干预策略运行。因此,在主动投资主导的市场中,量化选股策略超额收益可能衰减,但不会消失。
如同价值投资收益存在周期性一样,量化策略ALPHA收益本身也存在周期性。随着投资者结构变化、策略拥挤度提升、市场成熟度提高,量化模型存在失效风险;当市场成交量萎靡、个股走势趋同、风格快速切换时,量化策略面临较高的投资风险。
当前A股市场新增开户活跃,成交量破万亿成为常态,散户交易维持高位,市场属于弱有效市场,因此在投资者结构发生变化前,量化选股依然处于不容错过的时代红利期,较高的投资胜率和预期收益率是当前国内量化选股产品的核心竞争优势,从海外经验来看,量化策略ALPHA断崖式消失可能性不大,长期来看,量化选股策略收益大概率缓慢衰减至合理区间。
当前主流量化私募选股流程可分为四大模块:特征挖掘、特征组合、组合优化以及交易算法。通过四大模块量化私募实现了从原始数据至真实下单的程序化交易,四大模块共同构成了量化选股私募的竞争壁垒。
3.1特征挖掘
如下图所示,特征挖掘模块大致可分以下为四个阶段。
二代特征挖掘借助遗传规划、神经网络等机器学习技术实现特征的自动挖掘,在高频量价领域机器挖掘特征具有天然的优势,标准化的数据使得挖掘算法能够突破人类思维局限性,挖掘出人脑难以构建的特征,然而特征自动挖掘技术也存在四个难点:生成因子的过拟合(样本外存活率过低)问题、生成因子的高线性、相因关子问非题线性问题以及因子生命周期不确定问题。如何解决上述四个问题是区分特征自动挖掘技术优劣的关键。
前两代特征挖掘以寻找对股票收益具有线性解释力的特征为主,而当市场.主流特征组合建模从线性模型转为非线性模型时,特征挖掘不再局限于线性因,企业性质、上市时长等非线性特征也成为了有用的增量信息。,此类特征单一预测能力远弱于前两代特征,但是数量巨大,通过特征组合建模,此类特征得以聚沙成塔,也能够形成有效的收益预测。
近年来,在量化策略趋同的背景下,某些量化私募主动转型开始第四代以另类数据为核心的特征挖掘,从非标数据中寻找企业基本面变化的代理变量。
总结来说,特征挖掘整体呈现在频率上由低到高、广度上由宽到窄、深度上由浅入深的发展趋势。
3.2特征组合
传统量化模型以低频线性因子为主,因而初代特征组合采用线性回归或者等权的方式,作为白箱模型,线性回归操作简单,易于理解,预测效果稳健,因而线性回归目前仍是以基本面因子为主或擅长低频交易的量化私募喜爱采用的特征组合方式。
伴随高频量价数据的广泛应用,第二代特征组合方式为以表的机器学习算法。XGBoost最早由2014年3月陈天奇博士提出,是目前最为成功的树形算法之一,号称“数据科学比赛夺冠的必备大杀器”,横扫机器学习竞赛罕逢敌手。因为量价因子常常存在“余弦形”预测能力,所以量价模型更适合非线性组合方式,在众多机器学习算法中,XGBoost算法同样在金融数据上大放异彩,其收益预测表现不仅超越线性回归,且显著优于传统机器学习算法。
集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。三代使用集成学习进行特征组合主要有两方面的原,CatBoost、,在数据类型多元化的背景下,集成学习可以避免单一算法的不足,将线性模型与非线性模型融为一体。集成学习技术包括统一融合、线性融合以及堆融合三种模型融合方式。统一融合使用平均法。这种方式的优点是一般泛化能力会得到加强,但是只能保证比那些模型中最差的模型要好,无法保证最终模型比原有最佳模型要好的模型;线性融合和堆融合都是二次学习技术,线性融合使用线性模型将第一步中学习到的学习器组合起来,而堆融合使用其它非线性模型进行二次学习。通过二次学习,算法得到的收益率预测结果成为新的特征重新进入特征挖掘模块,在合理使用下可有效提升模型性能。
组合优化的意义在于平衡组合的收益和风险,给出风险调整后收益最大化的资产配置方案。组合优化可细分为完成股票协方差的估计、组合优化建模以及风险敞口管理三大部分。
在股票协方差估计上,BARRA结构化风险模型为目前最为流行的做法,其他模型包括优化风险被低估问题的AlphaAlignmentFactorApproach、简单易用的ShrinkageEstimator等。
在风险敞口管理上,在风格切换加速的背景下,整体私募敞口控制趋严,增大了控制风格的数量和程度,与此同时,随着量化私募管理规模的扩大,基于因子拥挤度、因子估值等的因子敞口控制策略开始流行。
组合优化建模方面,常规组合优化建模采用马科维茨的均值-方差模型,由特征组合给出预期收益,BARRA等风险模型确定风险矩阵,但均值-方差模型给出的最优权重对收益和风险的估计过于敏感,传统算法只能简单粗暴地通过加入个股权重上限来缓解参数敏感问题。二代组合优化为稳健组合优化,进一步增强了优化结果的稳健性。稳健组合优化通常有两种做法,一是使用各类技术降低预测估计的标准误,包括Shrinkage、RobustStatistics、Black-LittermanInverseOptimisation以及BayesianOptimisation等;二是在最优化目标中加入预测误差的惩罚项,实践中,二代组合优化会同时应用上述几类技术,尽可能多得将投资中所面临的各类信息融入组合优化,例如交易成本、冲击成本、主观观点以及流动性等因素。二代稳健优化最大的弊端在于模型过于理想化,无论如何改进组合优化模型,最优化问题仍是现实投资问题的简化,现实中的许多信息无法纳入量化体系,因而新一代组合优化更加务实,将股票权重分配问题的决策转换为战略和战术两层。战略层由次优组合优化算法生成能够提供最大化风险调整后收益的备选组合配置方案组和参考最优组合,战术层基于非定量信息在备选方案中挑选最优配置方案。
第一代算法基于历史交易模式,使用历史交易记录对现在的交易进行指导。基本目标是冲击成本最小化及贴近市场成交均价,几乎没有考虑机会成本和成交风险。代表性的算法有VWAP策略、TWAP策略、VP策略等等。第一代算法为算法交易的发展打下了深厚的基础,当下许多算法模型的基础为了更好地适应市场环境,静态方法逐步向动态方法改进,向机会导向算法倾斜,力图寻求相比VWAP、TWAP更好的价格。
第三代算法在第二代算法的基础上,朝着深度和广度两个方向同时发展,开始着眼于算法对多资产之间的相互影响和平台的建立。第三代算法的特点是从单只股票到多股票组合,同时搜寻隐藏流动性(HiddenLiquidity)获得Alpha。此外,一些投资机构开发了具有特殊目标的算法策略,开发出了最优隐藏流动性算法和相应的搜寻隐藏流动性算法。第三代算法的代表算法有搜寻隐藏流动性(HiddenLiquidity)算法、游击战(Guerrilla)、
侦察员(Scout)等算法。主要是帮助寻找市场中的潜在流动性并加以执行。如果说前两代算法还是在已知的市场信息中寻求机会提高执行效率的话,第三代算法则是探索未知的市场信息并寻找潜在机会。
目前主流量化私募基本采用了不做市场择时、不主动风格择时、超分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架。因此,量化私募筛选需了解更多投资细节,包括量化投资流派、团队合作模式、策略研究能力和投资执行力。