MetaStar | 专访MetaDeep研究员:ML/DL在量化对冲基金中的角色
前章
J同学,清华姚班CS背景,后赴美国加州伯克利分校攻读CS方向的PHD,毕业后加入乾象投资,投入到了量化策略研究中,主要负责模型生成、信号收集。不同于大部分应届毕业生的迷茫,基于其个人早期对机器学习在量化研究中的应用,J同学在选择乾象投资时,更多了份从容。
探路者
Metabit Trading:最近几年AI(Artificial Intelligence)、ML(Machine Learning)、DL(Deep Learning) 常常被引用在很多领域,你可以和我们分享一下你对其的见解,以及它们之间的关系吗?
J同学:所有用机器去做决策、指导的过程都可以是AI,但我们现在提到的AI会和DL关系更大一些。从学术界的定义,所有从数据中学习,再应用到未来未知的数据上的东西,都是ML。在我司的话,所有不涉及到DL的都归类为ML。DL指深度学习,这里深度的含义一般指使用参数量比较大的神经网络进行建模。深度神经网络最早在图像识别任务中表现出很强的能力,现在被广泛地应用在图像、视频、自然语言等各种数据相关的任务中,甚至像是AlphaGo和AlphaFold,涉及了围棋和医药这种领域。
Metabit Trading:据你了解到的,学术界对于 ML/DL 的期待值是什么?
J同学:我举两个学术界关注,同时与金融相关的深度学习难题的例子。第一是可解释性,举个例子:一个传统的ML模型相对来说更容易被解释,但在DL中却很难具体说清楚为什么模型做出了某个决策,因为它只是经过了一系列复杂的数学运算,最终得到了这个结果,研究者一直希望让DL能够更加具备可解释性。
第二是鲁棒性(robustness),也就是不稳定性,用图像举个例子——比如说你看一个图像,人判断它是一个大熊猫,但是我可以生成另一张人仍然认为是大熊猫的图像,但是DL就不认为它是大熊猫,它认为这张图可以是任何东西。这就体现出DL在处理一些未知的数据上,它的表现并不稳定。尤其是在瞬息万变的金融市场,如何才能让我们的模型在未来的不确定性中更具稳定性呢?
据我所知,目前公认DL应用较为成熟的是在图像、声音等领域,但在金融领域却很匮乏,因其很容易过拟合(overfitting)。毕竟有相当一部分人认为,单纯从历史数据中学习无法确保在未来能够持续盈利,认为必须有经济学理论的支撑才可以。举个异常值(outlier)的例子,经济危机在历史上一共才出现过几次,经济危机期间的金融数据的特性与分布就和非金融危机期间的数据完全不同,如果在DL算法中我们一视同仁的话,会产生一些过拟合的问题。但是,DL在极端数据的处理上也并非完全无研究之地,比如说自动驾驶,车祸数据很少,就可以算是极端数据,但其实该领域最需要处理的就是出车祸时的情况,学术界其实也在做一些这方面的尝试和研究。
从长期来看,我们希望能够真正地实现人工智能,例如,最近大火的stable diffusion类模型,开始尝试通过AI产生艺术创作。在更加遥远的未来,我们也可以展望到人工智能可以通过图灵检测的那一天,让人无法辨别到底是人还是机器,和人类实现等效的沟通。
践行者
Metabit Trading:Metabit Trading 作为一家量化私募基金,是如何将ML/DL应用在金融数据上的?
J同学:关于quant trading,它其实分为5个步骤,分别是Data Pre-processing、Representation Learning、Modelling、Portfolio Optimisation、Execution。目前我司运用ML/DL最广的是Modelling部分,也就是如何从过去的数据中提取有用的信号。
Metabit Trading:我听说全公司的researcher都离不开机器学习,那你现在主要负责的工作内容有哪些呢?
J同学:没错,我们公司在ML以及DL上的应用在业界是相对比较前沿的,这也是我PHD毕业后选择来这家公司的原因。
在刚才我提到的5个步骤里面,我负责Modelling部分。具体来说,就是从历史数据中去学习一些数据中隐含的信号,通过一些复杂的线性或非线性模型去将很多input放进模型,得到被我们称为trading signal的交易信号——比如说预测一个instrument在未来时刻的价格涨跌,听上去有点潘多拉魔盒那味道hhh。我们把这部分工作单独拎出来作为一个项目,叫做MetaDeep。这部分的做法多种多样,可以像多因子模型一样用linear model,可以用一些传统的machine learning model,也可以用一些更“fancy”的deep learning,目的都是为了做出一个predictive signal。
但是,从历史中学习容易出现过拟合的问题。关于这块,我们一直在通过一些新的方法,去加强我们模型泛化的效果,这个问题并非不能优化。
Metabit Trading:Metadeep作为策略Modelling的一环,具体在做什么样的工作内容呢?
J同学:Metabit Trading既然作为一家AI-powered company,那么在策略建模的重要一环就是,如何有效利用AI/ML/DL的一些模型与技巧,来提升公司的技术壁垒。Modelling是一个相对独立、并且核心的模块,用ML和DL的方法去研究它可以获得更高的投入产出比。而我们Metadeep team平时的目标,就是结合传统的ML以及新型的DL方法,去利用数量庞大的金融数据对于市场未来的走向进行预测。
那么传统ML和DL对于量化金融领域有什么区别呢?其实,在大多数数据科学的领域,DL其实都优于ML的能力。原因就在于,DL是一个表征能力更强的模型,它跳出了简单可解释性的范畴,提取数据背后隐藏的pattern能力更强大。同时,基于此类这种高度非线性模型强大的表达能力,我们甚至可以把feature的提取、以及后面执行优化等多方面研究内容融合在一起,形成在金融市场上有良好能力的决策机器。
就目前的金融市场而言,我们做DL这一块可以说是比较前沿的。我们会研读并使用一些业界最新的算法与模型;同时,在此基础上利用金融数据的特性进行一些原创性的研究。同时,涉及DL领域的人才招募难度也显著大于其他岗位,这个岗位的人会需要有DL的经验以及熟悉解决这类问题的insight。未来我们会持续欢迎合适的人才加入我们,一同探索DL在金融领域的应用。
开拓者
Metabit Trading:量化研究的确是路漫漫其修远兮,那你觉得ML/DL未来在量化私募领域还有哪些值得探索的方向?
J同学:目前我们公司在做的事情分以下几类:
我们希望把一些更前沿的Deep Learning模型和方法,应用在金融数据上。近年来,Deep Learning的突破很多,比如NLP领域的Transformer、图像领域的Diffusion Model、和图神经网络GNN,都是很有影响力的突破;我们希望在金融数据中能够紧跟前沿,利用这些创新的想法提升我们策略的表现。这不仅仅是机械地搬运,而是需要因地制宜,将这些技术背后的思想与金融数据的独特挑战结合起来。
前面说了量化策略的5个环节,MetaDeep目前属于Modelling环节,但是我们希望能够在上游的alpha环节、下游的optimization环节,都更加成熟地应用深度学习技术,最终构建一个基于深度学习的从数据到交易执行的完整链路。
利用DL来丰富我们的数据来源。目前我们使用的数据,量价的交易数据是大头输入,但其实还有很多其他方面的数据可以被运用,比如另类数据(舆情数据、不同企业的上下游关系、供应链的关系/以及他们之间的相关性等等)就是很值得被挖掘的内容。
Metabit Trading: 随着国际量化对冲基金进军中国市场,你怎么看待量化行业未来的发展?
J同学:我觉得这是未来必然的趋势。全球无论哪个国家,如果想要开放便一定会有来自各国顶级机构之间的互相博弈,我们目前也已经在外盘有了丰富的经验和不错的战绩,从技术实力上看,我们公司并没有落后华尔街太多。
并且,或许在超高频(尤其是微秒级、分钟级)上各个量化对冲基金的较量会是零和游戏,但除了超高频之外,依然有大量的机会留给各类机构。
彩蛋
Metabit Trading:那我们今天的访谈就结束啦,你还有什么想和大家分享的吗?
J同学:我们给MetaDeep目前实盘交易的策略起名为Tusk,来源于Dota2游戏中巨牙海民的名字。我们公司有很多Dota2爱好者,所以我们选择以英雄的名字来命名我们的模型。选择巨牙海民,则是因为他的绝招可以把敌人击到空中,我们希望我们的模型可以把收益曲线带飞;另外巨牙海民还有一个滚雪球的技能,寓意我们的模型可以让公司的收益越滚越大。

We are researchers & engineers.