“机器学习正在彻底改我们的生活的方方面面……在不久的将来,机器学习将引领金融界。”作者马科斯·洛佩斯·德普拉多(Marcos López de Prado)在《金融机器学习》(中信出版社,2021年5月第1版)的开篇就直接表达了自己写作此书的动机,一是想跨越学术界与产业界的鸿沟,二是想让金融服务于某个目标,三是让投资者理解机器学习在金融应用中的复杂性。
当然,作者同样承认正处于发展时期的机器学习在金融领域的应用失败率很高,他将之称为“西西弗斯范式”;为此推荐了需要数据管理员、特征分析师、策略研究员、回测员与投资组合监督进行组织协作的“元策略范式”。
关于数据线采样
标准线的构线方法在金融业中最为常见,而对于决策更有实际意义的可能是信息驱动线,即在某个新信息进入市场时进行更频繁的数据采样,这样才能让获取的数据“沾染”上新信息的影响。金融野叔猜想,如果投资者将标准线与信息驱动线“双线”建模后预测的内容对比再进行决策,可能更为合理。
在信息驱动线方法中相对最为复杂的是成交量/美元运行线,就是包含了新信息进入后的时间、价格、成交量、预期与成交概率等多重因素,且有相对复杂的关系。
由此可见,尽管作者说“金融学术领域可能有计量经济学的方法足矣(就当前发展而言),但是金融实务领域则需要机器学习”;不过金融野叔感觉,即使目前的金融学术研究还是应当考虑引入信息驱动线的方法来选取分析数据,在运用基础数据的同时引入市场数据和另类数据。而且越是让研究者“困扰”的数据集,可能越有用,就像作者所说“难以储存、控制和操作的数据才是最的价值的”。
关于模型集成方法
马科斯·洛佩斯·德普拉多非常自信地说,目前金融领域对于k折交叉验证方法的大部分应用,几乎可以是肯定是错误的;他的理由一是无法服从观测值来源于IID(独立同分布)过程的假设,二是在建模过程中测试集已经被多次使用,导致多重检验和选择偏差。
因此,相关数据需要“清洗”和“禁止”。其中,数据清洗(Data cleaning)是指对数据进行重新审查和校验的过程,目的是删除重复的信息、纠正存在的错误、补齐相关的遗漏,并且提供数据一致性。数据禁止则是指对于经过数据清洗后仍然无法防止所有信息泄露时,可以在每次测试后对训练观测结果进行“切除”。
其实在金融学术研究中,专家们同样会遇到残缺数据、错误数据和重复数据,而且可能还非常多;重复数据相对容易清洗,残缺数据也可能通过一定方法进行估测,最麻烦可能就是“被错误”的权威数据。
关于回测的风险
完美的回测是不可能的任务,这是德普拉多的一个观点,而且他说自己在过去20年里所阅读的学术期刊中大多数回测都有缺陷(此书语言风格很牛)。书中引用了德意志银行尹罗及其团队的研究成果《量化投资七宗罪》来证明自己的话,即下面七种造成回测错误确实值得所有研究人员和实务人员予以重视。
一是生存偏见,即只观测到研究时存在的公司,而看不到破产的;二是预见性偏差,即使用了尚未公开的数据进行模拟;三是讲故事,即事后编写一个案例来证明某些随机模式;四是数据挖掘与数据窥探,即在测试集上训练模型;五是交易成本模拟;六是异常值,即根据过去观察到而可能不会再发生的极端结果制定策略;七是在现金产品上做空头寸(需要不确定的贷款予以支持)。
马科斯·德普拉多反复强调说:回测不是研究工具,不要在回测的影响下进行研究。同时,他提出了六项方法以防止过拟合(Overfitting)问题。一是为整个资产类别开发模型,而不是某个特定资产。二是通过装袋算法(Bagging)减少预测误差的方差。三是在完成所有研究前,不要进行回测。四是记录对数据集进行的每次回测,以便可以根据最终选定的结果估算回测的过拟合概率。五是模拟场景而不是历史回放。六是如果回测无法确定盈利策略,那就请你从头开始再做。
野叔的结语
老实地说,对于数学基础不好的金融野叔来说,阅读《金融机器学习》是一件很烧脑的事情。何况作者在分析“目标读者”时早就 “警告”过:本书的核心读者是具有深厚机器学习背景的专业投资人士,如果没有接触机器学习且没有复杂算法使用经验,那本书可能并不适合你。果然是牛人出牛书。
人工智能时代已经开启,看来金融野叔需要回头再捡起大学里学过的微积分、线性代数、概率论与统计,然后了解一点python知识,再来好好读这本《金融机器学习》。而已有上述相关基础的同学,就可以直接阅读这本新书了。(稿源:金融野叔 责任编辑:宿波)
Copyright © 2007-2025 www.nmgxjr.org.cn Inc. All rights reserved.
内蒙古新金融研究院 版权所有
内蒙古新金融研究院 中国网通集团提供宽带支持
中华人民共和国电信与信息服务经营许可证 蒙ICP备18004368号-1
营业执照 技术支持:微邦网络
蒙公网安备 15010302000322号