投资版AlphaGo系统探讨

扫描分享

本文共字，预计阅读时间。

在AlphaGo战胜人类围棋顶尖高手之际，本文简单探讨了投资AlphaGo系统模块与训练数据以及可行性。并将其实现逻辑与郝伯特·西蒙过程理性算法比较。文章最后讨论了如何应用投资AlphaGo系统为人类服务。

细想一下，围棋和投资有很多类似的地方，围棋是在和对手博弈，投资可看作是在和市场博弈。围棋是在19*19的棋盘上选择，如果是国内A股市场，那投资组合是在2800多只股票上做选择。围棋胜负在于最终盘面优势，投资则在意周期最终收益。

图1（Google提供）

所以可以假设：

· 在股票市场，每天调整持仓为一次行动，该行动是个人根据股票特征，市场特征的环境下作出的决策。以一年为期限，一个样本大约是250周期，期末统计相关指标。

· 目标：正样本为年化收益率，收益波动率，最大回撤，夏普率，胜率等综合指标较优样本，为胜。反之为负样本，为负。

假设我们已有合适与金融领域的AlphaGo系统，主要模块参考田渊栋博士的描述^[6]：

1. 策略网络（Policy Network），给定当前头寸与市场条件，预测下一步的持仓策略集合。

2. 估值网络（Value Network），给定当前头寸与市场条件，预测该持仓策略胜负。

3. 蒙特卡罗树搜索（Monte Carlo Tree Search，MCTS)，博弈选择搜索，结合以上两模型决定下一步持仓策略。

对比下郝伯特·西蒙过程理性算法描述^{[2] [8]}:

第一步，行为主体设想自己的可选方案集合，

第二步，设想可选方案集合的可能后果集合。

第三步、第四步，评估可能后果集合的概率，并因为局部有序法则，可量化满意度既回报值。

第五步，从可能后果集合中，根据预期目标，选择满意的可能后果集合子集。

第六步，从可选方案集合中选择满意的可能后果集合子集对应的方案。

可以发现AlphaGo系统逻辑和郝伯特·西蒙过程理性算法基本上是一致的。

接下来，我们来讨论样本数据，假设我们能不受限的的得到需要的数据。

基础数据包括，个人客户历史持仓，股票历史截面数据，市场历史截面数据，具体数据描述请参见文章^[7]，关于样本集的选取，我认为有个关键问题，是选用全部客户的交易记录，还是选用专业投资人以及投资高手的交易记录。田渊栋博士也说“没有千年来众多棋手在围棋上的积累，就没有围棋AI的今天。”^[6]根据其描述，棋手应该是段位以上围棋专业棋手。所以我认为也应该选取专业投资人的交易记录。

关于策略网络（Policy Network），本人还没找到相关训练样本数据描述。由于其是深度强化学习网络（Deep Reinforcement Learning Network），根据以前看到的高频交易强化学习案例，初步设想是将每日持仓变化作为行动，关联股票和市场数据作为状态，回报函数是收益等统计值，学习目标是函数是当期是否为之前描述的正样本。欢迎讨论。

估值网络（Value Network）训练样本，即是用于对深度卷积神经网络DCNN训练。田渊栋博士对样本数据的描述是“每一盘棋只取一个样本来训练以避免过拟合，不然对同一对局而言输入稍有不同而输出都相同，对训练是非常不利的。这就是为什么需要三千万局，而非三千万个盘面的原因。”^[6]由于每人每一年交易行为样本对应一盘棋，同样只随机取其中一天持仓以及关联股票和市场数据作为训练数据，让估值网络预测最终胜负以训练深度卷积神经网络。“需要三千万局自我对局”^[6]那意味着3000万次系统回朔测试Back Test，以优化估值网络。

至此，我们就得到战无不胜的投资版AlphaGo系统。田渊栋博士文章中还说到“他们完全没有做任何局部死活/对杀分析，纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络（DCNN）有自动将问题分解成子问题，并分别解决的能力。”^[6]既是说虽然AlphaGo系统训练过程中使用了大量棋手对局样本，但也就止于此，并没有其他围棋领域知识。

这点着实让人可恼，我们之前利用计算机都是我们提供数据结构和算法，计算机执行。后来软件设计发展到面向对象，也是为了更好的和领域知识相对应。但现在，只要我们提供数据与规则目标，计算机已经可以在围棋这样需要直觉的人类游戏中胜出了。正如图灵奖得主吉姆·格雷留给世人的最后一次演讲《科学方法的革命》中说： “随着数据的爆炸性增长，计算机将不仅仅能做模拟仿真，还能进行分析总结，得到理论。数据密集范式理应从第三范式中分离出来，成为一个独特的科学研究范式。”即第四范式。虽然现在AlphaGo系统做的还是人类算法的模拟仿真。

但想想也不用太担心，围棋的规则是固定的，但金融的规则可不是固定的。正如伊曼纽尔·德曼教授所说“物理是与上帝较量，上帝不会经常改变规则，金融却是与上帝创造的人较量”^[4]。还好我们还有杀手锏，如熔断机制，很轻松就可以碾压AlphaGo系统，让其做的所有训练无效。另外如何界定数据边界，信息收集成本等问题，都可以让我们不用太担心投资版AlphaGo系统。

最后，我们来探讨如何更好的使用AlphaGo系统为人类服务。李喆六段在评价李世石两盘棋说：“AlphaGo给出选点的思维方式与人类不同，但我们却可以用人类的方式去理解它，这是一件多么美妙的事情。”^[9] 虽然神经网络和强化学习的结果不易人类理解，但这不正合了禅宗的“第一义则不可说”，以及老子说的“道可道，非常道”，围棋作为充满了哲学的智力游戏，能如此学习自是美妙。

回顾下金融个性化推荐中股票购买概率预测模型的“基本假设：客户每日的持仓，是基于当时金融市场情景以及股票属性作出决策的独立事件。”^[7]这些决策都是理性决策吗？答案当然是否定的。希勒教授说过“设计新型风险管理基础架构的第一步就是充分认识人类在决策过程中意志薄弱的天性”^[5]。例如实验证明“收益增量带来的快乐强度大约在增量的0.5-1倍之间，而因损失增量而产生的痛苦大约是增量的2.5 倍。”^[2] AlphaGo系统当然是理性的，没有情感的，但人如何利用其增加自身决策中的理性呢？斯宾诺莎说过“只要心灵理解一切事物都是必然的，那么它控制情感的力量便越大”。^[3]借助投资版AlphaGo系统的分析可以帮助人们更加理性的决策。如何利用机器学习辅助人类更加理性的决策将是值得长期探索的问题。

参考文献：

[1] 汪丁丁．行为金融学基本问题[J]．财经问题研究.2010,7 .

[2] 汪丁丁. 行为经济学要义[M]. 世纪文景,上海人民出版社.2015,10.

[3] 斯宾诺莎. 伦理学[M]. 商务印书馆.1998,01 .

[4] 伊曼纽尔·德曼. 失灵[M]. 中信出版社.2013,10.

[5] 罗伯特·希勒. 新金融秩序[M].中信出版社.2013,11.

[6] 田渊栋. AlphaGo的分析[OL].知乎专栏文章.2016-02-29.

[7] 袁峻峰. 大数据下客户金融产品购买概率预测[OL].大数据文摘,量化派等(公众号). 2016-02-19.

[8] 郝伯特·西蒙. 现代决策理论的基石[M]. 北京经济学院出版社.1989.

[9] 李喆. 这两盘棋没人会比李世石做得更好！[OL] . 喆理围棋 (公众号). 2016-03-11.