清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

跨领域深度学习模型一直是近几年推荐系统主要研究方向之一, 本文探讨一种个人客户画像构建的新思路, 并讨论对应的基于个人行为事件的跨领域统一推荐模型。

一、基于个人客户画像推荐

为方便读者理解,摘抄部分前文[2]内容。目前业界的个人画像主要在机构内部数据结合外部数据基础上构建。如对原始数据进行特征提取,得到如下客户特征:

图一 (来源[2])

在实施过程中可以为个人客户画像中每个人打上几千个各类标签。再结合具体的推荐场景如股票购买概率预测模型[3]中特征要求,应用于具体推荐模型中。实践中一般还使用特征选择模型来决定哪些特征适用具体场景。并且由于很多关键属性缺失,还需要一些数据挖掘模型用于特征推断,比方逻辑回归,决策树,标签传递等。

二、特征体系能完全标记人的行为吗?

什么是特征,“那个被选作确切的同一性和差异性之场所的结构,就是被称作特性”。特征是为了差异更是为了相似性,福柯认为相似性与特征(符号)是必然联系,因为相似性是建立在对这些特征(符号)的记录和辨认上。而且他一直强调相似性的重要:“直到16世纪末,相似性在西方文化知识中一直起着创建者的作用。”“产生于特殊事件的一般归纳,或者不如说科学的种类、逻辑和所有抽象观念,都是借助相似性而形成。”[1] 同样,相似性在模式识别、分类、监督学习、非监督学习等机器学习概念中的有着同样的重要性。

进一步而言,特征体系是系统研究相似性,标识个体与分类的合理的、必然的途径。福柯对体系的定义是“选择一组确定的和相对有限的特征,其恒定和变换能在任何自身呈现的个体中得到研究” [1],他在认可这一途径的同时也指出该方法的不足。书中举了个例子:“中国某部百科全书中动物可以划分为:1属皇帝所有,2有芬芳的香味,3驯顺的,4乳猪,5鳗螈,6传说中的,7自由走动的狗。。。”他在惊叹如此分类的想象力的同时也指出“体系在展开过程中是任意的” ,“有可能把方法凭经验而限定的从外部强加的修正应用于一般特性:被人们认为对一个种群来说重要的一个特征,很可能只是另一些动物的特殊性” [1]。让我们回顾上一部分中客户特征分类以及特征,似乎还比较合乎常理,但似乎也有些随意。前文[2]也试图从行为金融学相关观点应用于个人金融画像特征提取,但不足以根本解决这个问题。

福柯大师也意识到“特征的确立,既是容易的,又是困难的。”,“为了确立起所有的同一与差异,将有必要考虑在一个描述中可能被提及的每一个特征。这是一毫无止境的任务。” 而且他还意识到特征“都是在相互联系,相互混合并且或许能相互转换” [1]。现在,我们非常容易理解这些特征之间的这种关系。认为基因和特征存在映射关系的话,在遗传算法中,会通过一系列的遗传算子来确认后代,包括交叉算子、变异算子这些都可以导致基因相互联系与转换,从而导致特征同样变化。

而且人的行为更是动态的,情景的,那可想而知构建合理的特征体系作为客户画像的难度。那我们是不是可以试试其他途径呢?

三、基于个人行为事件的客户画像

“每个插曲,每一个决心,每一种不合时宜的行动,都象征着唐吉坷德。”[1]

如果塞万提斯不是用那么一部伟大的长篇巨著描写唐吉坷德的种种境遇,而是用一堆特征来标记。哪怕他是塞万提斯,哪怕他用8888个特征标记唐吉坷德,难道我们能比现在更感受到那样的一个唐吉坷德吗?如果要YY一部《唐吉坷德在异界》,难道不是原著中那些事件的描述比8888个特征更能预测唐吉坷德骑士在异界中的种种行为吗?

接下来让我们试着忘记特征体系,是否可以尝试只通过那些在时间轴上,在特定场景下的总总事件来构建客户画像呢?

假设已合法的收集个人行为数据。一行样本数据包括,客户编号,事件类型,该类事件环境,事件行为的描述(还是可能需要用特征标识)等。那么我们将得到如下数据。

四、跨领域统一推荐模型

接下来,探讨基于个人行为事件的客户画像构建跨领域统一推荐模型。我们假设这些事件是独立,正样本是历史上不同客户在各领域已发生事件。考虑到数据的时间特性,应该选择RNN模型。但进一步考虑到长期历史行为对个人行为的影响,最终决定使用LSTM(Long-Short Term Memory)模型。以天为时间周期,每周期训练数据为指定日期的客户行为事件数据。通过LSTM模型,预测未来客户发生指定事件的概率。

该框架不同于以往跨领域深度学习模型中样本数据,不再基于客户特征画像体系,而是用事件轴上的系列事件标记客户,使用深度学习LSTM模型预测客户当前事件发生概率。

五、总结

本文借以福柯《词与物》中立场讨论了个人客户画像特征体系构建中的问题,充分认识到构建完善客户画像体系的复杂性。并从书中得到启发,探讨不基于特征体系描述客户,而是用时间轴上的系列事件标记客户,并通过深度学习LSTM模型预测事件发生概率。提出一种跨领域统一推荐模型新思路。事件的颗粒度,以及如何将环境数据特征放到模型里,事件之间相关性等问题都有待进一步研究,欢迎探讨。

仿佛在做着《少数派报告》中的事。放心,这只是推荐模型而已。而且就像电影中结局,人的行为是种选择,一念天堂,一念地狱,人心当然不可测。

参考文献:

[1] 米歇尔·福柯, 莫伟民 译.词与物 [M].上海三联书店. 2002.

[2] 袁峻峰. 人格量化-个人金融画像探索 [OL]. 蚂蚁金服评论. 2016-03-07.

[3] 袁峻峰. 大数据下客户金融产品购买概率预测 [OL]. 大数据文摘,量化派 等(公众号). 2016-02-19.

本文版权属于袁峻峰,仅代表个人观点。感谢同事王剑对文中深度学习模型的建议与帮助。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

本文版权归原作者所有,如有侵权,请联系删除。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。