清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

一、词的表示方式

数据的表示是机器学习的核心问题。在语音识别中,可以把音频的频谱序列向量所构成的matrix矩阵作为输入,在图像识别中,可以把图片像素构成的矩阵作为输入。而在自然语言处理中,我们也希望可以将每一个词用一个向量表示出来。文字和图像、语音的区别在于,图像、语音属于比较自然的低级数据表示形式,我们想判断两个信号是否相似,可以通过一些距离度量来进行判断。但是语言作为一种高层的抽象工具,只要两个词的字面不同,就难以刻画它们之间的联系。

最经典的词的表示方法就是,将每个词表示为一个很长的向量。这个向量的维度是词表的大小,其中绝大多数元素为0,只有一个维度为1的值,这个维度就代表了当前的词。这种简洁的表示方法配合上最大熵、SVM、CRF等算法已经很好地完成了NLP领域的各种主流任务。

二、PLSA主题模型

主题模型可以将每篇文档的主题以概率分布的形式给出,通过分析一些文档抽取出他们的主题后,便可以根据主题进行主题聚类或文本分类。

主题模型是一种典型的词袋模型,就是我们有一个前提的假设是一篇文章是由一组词构成的,词和词之间没有先后的顺序关系。也就是说一篇文章如果将所有词打乱顺序再重组,和原来的文章可以认为是等价的。并且,一篇文章可以包含多个主题,文档中每一个词都是由其中的一个主题生成的。

频率学派认为一篇文章是这样生成的,我们有两种骰子,一类是由文档生成主题的色子,每个色子有K个面,每个面代表了一个主题。还有一类是由主题生成单词的色子,每个色子有V个面,每个面代表了一个词。由主题生成单词的色子有K个,编号从1-K。在生成一个文档之前,我们先制造了一个特定由文档生成主题的色子。在重复如下步骤:投掷文档生成主题的色子,得到编号Z,选择K个主题生成单词的色子中编号为z的那个,投掷后,得
到一个单词。

那么一篇文章中出现某个单词的概率就可以求得:


一篇文章中出现这种给定的单词组合的概率就是:

这是频率学派的PLSA模型,这个模型的参数可以通过EM算法进行估计。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

评论


发表评论
您的评论提交后会进行审核,审核通过的留言会展示在上方留言区域,请耐心等待。
猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。