专注金融科技与创新

专注金融科技与创新
专栏国内资讯金融信息服务

文本聚类模型及其应用(上)

专栏国内资讯金融信息服务

文本聚类模型及其应用(上)

本文共872字,预计阅读时间17

一、词的表示方式

数据的表示是机器学习的核心问题。在语音识别中,可以把音频的频谱序列向量所构成的matrix矩阵作为输入,在图像识别中,可以把图片像素构成的矩阵作为输入。而在自然语言处理中,我们也希望可以将每一个词用一个向量表示出来。文字和图像、语音的区别在于,图像、语音属于比较自然的低级数据表示形式,我们想判断两个信号是否相似,可以通过一些距离度量来进行判断。但是语言作为一种高层的抽象工具,只要两个词的字面不同,就难以刻画它们之间的联系。

最经典的词的表示方法就是,将每个词表示为一个很长的向量。这个向量的维度是词表的大小,其中绝大多数元素为0,只有一个维度为1的值,这个维度就代表了当前的词。这种简洁的表示方法配合上最大熵、SVM、CRF等算法已经很好地完成了NLP领域的各种主流任务。

二、PLSA主题模型

主题模型可以将每篇文档的主题以概率分布的形式给出,通过分析一些文档抽取出他们的主题后,便可以根据主题进行主题聚类或文本分类。

主题模型是一种典型的词袋模型,就是我们有一个前提的假设是一篇文章是由一组词构成的,词和词之间没有先后的顺序关系。也就是说一篇文章如果将所有词打乱顺序再重组,和原来的文章可以认为是等价的。并且,一篇文章可以包含多个主题,文档中每一个词都是由其中的一个主题生成的。

频率学派认为一篇文章是这样生成的,我们有两种骰子,一类是由文档生成主题的色子,每个色子有K个面,每个面代表了一个主题。还有一类是由主题生成单词的色子,每个色子有V个面,每个面代表了一个词。由主题生成单词的色子有K个,编号从1-K。在生成一个文档之前,我们先制造了一个特定由文档生成主题的色子。在重复如下步骤:投掷文档生成主题的色子,得到编号Z,选择K个主题生成单词的色子中编号为z的那个,投掷后,得
到一个单词。

那么一篇文章中出现某个单词的概率就可以求得:


一篇文章中出现这种给定的单词组合的概率就是:

这是频率学派的PLSA模型,这个模型的参数可以通过EM算法进行估计。

本文系未央网专栏作者天机风控发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!

用微信扫描可以分享至好友和朋友圈

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。

发表评论

发表评论

您的评论提交后会进行审核,审核通过的留言会展示在下方留言区域,请耐心等待。

评论

您的个人信息不会被公开,请放心填写! 标记为的是必填项

取消

天机风控

11
总文章数

天机专业一站式风控服务平台,多年来持续深耕金融科技领域,沉...

金融科技如何助力“掘金”存量用户?

天机风控 08-19

金融反欺诈如何做到“道高一丈”?

天机风控 07-15

SVM简述及在风控建模中的应用

天机风控 06-29

全球四大顶尖投资机构:如何寻找下一个科技行业十倍股?

国泰君安证... 05-09

机器学习在反洗钱领域的应用与发展

清华金融评论 04-17

版权所有 © 清华大学五道口金融学院互联网金融实验室 | 京ICP备17044750号-1