扫描分享
本文共字,预计阅读时间。
长期以来,人们一直认为创新对经济增长和短期波动都起着重要作用。正是由于其显著的重要性,创新引起了极大的学术关注。然而,现存关于创新的经验理解是不完整的,因为现有的创新测度(尤其是与研发强度(R&D)或与专利有关的测度指标)不能完全捕获创新产出的性质和范围。
根据经典的创新理论,创新可以反映在产品之外的各种公司活动中,包括新的生产方法,新的供应来源,对新市场的开发和新的组织形式。但大多数现有的创新测度是针对依赖研发支出和专利的(例如,高科技或药品)。因此忽略了研究其他形式的创新。
为了帮助弥合这一研究空缺,来自Facebook的Gustaf Bellstam、来自科罗拉多州立大学的Sanjai Bhagat和J. Anthony Cookson,于2020年在管理学国际顶级期刊《Management Science》发表论文“A Text-Based Analysis of Corporate Innovation”。文章提出一种新的衡量公司创新的衡量标准。这一标准包含了广泛的创新流程,产品和系统的概念,这些概念很好地描述了成熟公司的创新。
作者使用标准普尔500家公司的分析师报告的文本开发了一种新的创新度量。这种基于分析师文本的创新测度提供了关于公司创新的有用描述,而无论这些公司是否有R&D投入或是实际专利产出。对于没有专利类创新的公司,该测度方法有效地确定了在运营过程中采用新技术和创新业务实践的创新公司。对于有专利类创新的公司,基于文本的衡量标准与高价值的专利密切相关。
摘要
We develop a new measure of innovation using the text of analyst reports of S&P 500 firms. Our text-based measure gives a useful description of innovation by firms with and without patenting and R&D (research and development). For nonpatenting firms, the measure identifies innovative firms that adopt novel technologies and innovative business practices (e.g., Walmart’s cross-geography logistics). For patenting firms, the text-based measure strongly correlates with valuable patents, which likely capture true innovation. The text-based measure robustly forecasts greater firm performance and growth opportunities for up to four years, and these value implications hold just as strongly for innovative nonpatenting firms.
本文开发了一种新的创新衡量方法,该方法基于标普500企业分析师报告的文本分析。这种基于文本的衡量指标能有效描述企业创新,无论其是否开展专利研发活动。对于非专利型企业,该指标能识别那些采用新技术和创新商业模式的公司(如沃尔玛的跨地域物流体系);对于专利型企业,文本指标与高价值专利显著相关,这类专利更能体现真实创新水平。研究表明,该文本指标能稳健预测企业未来四年内更高的经营绩效和增长机会,且对创新型非专利企业的价值预示作用同样显著。
基于文本的创新测度方法
作者认为,基于文本的创新度量具有一个重要优点,它可以针对不具备专利产出且不进行R&D投入的公司进行计算。即使在文章考虑的样本中(标准普尔500指数的703家公司),329家公司的R&D投入为零,219家公司从未获批专利,该测度依然很好的度量了公司的创新强度。为了达成使用分析师文本测度创新的目标,作者使用隐含狄利克雷分布(后称LDA)分析方法。LDA(Latent Dirichlet Allocation)作为一种无监督主题模型,用于从文档集合中自动发现潜在主题。它假设文档由多个主题混合生成,每个主题是词的概率分布,通过狄利克雷先验和概率生成过程,推断文档-主题和主题-词分布,广泛应用于文本挖掘、信息检索等领域。
具体来说,作者使用针对企业的分析师文本作为基础材料。作者认为分析师文本内容紧密围绕企业价值驱动因素,能够系统性地捕捉专利与研发数据难以覆盖的创新形式(如商业模式优化、供应链升级或组织变革)。而且从技术上,分析师的核心职责是评估企业的长期竞争力,其报告通常包含对技术应用、市场策略及运营改进的定性描述,并遵循行业标准化的术语与表达结构(如“技术迭代”“流程自动化”),这种一致性降低了文本挖掘的噪声干扰。此外,分析师通过行业洞察和前瞻性分析,能够揭示企业未主动披露的创新信息(如通过竞争对手对比或技术趋势预判)。
LDA方法假设每个文档所讨论的话题都是固定主题的混合与搭配,其中每个主题对应单词的一种特殊分布。作为典型的“词袋”方法,LDA并不考虑词汇的出现顺序。研究者只需要指定生成主题的总数,算法则基于文档语料库产生两个输出:(i)每个主题下的单词分布特征;(ii)每个主题下有多少文本。为了构建本文的创新度量,作者使用665714个分析师报告作为基础文档语料库,并设置主题数量为15。为了确定最准确地捕获创新的主题,作者选择与经典的关于创新的文本材料词汇分布距离最小主题作为“创新”主题。随后,LDA算法可以为每一文本提供在15个主题中的“载荷”,以提示文本在不同主题中的讨论强度。最后作者还考虑了情绪在创新描述中的作用。作者仅关注具有相对强烈的积极情绪的分析师报告,即当分析师文本情绪较为消极时,无论其载荷多少,均设置其创新强度为0。
上图是基于分析师文本的创新度量词云图,可以看出本文提出的“创新”词云与往常基于“专利”的词云有一定区别,出现较多的词并非技术类词汇,反而是更多的运营类词语。这说明文章基于分析师文本的创新主题更多捕捉了非专利的、运营层面或管理层面的“创新”。
实证分析
在获取创新测度后,作者使用该指标来评估创新对各种公司绩效措施的影响。具体地,作者使用如下的回归模型:
其中被解释变量是公司未来的绩效指标,文章关心系数image.png的显著性与方向。
文章首先评估基于文本的创新与未来的运营绩效之间的关系。上表中分别以资产回报率、托宾Q值、销售增长率作为被解释变量。估计表明,在所有的回归中,文章提出的创新度量均显著正向与未来绩效相关,这充分说明了基于文本的创新测度捕捉了与运营和管理相关的创新强度,更重要的是,由于控制变量中包含了专利、专利引用 、研发投入等传统创新指标,但这些创新指标的估计系数大多数不显著,方向不统一,这说明传统的基于专利的创新度量方法与运营的关系较弱,其解释力容易被基于文本的创新指标所吸收。
另外,作者还研究了基于文本的创新与公司绩效之间的关系持久性。为此,下图绘制了对未来1-4年绩效回归中基于文本创新的估计系数。
具体而言,上图的(a)和(b)表明,尽管创新对资产收益率和托宾Q回归的估计系数始终显著为正,但是估计系数均会随时间逐渐下降。相比之下,(c)则表明,基于文本的创新与销售增长的增长关系是暂时性的,随着时间推移,基于文本的创新指标与销售的关系不再显著。
最后,作者研究了基于文本的创新度量与创新的其他特征的联系。
上表列出了随后三年内专利数量和每项专利被引用数量的回归结果。文章发现基于文本的创新与未来的专利数量之间的关系是不显著且不统一的。但是,基于文本的创新与平均被引(专利质量)之间存在牢固的正向关系。
上表列出了对专利价值以及专利相关产品的估计结果。作者发现基于文本的创新与专利价值和产品介绍之间存在正相关关系,尽管这种关系对专利价值比产品更显著。总的来说,上述结果表明,即使在利用专利制度来保护其创新的公司中,文章所构建的措施也有助于提供创新质量的宝贵信息。尽管基于文本的创新度量与未来的专利数量并不牢固,但它与高价值专利密切相关,并且与未来专利的被引用数量显著正相关。
结论
本研究通过分析1990-2012年标普500企业的665,714份分析师报告,基于潜在狄利克雷分配(LDA)模型构建文本创新度量:首先对报告文本进行词干提取与停用词过滤,采用15个主题的LDA模型生成每篇报告的主题载荷分布;接着计算各主题与权威创新教材的分布距离,筛选出语义距离最小的主题作为核心创新主题(关键词包括"技术""系统""解决方案"等);随后通过情感词典剔除情感得分低于75%分位数的负面报告,仅保留积极文本中的创新主题载荷;最后将筛选后的主题强度按企业-年度层面聚合,形成标准化创新指标,并通过滚动窗口模型(5年窗口期)和行业工具变量法(以同行披露为外生冲击)验证指标的稳健性。该方法成功识别出沃尔玛等非专利企业的供应链创新案例,其创新值分布与专利企业存在高度重叠,且与传统专利数量无关但与高价值专利及未来三年销售增长率显著正相关,证明其能捕捉专利数据未覆盖的流程革新与商业模式迭代。
非常感谢您的报名,请您扫描下方二维码进入沙龙分享群。

非常感谢您的报名,请您点击下方链接保存课件。
点击下载金融科技大讲堂课件本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。
本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。
本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。