清华大学金融科技研究院孵化
金融科技与金融创新全媒体

扫描分享

本文共字,预计阅读时间

文/人大深圳金融高等研究院

据MS官网显示,来自中国人民大学的邱志刚、东北财经大学的王子悦,合作撰写的论文“The Boundary of Open Data: Implications for Financial Market and Real Efficiency”,已被国际管理学顶刊《Management Science》接收。

摘要

We study the optimal boundary for open data in a model where participants from both financial markets and real sectors with private data can access open data. Open data, compared to privately accumulated data, offers more dimensional information that enhances productivity, but its public nature incurs privacy costs. Therefore, an optimal boundary for open data usage exists. Moreover, private data, as an alternative source of information, interacts with open data, influencing the optimal boundary and leading to a U-shaped relationship between private data endowment and the optimal open data boundary. This U-shaped relationship affects both financial market efficiency and real efficiency, resulting in non-monotonic impacts on these efficiencies as private data endowment varies. Our findings highlight the complex interplay between open and private data in determining market and real-sector efficiencies, offering important implications for data regulation policies.

本文研究了一个模型中开放数据的最优边界,该模型允许来自金融市场和实体部门的参与者利用其私有数据访问开放数据。与私有累积数据相比,开放数据能提供更多维度的信息从而提升生产效率,但其公共属性会带来隐私成本。因此,开放数据的使用存在一个最优边界。此外,私有数据作为替代性信息源会与开放数据产生交互作用,这种作用既会影响最优边界,又会导致私有数据禀赋与开放数据最优边界之间形成U型关系。该U型关系同时作用于金融市场效率和实体效率,使得这两种效率随私有数据禀赋的变化呈现非单调性特征。我们的研究揭示了开放数据与私有数据在决定市场及实体部门效率时存在的复杂互动关系,为数据监管政策提供了重要启示。

什么是开放数据?

开放数据是指任何人都可以自由获取、使用、再分发的数据,其来源十分广泛。它既可能来自政府或城市级的开放数据平台,如美国政府的 data.gov、纽约市的 NYC Open Data,(图1)以及中国广东省的开放数据目录(图2);也可能通过网络爬虫技术,从公开网页中抓取,例如公司注册信息、新闻报道、交通状况等。

开放数据具有三大核心特点:开放获取、非竞争性使用与多样性。所谓“非竞争性使用”,意味着一个人使用数据并不会减少他人使用同样数据的机会,这与矿产等稀缺资源完全不同,更像空气和阳光:你用,我也能用。

图1:美国政府和纽约市提供的开放数据平台

图2:广东省开放数据平台示例

在现实应用中,数据发挥着两大重要作用。第一重角色是信息源。经过专业处理与分析,数据可以揭示经济、社会、环境等领域的重要信号。

例如,卫星图像可用于监测商场停车场车流量,从而预测零售销售额;港口货物吞吐量分析有助于判断进出口贸易走势;夜间灯光亮度能够反映某地区的工业产出水平。金融领域中,对冲基金利用气象、消费、物流等开放数据寻找投资机会,风险投资机构则跟踪初创企业的专利申请、招聘动态和社交媒体热度来评估其成长潜力。在宏观经济预测方面,电力负荷、货运量、网络搜索指数等高频开放数据,能够弥补官方统计数据更新滞后的不足,使决策者更快把握经济全貌。因此,开放数据的第一重角色也是信息源。

开放数据第二重角色是创新驱动。数据是人工智能、自动驾驶、智慧农业、医疗研发等领域的关键“燃料”,而开放数据提升了数据可得性。

例如,人工智能领域的 ChatGPT,其训练数据中包含了大量开放的互联网文本,使其具备写作、翻译、问答等多种能力。更多可获取的开放互联网数据扩充了训练数据集。另外,有研究显示部分我国AI企业利用政府开放的合规、脱敏监控数据训练算法,取得了全球领先的识别精度。

例如,在自动驾驶领域,其发展依赖开放的交通流量、路况与事故数据持续优化算法。在智慧农业领域,通过整合开放的气象和土壤数据,帮助农民科学施肥与灌溉。在医疗研究中,开放的基因组和医疗影像数据加快了新药研发与疾病预测。可以说,没有开放数据,许多如今看似理所当然的技术突破将难以实现。因此,开放数据作为一种生产要素,为实体经济提供了创新的思想和产品。

开放数据的隐私与风险

然而,开放数据并非毫无代价。由于其“开放”特性,相较于企业内部的私有数据,更容易引发隐私风险与安全问题。首先是个人隐私暴露。即便数据经过脱敏处理,也可能通过技术手段被反向推导出个人身份。

例如,通过多源数据的交叉匹配,一个原本匿名的医疗记录,也有可能被关联到具体的个人信息,造成隐私泄漏。其次是商业秘密泄露。开放数据中有时包含企业的运营细节,例如生产节奏、供应链布局、库存周转情况等。

一旦这些信息被竞争对手获取并利用,可能会给企业带来严重的竞争劣势甚至直接的经济损失。第三是算法歧视。如果开放数据本身存在结构性偏见,人工智能模型在训练过程中往往会放大这种偏见,进而导致对某些群体的不公平待遇,甚至在招聘、医疗等领域引发社会问题。

最后是生成式AI的推演能力。大型语言模型等生成式AI工具能够在长期分析开放数据的过程中,推导出敏感信息,即便这些信息并未直接出现在原始数据中,也可能被模型推断出来。正因如此,“该开放多少数据、开放哪些数据”成为一个需要谨慎权衡的难题。只有技术手段(如差分隐私、联邦学习)与法律框架(如数据爬取限制、数据使用规范)协同配合,才能在数据利用与隐私保护之间找到稳妥的平衡点。

开放数据的“边界”如何影响经济与市场?

邱志刚与王子悦(2025)的研究构建了一个分析框架,将开放数据的使用场景放入金融市场—实体经济—政府决策的闭环体系中进行考察。

模型设定了三类核心参与者:第一类是数据提供者(如政府部门或数据平台),负责决定开放数据的供给规模与内容;第二类是金融市场投机者,他们利用开放数据与自身掌握的私有数据,对经济基本面进行预测,并通过交易行为影响资产价格形成;第三类是资本提供者(如私募股权基金、风险投资机构),他们会结合价格信号、开放数据以及私有数据,判断是否向新的增长机会进行投资。

研究表明,如果开放数据仅具有信息作用,而私营部门已经拥有大量私有数据,那么信息替代效应会导致开放数据的边际价值显著下降。在这种情况下,出于降低隐私风险和减少不必要数据暴露的考虑,政府可以适度减少开放数据供给,将更多精力放在数据安全与隐私保护上。

因此,如果只把开放数据当做一个信息源来用,算法的提升和私营部门对数据的积累会对开放数据提到一种“替代作用”。也就是说,如果有足够高级的算法和足够多的私有数据,政府没必要提供很多的开放数据。而这也是当前开放数据的主要争议之一!

然而,邱志刚与王子悦(2025)提出开放数据不仅具有信息作用,也是一种重要的生成资料,具备创新作用。在考虑创新作用时,情形就完全不同。开放数据与私有数据可以相互补充,为人工智能等新兴技术提供规模更大、类型更丰富的训练集,从而显著提高生产率与技术创新水平。在这种情况下,即便私有数据资源已经很丰富,继续维持甚至增加开放数据的供给,依然有助于推动新技术的研发和新产业的发展。

在金融市场层面,私有数据和数据分析技能的提升存在双重效应:一方面,它们能直接提高市场定价的精准度,减少错误定价的概率(直接效应);另一方面,若市场主体可以从价格中获取更多信息,会减少对开放数据的需求,可能会间接降低开放数据的整体供给水平(间接效应)。两种效应的净结果,取决于市场的不确定性程度、数据技能水平的高低以及数据使用过程中隐私成本的大小。总体来说,私有数据的增加有可能减弱政府提供开放数据的动力,因此会降低市场有效性

在实体经济层面,开放数据的创新作用在低不确定性环境下更容易被充分释放,带来更高的生产率与投资回报。而在高不确定性环境中,信息作用的权重会显著上升,这时如果私有数据过多,可能会挤压开放数据的应用空间,反而削弱整体经济运行的效率。这说明,开放数据的供给规模与使用边界应当结合经济环境与技术条件进行动态调整,而不是固定不变的配额式管理。

结论

开放数据是一把“双刃剑”。一方面,它是现代经济的重要“加速器”,推动信息透明化、技术创新和产业升级;另一方面,其开放特性也让隐私泄露、商业秘密暴露以及算法歧视等风险不容忽视。

研究表明,开放数据的供给不应采取“一刀切”的方式,而应结合其在当前环境中扮演的角色(是主要的信息源,还是创新驱动器),再综合考虑私有数据的丰富程度、数据分析能力的水平以及隐私成本的大小,动态调整开放的“边界”。

简而言之,如果私有数据已经非常丰富、隐私风险又较高,且开放数据的功能主要集中在信息提供方面,那么可以适当收紧开放范围;而如果开放数据在创新驱动方面的作用显著,特别是在人工智能等对数据依赖度极高的领域,则应保持甚至扩大其供给,以发挥更大的经济与社会价值。

政策建议

首先,应当分类分级开放数据。不同类型的数据具有不同的敏感度和使用风险,政府与平台应建立科学的分类分级制度,对低风险且具有高创新潜力的数据优先开放,而对涉及敏感信息的高风险数据设置更严格的访问与使用门槛。

其次,需要强化技术护栏与隐私增强措施。应推广差分隐私、联邦学习等先进技术手段,在提升数据可用性的同时,最大程度降低个体信息被反向推断的可能性;并且应针对生成式 AI 等新技术对开放数据的访问进行有针对性的限制和监管。

第三,应鼓励私有数据与开放数据互补使用。通过制定税收优惠、资金扶持等激励政策,引导企业在保护商业秘密的前提下,将私有数据与开放数据结合使用,开发出更多新技术与新应用,从而形成创新合力。

第四,建立动态调整开放边界的机制。应当根据市场反馈和技术发展水平,定期评估开放数据对创新能力、市场效率以及隐私安全的综合影响,并据此适时增减数据开放的范围与力度,使政策具有灵活性和前瞻性。

最后,要提升公众的数据素养。加强数据知识普及,帮助公众理解开放数据、隐私保护和数据权利的重要性,增强个人在数字化时代的自我保护能力与参与意识,让整个社会更好地应对数字化进程中的机遇与挑战。

[Source]

本文系未央网专栏作者发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文为作者授权未央网发表,属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!首图来自图虫创意。

本文版权归原作者所有,如有侵权,请联系删除。首图来自图虫创意。

评论


猜你喜欢

扫描二维码或搜索微信号“iweiyangx”
关注未央网官方微信公众号,获取互联网金融领域前沿资讯。