中概股数据安全强监管背后深度报告：理解大数据、隐私保护与市场竞争-大数据的专栏

中概股数据安全强监管背后深度报告：理解大数据、隐私保护与市场竞争

2021-07-18 21:50:58栏目：默认栏目 IP属地：北京市

原创经济学家圈

本文改编自罗汉堂《理解大数据：数字时代的数据与隐私》报告，已获授权。标题为经济学家圈所加。

理解大数据、隐私保护与市场竞争

人类早已意识到，社会和经济的正常运转，以及对经济福利的追求都离不开信息的处理和分享。例如人们要进行社交，就要知晓对方的好恶；企业要服务好客户，就要对他们的需求了如指掌。经济学家哈耶克指出：社会面临最重要的经济问题，实质上是如何促进信息的收集和交流。

很多经济问题包括交易失灵，投资和消费决策扭曲，本质上都是由不对称信息或有限信息造成的，这正是上世纪60年代兴起的信息经济学所聚焦的课题，其中最经典的是诺奖得主Akerlof的柠檬市场问题：即消费者和生产者信息不对称，消费者缺乏对产品的信息和信任，只愿意选择低价产品，从而劣币驱逐良币，赶走了好的服务商（桃子），只剩下质量不好的“柠檬”，随之恶性循环，直到整个市场消失。最典型的例子是二手车市场。

从信息经济学的角度看，数字技术的出现，让人们获取信息并且从中分析得出洞察的成本大大降低，在很大程度上解决了信息失衡的问题，从而提升了社会生产和协作的整体效率，这是数字经济崛起的底层原因。

当然新的问题也随之出现，首先，数据的爆炸式增长让隐私泄漏和个人数据被滥用的风险大大提升，并且往往来自我们的意料之外。例如，Target超市仅仅依靠购买维生素的记录就可以判断女性是否怀孕。Uber根据行车路线就可以判断人们之间的私密关系。

其次，在摩尔定律、网络效应和边际成本成本接近零等作用下，数字驱动的平台型企业出现了边际回报递增的现象，这与传统企业规模化带来的边际回报递减截然相反。这让监管者和消费者开始担忧，这些科技巨头是否会凭借大数据建立难以逾越的竞争优势和垄断地位，从而妨碍市场竞争与创新，并最终损害消费者的利益。

最近爆发的特斯拉行驶数据权属之争、和美国联邦贸易委员会诉Facebook垄断案，就集中体现出全球各国对数据隐私和数据企业竞争两个问题的关切。本文试图从实证研究的角度回答其中几个关键的问题。

一、解密隐私悖论

人类对隐私的在意古已有之。亚里士多德将人的生活首先区分为公共空间和私人空间，个人对私人空间应有更强的控制。《礼记》中也有“将上堂，声必扬”的论述，提醒不要悄悄进入别人的隐私空间，教育人要考虑到他人的隐私。

不同时代隐私保护的侧重和迫切程度有所不同。19世纪，西方社会开始重视隐私权的保护，背景正是第二次工业革命带来的电话、电报的广泛应用，使得信息可以远距离快速传输，增加了私人空间中的隐私信息泄露的风险。

随着信息技术的发展，越来越多的信息可以通过声音、影像的方式被记录、复制、传播，这推动了1980年代以来的各国信息保护制度的发展。伴随着互联网，尤其是移动互联网以前所未有的速度进入人们的生活，信息交换和分享的维度、速度和量级都前所未见，相应也大大增加了隐私被侵犯、信息被泄露的风险，于是，近年来隐私保护成为一个全球性的挑战。

要在数字时代保护个人隐私，我们首先要了解人们在面对隐私选择时做决策的行为模式。具体我们观察，当人们为了享受数字服务的好处，必须提供一定个人信息时，他们是如何为自己“独处的权利”进行决策的？

在回答这个问题时，大量研究者发现，全球用户中普遍存在着一种矛盾现象，学者们称之为“隐私悖论”，它描述的是，尽管大多数人表示在意自己的隐私，但常常免费地，或在很小的经济补偿下，分享自己的个人信息。人们对隐私基本权利的重视，和他们实际行为中的“毫不在意”之间存在显著矛盾。这种现象并非孤例，存在于不同的国家和文化环境中。

看起来，破解隐私悖论，发现人们真实的隐私行为模式和偏好将是我们保护好数字隐私的关键。

目前学术界对隐私悖论有几种不同的解释。一种观点认为，这是因为当事人不了解隐私被侵犯可能带来的严重后果；或由于一些重要的数字应用缺乏可替代选择，用户不得不让渡一定的隐私权。例如，为了使用微信，用户必须同意微信的隐私条款，否则只能退出。但随着越来越多的新选择不断涌现，这种理论很难解释用户为何对层出不穷的新数字服务也“来者不拒”。

另一种更让人信服的解释认为，当面临真实的选择时，是人们的真实行为，而不是调研中的表达，揭示了人们会在隐私和数据福利之间如何权衡取舍的真相。

因此问题的关键在于，当用户在市场中真正拥有选择权时，他们是如何决策的。为了回答这个问题，利用支付宝数据，我们进行了一项大规模实证分析。支付宝活跃用户众多（超过 10 亿），且有大量小程序可以选择。使用小程序时，企业需要获得用户许可来获取一定的个人信息。用户也可以之后通过撤回许可来注销这些小程序。不同小程序对用户来说，在必要性和要求用户提供数据的敏感程度上差别很大，而这些正是用户可以选择的。将这些差异与用户特征和选择组合起来，我们进行了迄今为止最大规模的，关于消费者隐私决策的大数据研究。

经过数据分析，我们发现的第一个行为模式是，当面临选择时，用户很乐意授权个人信息。如图所示，不同类型消费者小程序的授权率在64%-86%。平均授权率超过了75%。男性、教育水平高和年轻用户分享个人信息的整体意愿更高。在不同性别和教育水平的群组里，授权率差异较小。拥有本科（以上）学历的用户，接受小程序的意愿更高。

谁的个人信息授权率更高

资料来源：罗汉堂

第二，人们不仅在大多数情况下愿意分享个人信息，使用小程序，而且他们后续也很少退出，表明他们不会后悔自己的选择，至少没有足够的退出倾向。数据显示，小程序的整体退出率非常低，2016年-2019年每月只有0.12%的退出率。这意味着，大多数用户愿意用个人信息换取服务。一旦做出授权，他们很少改变自己的决定，可能认为退出不太重要，或对获得的服务感到满意。

尽管用户愿意分享个人数据，但不代表他们不在意隐私。信息的敏感度越高，愿意分享的用户就越少。用户的隐私忧虑是根据不同因素相应变化的：信息的敏感度不同，用户的隐私忧虑也不尽相同。与一般公共信息如昵称、头像相比，对于更加敏感的信息，例如支付宝账号、机动车注册信息等，授权率平均降低了20%。整体而言，人们更在意敏感信息的分享。

第三，随着用户使用数字产品的经验更加丰富，他们也更愿意分享个人信息。此前的研究发现，随着人们对新产品和科技的了解增多，他们对隐私也更加关注。我们的研究发现，随着支付宝使用时间的增多，授权率一开始会出现下降，证明了与新用户相比，经验丰富的用户的确会更谨慎地分享个人信息。当使用时间超过40个月后，授权率会回升至和新用户相当的水平。这种模式揭示出一种U形的学习曲线，用户在长期内会接受更多的数字应用。并且，这个趋势对敏感度不同的数据都存在。所以在长期，更丰富的数字经验会让用户更加拥抱数字技术，分享个人数据的意愿也更强。

授权率和使用数字服务时长

资料来源：罗汉堂

综上所述，对用户隐私决策的大数据研究表明，在“真实世界”中，用户的隐私忧虑的确存在，但与个人数据被肆意滥用而用户别无选择的“假想世界”相比，是有巨大差别的。

隐私保护非常重要，但只是消费者众多需求之一。我们需要一个整体分析框架，来更好地理解数据分享带来的福利以及潜在风险。这就是所谓的隐私权衡框架。

我们的研究发现，表达越强烈的隐私担忧的人，恰恰是使用小程序最多的用户。分享的数据越多，越关心隐私安全，但这并不妨碍他们在获取服务的时候分享数据。隐私悖论并非源于无知或非理性行为。它凸显了数据分享的实际价值，以及我们亟须找到更有效，成本更低的方式去保护个人隐私。

对于隐私行为模式的研究告诉我们，如果绝大部分消费者实际上愿意分享数据来获得服务，他们同时也需要更好的隐私保护，那么最好的隐私保护政策不是将个人数据束之高阁，也不是一味提升数据分享的成本，而是更高效地保护隐私和数据。

那么我们该如何做呢？答案依旧是技术。

二、隐私保护工程化和隐私增强技术

新技术在带来新挑战的同时，也会带来解决方案。数字隐私问题也不例外。隐私保护的关键在于用好数字技术，开发出更强的保护机制和更有效的保护技术。就像数字支付系统通过利用多维信息、实时风险甄别、以及人工智能算法，大大降低了支付中的欺诈行为。在隐私保护实践中，也涌现出了两个有潜力且互补的核心方向：隐私保护工程化（隐私设计）和隐私增强技术。

隐私保护工程化的基本思路都是将个人数据的收集和处理限制在必要的最低限度，旨在指导数据收集者、处理者和软件开发人员将核心隐私原则转化为具体的设计功能和方法论。许多科技公司都已经开始践行 “隐私设计（Privacy-by-Design）”的方法，将隐私保护前置，从产品和系统设计的初始阶段就考虑到如何解决隐私保护问题。首先，设计软件时，在交互和数据分享的各个环节都应用到最新的隐私保护技术。其次，在用户界面的设计上，让隐私相关的说明、采集信息的告知更加醒目、易懂，确保用户真正理解隐私条款的内容，同时帮助他们了解隐私工程技术能够保护相应敏感信息。这两部分同等重要，也已经越来越多地被用于隐私保护实践中，正成为数字时代对企业的一项核心要求。

隐私增强技术（PET）主要针对不可信和潜在有害的数据收集者，作为隐私工程化的有效补充。例如多方计算技术（MPC）可以让数据分析者从数据中提取有用洞察，却不会暴露或回溯至原始数据。区块链技术也可以通过对个人数据进行

加密和密钥，降低隐私风险。这些技术的目的，是让服务提供方进行大数据分析时，懂得客户特性和需求，然而却“不知道客户是谁”“数据可用不可见”，从而更好地满足客户和数据相关的两个权益。

当然，隐私工程和隐私技术成本不菲，给初创公司和中小企业带来更多挑战。在多大程度上做好，能够同时满足消费者和生产者的需求，从而发挥数据作为生产要素的价值，同样是值得整个社会讨论的问题。

长期来看，合理的机制设计和不断完善的技术，可以在很大程度上缓解数据隐私和安全问题。就像今天已经没有人会因害怕事故，而拒绝乘飞机出行；害怕食物中毒，而避免在外就餐。数据分享的体量和隐私及数据安全并不是必须的取舍。当技术足够强大，机制足够合理，今天看起来严重的隐私风险即便无法彻底杜绝，也可以得到有效控制。

三、大数据与市场竞争

在讨论完隐私问题和隐私保护技术，我们将视线转移到另外一个备受关注和争议的问题。那就是大数据与市场竞争。

众所周之，由于大数据的巨大商业潜力，数据驱动的商业行为在今天的企业竞争中扮演越来越重要的角色，因此我们需要理解数据驱动的市场行为会如何影响竞争。竞争法的核心目标是：“确保消费者可以从竞争的力量中受益”（Shapiro，2018）。要判断竞争是否被扭曲，消费者的利益是否受损，我们要用事实说话，深入理解行业结构、企业的商业行为，并评估其市场表现。由于篇幅所限，本文无法为所有相关问题提供答案，我们基于初步证据，聚焦于讨论三个和数据竞争相关的关键问题。

首先，企业在多大程度上利用大数据技术歧视性对待消费者？

商家今天获得关于客户的信息前所未有，无论数据量还是数据种类都远超前人想象。从理论上讲，企业通过数据更懂消费者，是有可能成体系地对消费者采取价格歧视，攫取消费者利益。在实践中，大数据杀熟现象的确客观存在。商家掌握更多的消费者信息，在某种程度上，给他们根据消费者特点制定差异化的价格提供了便利。但更应该注意的是，大数据加速信息流通的效率，从宏观效应看，对价格更重大、更普遍的影响是减少价格差异，如图显示无论是在美国还是中国，电子商务的出现让价格日渐集中。这是什么呢？

一个可能的解释是，数字技术改变了生产者和消费者的关系。其中一个结果，随着累积这些高颗粒度的数据，商家已经不再追求从单独的产品或服务中获取最大利润，而是追求提供一个以客户需求为中心的综合服务，建立更高的客户忠诚度。普惠性就是尽可能扩大客户的多样性和数量，今天已经成为越来越多企业核心的商业目标。例如Ichihashi 在 2020 年的研究显示，很多数字平台希望向平台上的卖方公开买方的特征信息，而不是将买家隔离开，进行经济学家所谓的“价格歧视”——以不同的价格向不同的群体出售类似的产品，以便从支付意愿最高的消费者身上获取最大的利润。实际上，要成功地进行价格歧视，卖方需要有能力将不同群体的消费者隔绝开。而今天的互联网让信息隔离越来越难，消费者可以在非常广阔的范围内搜索不同的卖家和价格，让竞争越来越激烈。

价格歧视并非唯一的顾虑。美国的消费者保护机构，例如联邦贸易委员会担忧“企业可以使用大数据，让那些低收入、缺乏服务的群体失去获得信用服务和就业的机会”，并表明要对这种不公平的行为进行指控。但现实中数字金融不断增强的普惠特性，将缓解这样的担忧。至少在肯尼亚、中国和其他很多国家，普惠金融取得了突飞猛进的发展。所以，在我们关注大数据杀熟的案例的同时，我们也不应该忘记这样的案例并非多数，也要具体分析其背后的原因。

其次，大数据是否在妨碍竞争，让市场出现赢者通吃的局面？

关于数据竞争的一个普遍担忧是，网络平台的外部性（直接和间接的）和规模经济可能带来市场进入障碍，从而引发赢者通吃的结果。从具体效果看，美国科技产业的一些领域的确出现了市场集中度提升的现象，但中国却上演了一个非常不同的故事。在中国，数据驱动的产业出现了强竞争的特征，潜在的新竞争对手常常让在位的互联网企业夜不能寐。

例如电商行业，尽管在线零售占社会总零售比例已经超过 27%，但由于激烈的竞争，阿里巴巴这样的具备先发优势的领先者，面对市场新进入者和原有竞争对手的快速增长。在短短四年内，阿里巴巴在中国电子商务销售额占比从 2015 年的 78% 降至 2019年的 56%。拼多多作为市场新进入者，在 3 年内吸引了超过 4 亿用户，销售额增长超过 100 倍。中国曾经最典型的大数据企业百度，长期统治中国的搜索引擎市场，并且曾在大数据和人工智能领域遥遥领先，2010 年它的市值大于阿里巴巴和腾讯，然而如今却远远落后于这两家公司和很多新进入者。抖音的母公司字节跳动异军突起，只用 7 年就超越百度成为互联网广告收入领头羊。

在移动支付市场，类似的激烈竞争也在频繁上演。作为中国数字支付的先行者，支付宝在 2014 年占线上支付总量的近 80%。但到 2019 年，随着微信支付迅速赶上，其市场份额逐渐降低到 43%。同样，在诸多领域，大数据并没有让早期优势的壁垒越来越高。市场占有率的趋势和赢家通吃的假设背道而驰。

这些证据表明，我们很难得出先发的大数据优势会引发“赢者通吃”的结论。一个可能的解释是，大数据只是商业竞争的一个要素，并不必然决定行业的格局和企业的命运。首先，在数字经济中，数据的使用只是商业模式运行的一部分。尽管在今天的商业模式中，数据扮演了比以前更加重要的角色，但企业间的竞争仍旧由商业模式及其执行决定。另外，与传统经济不同，数字服务的消费者可以选择多个平台——用户可以选择提供类似服务的不同供应商，从而多方分享自己的个人数据。再次，随着数据的增加，数据的边际效用会随之下降。研究表明，如果一种资源能为企业带来垄断的竞争优势，那么这种资源一定是无法模仿的、稀有的、高价值的且可持续产出的，“然而通常数据并不具备上述任何一种特质”（Lambrecht and Tucker ，2017）。

显然，在数字经济的发展过程中，存在妨碍竞争的企业行为，需要通过法规纠正，

这也日益成为各国社会关注的一个重点。但这些现象，和所谓的“赢家通吃”，无论在理论和实践中都没有必然的联系。我们对事情性质的判断，应该基于事实，基于不同国家、不同行业的实际情况，而非基于假设的“黑板经济学”，否则会适得其反，妨碍数字经济的发展。

再次，大数据在多大程度上在给创新带来障碍？

从事实上看，数字技术在已经带来深度影响的行业，包括媒体、社交媒体、电子商务、金融、视频、出行和共享单车等等，几乎每一个行业都有新的商业模式和新的市场进入者。在数字技术和数据的帮助下，这些新的商业模式为行业带来了“破坏性创新”，也逼迫那些墨守成规的成熟企业做出改变。在全球几乎所有市场，带来激进创新的企业都是那些资金和资源非常有限，但拥有无限想象力和雄心壮志的初创企业。可以说，创新已深深烙印在科技初创企业的 DNA 中。

尽管有合理的疑问，但我们认为有几个原因可以说明，为什么大数据天然会推动产品和生产流程的创新。

第一，大数据的三个 V （多样性、容量和速度）已经成为重要的生产模式和商业模式的创新引擎。企业连接和了解客户的能力大大加强，因此可进行更明智的决策，并进行创新试验。这是在数字技术深度改变的行业中，创新层出不穷的重要原因。

第二，大数据的三个 V 带来了前所未见的大规模、深度合作，这也大大加速了创新在市场中的部署和应用。平台作为连接供给和需求的载体，成为创新扩散的重要推动力量。平台处于竞争压力，会愿意改进商业基础设施，推动平台上企业的创新发展。实际上平台上的创新非常活跃，例如新品牌和小众品牌在各类平台上的爆发式增长，就是显著证据。

人类的科技发展史充满了恐惧、质疑与挑战。技术的早期应用一定充斥着诸多问题，但由于熊彼特式企业家的存在，技术一定会不断完善，监管政策也随之进化到位。历史告诉我们，技术的负面风险总是会降至最低。

行为经济学家卡尼曼指出，人类总是倾向于直觉型的快思考，往往过度关注数字技术的负面影响和事故，例如市场垄断、隐私泄漏等问题，而忘记信息交换是人类社会进步的基石，以及数字技术创造的巨大福利。因此我们要区分事实和臆断、求真与恐惧。用证据说话，客观地看待数字驱动业务带来的社会福利与潜在风险。