智能算法运用于新闻策展的技术逻辑与伦理风险-大数据的专栏

智能算法运用于新闻策展的技术逻辑与伦理风险

2019-02-21 16:03:47栏目：默认栏目 IP属地：IP未知

来源：新闻界

作者：陈昌凤师文

摘要 面对新媒体时代新闻生产、分发、互动格局的巨变，专业新闻工作者可以将“新闻策展”作为角色转型的契机。然而由于与科学技术的隔阂，新闻界未能结合自动化新闻策展算法的发展前瞻未来的转型方向。本文通过揭示事实类策展算法和观点类策展算法的技术逻辑、进步性和局限性，将智能时代人机协作策展的角色分工进一步清晰化。除了业务层面的探讨，本研究还从价值层面审视自动化算法策展技术蕴含的价值风险，并发现策展算法在公平性及新闻伦理方面存在隐忧，其难以实现对良善社会价值观的引导，媒体专业从业者用新闻专业性和人文价值完成对算法的规训，通过引领算法价值践行智媒时代的社会责任。

一、研究背景及问题的提出

新媒体技术的广泛应用不仅提升了新闻生产和传播的效率，也使传统的新闻工作者职业角色定位发生剧烈变化。新媒体赋权打破了职业新闻生产者作为新闻生产中心的垄断地位，多元主体的参与式、协作式信息交流成为新的生产模式；社交媒体和新闻聚合平台的社交分发、算法分发颠覆了过去由专业新闻媒体主导的信息分发格局，职业新闻工作者的把关角色弱化；在新的传播形态下，不仅专业媒体机构的业务流程被颠覆，而且技术运用中出现了价值判断问题。新闻工作者的角色，主要不是收集、整理、呈现海量开放式信息，而是对每个新闻事件进行价值判断，用新闻敏感和人文精神去发现重要的议题，引导公众进行深度发掘，在公共议程设置层面扮演指挥者的角色。因此，有人提出“新闻策展”（news curation）或将成为职业新闻从业者的角色转型方向。[1]媒体工作者从传统的把关人身份转型，一方面承担收集素材、事实核查的职责，统筹“目击媒体”的新闻生产[2]，另一方面管理分众化新闻生产中有价值的内容，将碎片化的新闻事实按照逻辑线聚合，形成新闻故事包[3]，扮演“聪明的聚合者”和“论坛组织者”的角色[4]。

然而，由于与科学技术的隔阂，我们在探讨职业新闻从业者的转型策略时，未能全面考量智能化技术对新闻业的潜在影响。目前，新闻学界对于智能化技术对新闻业的影响多集中在传感器新闻、机器人新闻写作对于媒体生产端的冲击，以及个性化推荐技术对于媒体分发端的冲击[5][6][7][8]，而介于生产和分发之间的编辑策划角色被认为是免受智能化技术影响的安全地带，因而，新闻编辑室中的策展功能被期待成为新媒介生态下职业新闻从业者维持公共性、履行社会责任的支撑点[9]，新闻业试图通过设计信息产品的分布、凸显事实和逻辑，谋求公共讨论主持者的合法身份。

事实上，新闻策展并不是免受自动化技术冲击的避风港。目前，计算机科学涌现了大量应用于新闻策展的算法成果，试图通过自动化的手段实现对新闻语义的理解和关系的界定，完成话题整合。一方面，对于事实性信息，依据新闻的主题汇总新闻信息，将涉及到某新闻事件的一系列报道实时识别聚合为统一的新闻话题[10]，涵盖该新闻的背景、历史动态和最新发展[11][12][13]，监测话题的演变和热度[14][15]，甚至预测话题未来的走向[16]。另一方面，对于意见性信息去粗存精，呈现有代表性的意见和观点，实现促进公共意见交流的功能。

自动化新闻策展算法涌现的，新闻界一方面应该洞悉其技术原理，思考其对新闻界产生的影响，据此重新反思职业新闻工作者的转型方向，另一方面，鉴于计算机界对策展算法的评判标准多集中在错检率、漏检率等量化指标，新闻界应当从新闻专业主义和人文价值的角度，评估计算机界提供的策展算法在运用于新闻业方面产生的价值风险和新闻理论缺失，弥补工具实用主义主导下算法的天然缺陷，实现人机协作的效率和伦理最优化。

智能算法运用于新闻策展的逻辑和功能是什么？存在哪些风险和伦理问题？职业新闻工作者如何发挥人和专业的优势进行人机协作？本文从计算机与新闻传播的跨学学科视角，从技术原理入手，分析智能化算法运用于新闻策展的运作逻辑和现实功能，探讨智能技术应用于新闻实践中的进步性与局限性，探讨新闻工作者未来可以担当的职能与使命。本文也将从价值观层面审视新闻策展中智能算法存在的伦理风险。

二、人工新闻策展的实践与局限

在传统媒体时代，新闻媒体凭借专业的新闻生产流程和数字技术，对客观世界的发生的事实进行近乎同步的把关，控制特定内容是否可以到达受众，成为唯一的新闻代言人。然而，社交媒体的兴起挑战了专业媒体在时间和速度上的优势[17],使信息得以通过无影灯般的公民记者被发掘出来，并通过开放的网状平台迅速流通，时间性和遍在性上的优势使公众具备了绕开专业媒体接近事实的能力，专业新闻媒体不再具备“真相代言人”的合法性，丧失了信息流通格局中的新闻把关人（gatekeeper）功能。

面对技术环境变化带来的新闻业角色危机，有学者认为，新闻看门人（gatewatcher）或将取代把关人成为专业媒体机构在公共信息交流中的新身份。由于公民“协同合作”生产信息的模式在消灭传播时距的同时也消灭了完整的文本[18]，大量碎片、片面、局部的信息被生产出来，专业媒体组织可以整合公民生产的碎片化信息，用清晰的逻辑编排事实，呈现新闻事件的完整叙事，同时，以中立客观的姿态为多元意见提供提供交流平台，维持观点交锋的秩序，在组织公共讨论的过程中重构职业权威。[19]

在传统意义上，策展行为由职业新闻编辑人工完成。新闻编辑可以通过策划内容框架，搭建在线新闻专题，对既有报道进行结构化组织，并随时根据用户的反馈将新报道补充其中，如在“东方之星”沉船事故的报道中，澎湃新闻通过刊发实时消息、图片新闻、记者手记、特稿、HTML5等形式的内容对事故的后果、救援的进展进行实时还原，同时，面对“感谢你无数次游过那片忧伤的水域”和“回到母亲怀抱”这两篇引发巨大社会争议的报道，开放地接纳用来自非专业主体的互动反馈，调整后续组织报道的把关策略和设计逻辑，一定程度上革新了传统意义上单向、固定的新闻生产链。[20]

这类新闻策展虽然相比于传统的生产形态有一定进步，但仍具有显而易见的局限，一方面，“新闻策展”所强调的“去组织化、去科层化”价值内核并未实现，策展组织模式和运行逻辑仍未脱离传统媒体思维主导的生产模式。虽然在这个过程中，专业媒体机构愿意将公众对新闻价值的判断作为决策的参考因素，调整内容再生产的逻辑，形成看似开放、动态的内容决策机制，但是事实上刊出的报道仍然以职业新闻人的作品为核心，较少采用多元主体的发现和判断，无法真正将海量、动态的网络信息纳入生产系统之中。所谓的策展与传统意义上的“专题报道策划”并没有本质上的操作性分野，职业新闻生产的专业控制远远凌驾在公众的开放参与之上，相比于“公开”新闻，仍然更接近传统的“刊出”新闻。

另外一方面，这类策展虽然在理念上强调受众的参与，但是在社交平台和聚合平台得到普遍使用、生产主体裂变为亿级用户节点的背景下，新闻策展依托的生产工具并未发生与时俱进的升级。信息处理能力与待处理的信息规模严重失配，自动化程度维持在较低的水平，因而运作周期长、需要较高的人力物力，限制了整合用户生产内容的能力，也束缚了策划模式的可推广性。在媒体的报道资源较为有限的情况下，只有极少数重大的主题有资格被选择设定为专题，获得被策展的资源，这样的少数新闻实践或许可以成为理想中的新闻生产范本，却注定无法推广成为职业新闻工作者角色转型的常态化实践。

三、智能化新闻策展的技术路径

与人工新闻策展日渐凸显的乏力相对，通过智能算法对大规模新闻进行自动化策展取得了大量的成果。智能化算法通过综合新闻话题的整体信息，包括背景、历史、当前进度、不同意见和讨论等，呈现事件在事实层面和意见层面的全貌。虽然自动化新闻策展技术的成果较为繁杂，但是依据策展对象和逻辑的不同，可以将其分为基于事件演化的事实策展和基于意见过滤的观点策展。下文将从技术原理入手，分析这两类自动化策展算法的进步性，以及其留给人类新闻记者编辑的角色空白。

（一）基于事件演化的事实策展

基于事实演化的新闻策展技术依托于计算机科学中“话题检测与追踪”问题（Topic Detection and Tracking）[21]，将发生在特定时间和地点的新闻定义为“事件”，将其背景、后续以及其他与事件相关的活动定义为“话题”。该算法可以通过识别报道边界、锁定新闻话题、追踪话题动态，对同一话题下的海量报道实现碎片化事实的聚合、同质化报道的过滤、将流动的在线新闻数据自动处理为主题组，把非结构化的新闻事实结构化为明确的主题。具体而言，TDT技术包含报道切分、话题跟踪、话题检测、首次报道检测和关联检测五项任务。

在实践中，话题检测和跟踪的具体实现路径存在两种原则性的分野。[22]传统主题追踪算法（Tr-aditional Topic Tracking）看重种子事件在聚合话题过程中的权重，试图基于知识和统计概率构建报道内容之间的语义联系，通过K近邻等算法从动态信息流中挑选出与既有事件关联最紧密的事件，后续报道的相关性判断均以最初的报道为参考标准。

第二种原则认为，随着事件的发展，话题的外延应该是流动、开放的，被称为自适应主题追踪（Adaptive Topic Tracking）。在这种原则的主导下，先验的知识不具有决定性的影响力，最初的新闻事件仅构成了话题原始的轮廓，每当有新的相关事件出现，话题的模型将进行动态修正。即随着外延事件的不断出现，话题的中心逐渐出现漂移。

从新闻编辑来看，上述两种策展算法分别对应着两套策展理念。传统主题追踪算法意味着新闻策展呈现以原始事件为核心的放射状形态，依托核心事件聚合用户生产和上传的碎片化内容，使新闻生产的主体、过程具有去中心化的特征，但生产的内容依然具有中心性。一方面，该策展模式有固定的中心事件，可以将公众的爆料整合在种子事件周围，通过后续的讨论对该事件进行集中深入的阐释，有利于规避公众注意力的迅速转移和记忆的消退，形成了围绕特定事件的公共讨论模式。另一方面，围绕核心事件的延展可以从多个角度全方位展开，只要事件与核心事件存在相关关系，就可以在话题图中拥有一席之地。这种策展模式对多角度延展的包容有助于发挥社交媒体的无影灯效应，基于全面、联系的视角展开话题延展，统筹个别事实与全面情况的关系，促成“宏观真实”的实现。

自适应主题追踪算法更注重话题发展的灵活性，面对事件发展过程中出现的焦点议题变迁，可以迅速地做出响应。如在“东方之星”沉船事故的报道中，就公共讨论的价值而言，澎湃报道风波所引发的关于大众媒体该如何报道灾难的探讨，其新闻价值未必低于“种子事件”。“东方之星”沉船事故，通过将新事件纳入模型考量，可以更真实地顺应话题的发展轨迹，追踪公共事件的外延走向。

因此，从策展的路径取向来看，以上两类算法的逻辑优势呈现出固定与灵活之间的冲突。事实上，在复杂的现实新闻实践中，与其说何种算法更具优势，不如说二者分别适用于不同的新闻情境，但是底层算法设计的分野决定了二者难以在同一套系统中调和兼顾，两种算法范式之间取舍的困境暴露出了机器逻辑的僵化，即使机器可以在语料库训练机的规训下，理解语义、构建事件关系、实现类似于人的理解能力，但是新闻价值的判断并非技术性的数据统计问题，而是价值哲学问题，机器难以通过语义、事件关系等数字化指标作出符合人类社会期许的策展选择，更无法基于这种考量灵活地决定公共讨论的切入点，配置注意力资源。

算法对事件演化的追踪毫无疑问更新了专业新闻机构策展的响应速度和信息处理规模，也会同时产生有待人类编辑发挥作用的价值空缺。参照机器逻辑优势与劣势的坐标系，新闻工作者应该意识到，其在新媒体时代并不是从事传统的收集、整合、理解、呈现海量开放式信息，而是要对每一个新闻事件进行价值判断，践行重要性、显著性、接近性、人情味儿等传统新闻价值，凭借大量的经验构建新闻敏感，锁定话题中值得讨论的议题，对报道的方向进行把关，代替公众行使注意力分配的权力，引导公众进行深度发掘，在公共议程设置层面扮演指挥者的角色。

（二）基于意见过滤的观点策展

意见几乎是所有人类活动的核心，我们的政治态度、对新事物的接受、意见表达、态度的改变，几乎都受到外部意见的影响。因而，意见性内容是新闻媒体传播的重要内容，也会对新闻媒体的社会价值产生重要影响。在互联网上，媒体发布的新闻事件通常会引发内容庞大的用户评论，越来越多的媒体在刊发的内容中选登“网友意见”提供意见交流平台，扮演意见策展人角色。[23]事实上，并非所有的网络评论都是平等的，仅有部分用户可以提供有价值的信息、观点和建议，大量的评论是同质化、情绪化甚至攻击性的低质量内容，具有误导公众的负面社会影响。因而，计算机界设计出自动化观点策展工具[24]，识别过滤低质量评论，发现并突出高质量的意见性信息，提高媒体策展效率和质量。

目前评论策展算法主要基于两种路径实现，一种是基于用户投票的策略，通过用户的标记的信息，如点赞、举报记录来对评论进行质量排序，引导公共讨论的话语实现自我优化。不过，基于用户投票的机制有导致人气偏差的风险，对社交投票机制的研究发现[25]，言论收获的认同数并不是理性、均衡分布的，评论用户的粉丝量、发表评论的时间都会影响评论的受欢迎程度，并在投票机制的作用下形成强者愈强、弱者愈弱的马太效应，甚至促进意见的极化。

另一种观点策展路径是通过自动化语义分析筛选出高质量评论，有学者通过收集《纽约时报》采纳的线上评论作为训练集（the NYT ‘Picks’ co-mments），锁定了高质量评论的若干指标，包括论证质量、批判性、情感性、可读性、个人经验等[26]，算法基于以上标准对评论的语法结构、词汇使用进行分析，锁定低质量和高质量文本的语言特征。相对而言，基于语义分析的机制更加公平地聚焦于文本本身的质量，有助于媒体选择出对受众有参考意义的信息。

以上两种算法路径可以有效地针对互联网中爆炸增长的意见性信息进行观点策展，为用户打捞观点、汇总意见，使用户基于较低的阅读成本，实现高层次的信息交互。但不论是用户投票的策略还是语义分析的策略，都只能做到集成意见，使多元观点呈现在大众传播平台上。与事实型信息的策展类似，算法固然可以高效地搜集、筛选、呈现观点信息，其僵化的机器逻辑却注定无法使对立的观点之间发生“化学反应”，人文价值的缺失导致其无法参透观点背后的诉求和价值观，面对多元的意见争鸣的困境，算法既无法提供问题的解决方案，也无法事实上促进对立观点的和解。

面对智能化技术的冲击，新闻职业工作者可以接受机器对海量内容信息的高效聚合能力，致力于谋求对立观点的和解、为冲突的利益关系和价值观寻求共识性的解决办法。在策展方面，职业新闻工作者的专业价值不应该停留在聚合与呈现观点的初级策展、只是将自己的专业性局限在对意见分布状态的还原上，更应该践行无法被机器取代的高级策展，通过敦促各利益主体之间的协商，引导公共讨论，在真正意义上促进社会整合。

四、算法策展的价值风险与引领

面对智能化算法运用于新闻策展及其对新闻业的参与，新闻界除了从人机协同角度对人类和机器进行扬长避短的分工，还应该意识到，相较于一般的精神产品，新闻产品的特殊属性决定了其在社会生活中扮演着形塑公共价值观的重要角色，机器对新闻策展的介入应该面临新闻界更严格的价值审视和观念引领。除了备受讨论的透明性等[27][28]一般意义上的算法伦理问题，策展算法特有的属性还会诱发一系列独特的风险，职业新闻工作者亟需洞悉算法的缺陷，参与到对算法的价值观引领中。

（一）算法策展的价值风险

1.智能化策展算法存在公平性隐忧。由于智能化算法普遍依赖于大量的训练数据集，其输出结果往往存在明显的输入数据的偏向，即仅能对输入数据中存在的特征进行提取和强化，而输入的数据中不包含的维度不可避免地被选择性无视。对于智能化策展算法来说，其原始数据是网络上的“数字痕迹”（digital trace）[29]。值得注意的是，虽然新媒体技术号称可以带来用户之间的平等，让普通人拥有发言、被关注的机会，但其并不能做到均匀赋权，反而会带来与传统媒体时代“知识沟”相似的媒介使用差异。公众对互联网设备的接近权和利用媒介资源的素养的显著差异会导致不同群体留下的的数字痕迹分布失衡，弱势群体的声音事实上很难具备被算法纳入策展范畴的资格。正如在法哲学中，真正的公平是“矫正的公平”而非“分配的公平”，面对社会群体之间存在数字鸿沟，算法策展对数字痕迹的采集看似是无差别的公平做法，实际上却是对社会结构性不平等的维系和纵容。新闻界应该识破算法貌似“平等无差别”的伪装，意识到算法逻辑内部隐藏的话语霸权，通过专业化的操作矫正群体间的话语权差异，扮演真正意义上的“社会公器”角色，避免媒体在算法驱使下成为少部分优势群体的“扩音筒”。

2.智能化算法无法对策展过程中若干新闻伦理问题进行判断。虽然算法可以通过识别事件之间的语义联系自动构建专题，但是新闻策展并非简单的信息聚合或拼接，新闻产品特性决定了各个微妙的信息片段会加总形成格式塔式的总体框架效果，正如“东方之星”事故中澎湃在“深情”与“煽情”之间的逾矩，新闻事件在切入的角度和尺度上存在巨大的弹性空间。在策展过程中，新闻的不同排列组合、比例分配和版面设置会造成截然不同的传播效果。算法无意识的聚合有可能引发读者在伦理层面的不适，也有可能用隐含的偏见引导公众[30]，引发公众的质疑[31]。因而，新闻工作者在被算法解放生产力之后，应该将更多精力投入到新闻伦理的把关上，审视自动化策展新闻中形成的的预设框架，修正算法对于各方当事人、公众的无意识伤害，维护良好的媒介生态。

3.智能化策展算法缺乏对良善价值观的倡导能力。虽然自然语言处理技术使得策展算法可以通过知识表示等技术建立实体之间的关系网络，但是这并不意味着算法真正理解符号背后的价值内涵，在计算过程中，语言被转换成“去价值化”的向量，善与恶只有语义层面的“距离”，却无价值层面的高低，人类社会通过语言符号建立起来的意义传达、价值倡导体系被虚无化。机器不仅无法像富有经验的人工编辑一样拿捏新闻价值，也无法对善良、美好等公共价值进行识别和倡导。由于价值并非可计算的对象，而是复杂的伦理学哲学问题，面对来势汹涌的算法策展，职业新闻工作者需要意识到，尽管机器可以在处理海量信息方面拥有无法企及的效率，却无法具备人类才有的基本价值判断能力，新闻和信息工作者需要在使用算法的过程中，发挥人文关怀和人本精神，将人类的价值观注入新闻产品，完成对算法的价值引领。

（二）算法策展的价值引领

因此，媒体界需要意识到，与媒介生态变化相随的是深刻的技术革新和理念升级，新闻策展并不是躲避智能化技术浪潮的避风港。在媒介生态巨变的时代，完全由记者、编辑进行的人工新闻策展无法承担起公共信息服务、组织公共讨论的责任，更无法助力专业媒体机构的职业合法性重塑。专业媒体机构需要突破传统意义上的职业意识形态，一方面，借助计算机界关于自动化策展技术的前沿成果丰富自身职业内涵，另一方面，在反思自动化策展技术的伦理风险和媒体理论缺陷的基础上实现对算法价值观的引领。

面对策展算法对事实信息的追踪能力，媒体工作者应该将职业角色定位在对新闻价值的敏察上，用人文精神和职业素养发掘话题内涵和外延中具有关注价值的着力点，主导公共注意力配置。而对于算法对于海量意见信息的去粗存精的能力，媒体应该在呈现多元意见的基础上，深入意见争鸣背后的诉求冲突和价值分歧，提供突破困境的解决方案，促进社会协商与整合。只有借助自动化技术和人文精神的合力，媒体界才能化解专业危机，在促进理性、开放、平等、多元的新型公共空间形成的过程中实现新媒介生态下的角色定位。此外，抛开算法和人类在新闻策展业务层面的分工问题，我们也要意识到算法运作逻辑使算法策展存在公平性和新闻伦理层面的隐忧，并且无法实现对良善社会价值的引导。新闻和信息产品的特殊性要求职业从业者用规范的新闻专业性完成对算法的规训，实现对公平、平衡等专业价值观的坚守，在人机协作的模式下继续发挥其社会功能，通过价值引领践行智媒时代的社会责任。