【摘要】生成式人工智能的爆炸式发展为其在新闻采编环节中的应用提供广阔空间。但由于生成式人工智能训练需要抓取海量信息等技术特征,应用其功能生产的新闻作品存在侵犯他人著作权的隐患。在现行法律框架下,需要新闻机构及其从业人员规避侵权风险,创新著作权授权使用模式,以促进生成式人工智能技术发展与权利人利益的平衡。
【关键词】生成式人工智能 新闻采编 著作权侵权
近两年,生成式人工智能技术及应用的爆发式发展,冲击着社会各行业的生产方式。由于生成式人工智能具有文本、图片、音频、视频等内容生成能力,与新闻内容的传播形式高度重合,又因其应用能够大大降低技术门槛、提高生产效率,生成式人工智能在新闻领域应用的探索不断扩展。
习近平总书记在《加快推动媒体融合发展 构建全媒体传播格局》中指出:“我们要增强紧迫感和使命感,推动关键核心技术自主创新不断实现突破,探索将人工智能运用在新闻采集、生产、分发、接收、反馈中,用主流价值导向驾驭‘算法’,全面提高舆论引导能力。”进一步推动生成式人工智能技术在新闻采编环节中的应用是提高舆论引导能力的内在要求,也将对新闻行业发展产生深远影响。作为新闻行业的生产主体,新闻机构应积极破除障碍、应对问题,推进生成式人工智能技术应用与发展。
由于生成式人工智能在训练阶段需要在互联网抓取或由训练者输入海量数据、在应用阶段需要输入成品相关资料等技术特征,在当前法律法规框架下,存在侵犯他人著作权的可能。这恰恰是新闻机构在从事新闻生产活动时应恪守的法律底线。因此,在生成式人工智能参与新闻生产实践的同时,明晰权责,从源头上警惕并防范生产的新闻作品侵犯他人著作权,是新闻机构从业人员在实践中理应也必须高度关注的问题。同时,新闻机构及其从业人员更应在人工智能语境下首先探索创新著作权授权和使用的模式,努力实现著作权权益和技术创新发展的平衡。
一、新闻采编环节应用生成式人工智能的可行性分析
2023年7月国家互联网信息办公室联合六部委发布的《生成式人工智能服务管理暂行办法》明确,生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。而新闻的载体同样是文本、图片、音频、视频,生成式人工智能的生成能力正好可以满足新闻生产的需求。同时,生成式人工智能生成速度快这一特点又能够较好满足新闻时效性要求。
从业界实践来看,在媒体融合发展这场“马拉松”式竞争中,生成式人工智能带来拉平机构媒体之间差距的可能,为媒体打开了新的战略窗口期。生成式人工智能至少在以下几个方面发挥价值,能够降低人力成本、提高生产效率,成为一些新闻机构“弯道超车”的关键。
一是在文字内容生产方面。在事实消息类新闻的快速发稿方面,生成式人工智能有着十分明显的优势。其能够利用数据分析优势,提取海量数据中的关键信息,按照预设快速生成新闻稿件,满足这类新闻时效性高的要求。目前,生成式人工智能已广泛应用于天气预报、体育比赛结果、财经类新闻生产中。
而人物报道、解释性报道、调查类报道、深度报道等显然不能依靠生成式人工智能直接生成稿件。首先,这些报道的生产更加依赖新闻价值判断,对新闻事件的敏感度、理解力,调查采访技巧,新闻事实挖掘等记者核心能力要求较高,而不是仅停留在文字流畅、逻辑通顺上。但生成式人工智能在此类新闻采编过程中,可以提供重复性高、较为繁琐的信息收集整理、采访录音整理、文字润色、校对等工作,以降低记者的工作强度。
二是在视频内容生产方面。随着短视频、互动视频等产品广泛占据受众注意力时代的到来,报纸尤其是一些细分行业类报纸对视频产品产出的短板愈加明显,生成式人工智能的视频生成技术恰恰是这类媒体借助技术跨越人才短板,发挥内容更具深度优势的机遇。
在视频新闻制作中,往往需要记者编辑花费大量时间进行素材挑选和剪辑等工作,这时生成式人工智能可发挥其算力优势,在海量素材中快速挑选合适的部分并进行剪辑,大大降低了记者编辑的事务性工作量,让他们能够专注于内容的挖掘和创新。特别是在一些开展视频新闻采集制作并不成熟的行业媒体,在新闻现场拍摄画面不能完全满足新闻制作或无法获得第一手视频素材的新闻报道中,需要大量使用积累素材和互联网视频素材,甚至一些演示性虚拟画面。此时,生成式人工智能文生图、文生视频、图生视频等功能能够满足视频新闻的报道需求。
二、生成式人工智能运用到新闻制作实践中的侵权风险
在极大提升编辑记者工作效率,提升新闻报道生产力的同时,需要警惕的是,使用生成式人工智能的新闻作品是否含有他人知识产权内容。
《生成式人工智能服务管理暂行办法》从提供和使用、训练两个维度明确了生成式人工智能不能侵犯他人知识产权。其第四条第三款明确,提供和使用生成式人工智能服务,应尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为。同时,第七条明确规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,涉及知识产权的,不得侵害他人依法享有的知识产权。
生成式人工智能的基本技术路径也分为两个维度,在生成程序维度中,经历数据输入阶段、机器学习阶段、内容输出阶段;在内容类型维度中,分为孪生内容、伴生内容、原生内容。其中,最可能侵犯他人知识产权的阶段,一是数据输入阶段,二是内容输出阶段。最容易侵犯他人知识产权的内容是孪生内容和伴生内容。作为与生成式人工智能生成作品联系最为紧密的一种知识产权,在考量其生成内容是否侵犯他人著作权时,应从生成式人工智能训练自动抓取和输入的海量数据是否侵权、生成的内容是否侵权两方面来看。
(一)训练数据侵权风险分析。知识产权的内在逻辑是一种排他权利,是独占或垄断的专有权受到法律保护。生成式人工智能如果抓取大量互联网公开信息进行训练,其中就包含大量他人著作权内容。
具体到新闻领域,《中华人民共和国著作权法》(以下简称“著作权法”)规定,单纯的事实消息不受著作权法的保护。生成式人工智能使用互联网上的海量事实消息进行文本训练,依据输入的新近发生的事实,形成新的事实消息,这一过程不存在侵犯他人著作权的情形。这也是天气新闻、体育新闻等事实性报道能够使用生成式人工智能报道的原因。
但随着移动互联网的发展、自媒体的兴盛、全社会信息量的爆炸,受众对新闻的需求不仅仅是“新近发生的事实”,更多的是了解发生事件前因后果,对各类信息甚至观点的整合分析。因此,新闻业态越来越多地从单纯事实消息向带有信息筛选分析、调查、观点等加注采编人员智慧劳动的新闻作品转换。这些带有独创性表达的新闻作品是理应也正在受到著作权保护。此外,图片新闻、视频新闻因不属于单纯事实消息,也受到著作权法保护。
现行著作权法中,为平衡作品的创作与传播,对一定限度的合理使用进行了规定。在合理使用范畴内,可不经著作权人许可免费使用作品。目前,生成式人工智能的学习是否能适用合理使用规则,在国内尚无定论。法学界对此众说纷纭,其核心是如何平衡权利人利益和促进传播的此消彼长的关系,以及和技术发展的关系。
如果生成式人工智能学习数据适用合理使用规则,则侵权问题迎刃而解,问题在于这样就忽略了权利人的权益,不利于激发创作热情。如果生成式人工智能训练所使用数据不适用合理使用规则,则要得到权利人授权许可。在这种观点中,对于普遍意义的著作权,存在着辨别侵权、获得著作权操作难度大,从而限制了传播的问题。
2023年12月,《纽约时报》对OpenAI和微软公司提起诉讼,指控OpenAI未经许可使用其数据进行生成式人工智能训练,侵犯了《纽约时报》的著作权。此后不久,美国8家媒体又一次对OpenAI和微软公司提起诉讼,指控其在未经许可的情况下,使用了它们的新闻作品来训练生成式人工智能,要求赔偿损失并停止侵权行为。据媒体报道,在这两个诉讼之前,OpenAI也与一些媒体达成了版权协议,付费使用新闻作品进行生成式人工智能训练。目前,国内尚无媒体和人工智能公司纠纷案件发生。虽然这些国外案件还未审结,但已能够看出,从商业角度考量,使用版权新闻作品训练生成式人工智能存在巨大利益空间。这是新闻机构不能忽视和轻易放弃的权益。同时,妥善解决生成式人工智能训练数据合规性问题也是新闻机构使用其进行生产的前提。
(二)生成内容侵权风险分析。相较于训练数据不公开带来的侵权隐形性,生成内容侵权更容易判定。一旦生成内容公开,就有条件通过作品的相似性认定其是否侵犯他人著作权。
在此层面,我国已有著作权侵权司法案例。2024年2月,广州互联网法院审结一起某人工智能平台侵犯奥特曼系列作品著作权案件。该案件中,当用户要求该平台提供的AI绘画功能生成奥特曼相关图片时,生成的形象与原告享有著作权的奥特曼形象构成实质性近似。法院认定,该平台侵犯了原告对涉案作品的复制权、改编权。通过该案例可以看到,侵权生成物一方面来源于训练数据,另一方面也与使用者输入指令高度相关。
从技术角度看,生成式人工智能在数据输入阶段后,经过机器学习阶段,到达内容输出阶段。内容输出阶段是生成程序的终局环节,根据指令输入与内容输出的对应程度高低,生成式人工智能可以将内容输出依次分为孪生内容(AI对使用者输入指令的同比例复制)、伴生内容(AI对使用者输入指令的差异化表达)、原生内容(AI对使用者输入指令的创造性表现)。这再次印证了,生成式人工智能的著作权侵权风险一方面来源于未经授权的训练数据,另一方面来源于用户输入内容。
在著作权法框架下审视人工智能生成的新闻作品的侵权问题,著作权法规定,为报道新闻,在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益。合理使用制度虽然“豁免”了生成式人工智能新闻作品的再现或引用时对他人著作权的财产权利,但规定应指明作者姓名或者名称、作品名称,实则仍然保护著作权人的人身权利。此外,《最高人民法院关于审理著作权民事纠纷案件适用法律若干问题的解释》第十六条规定,通过大众传播媒介传播的单纯事实消息属于著作权法第五条第(二)项规定的时事新闻。传播报道他人采编的时事新闻,应当注明出处。这也要求新闻机构和新闻采编人员应高度关注、严格要求生成式人工智能生成的新闻作品中引用他人新闻作品在内的所有著作权作品的格式,以防侵犯他人著作权的人身权利。
三、生成式人工智能应用于新闻采编的防侵权应对
互联网抓取内容看似“免费”,实则掺杂大量拥有著作权的内容。
排除训练数据著作权侵权风险,才能促进生成式人工智能技术长足发展。首先,法律层面应尽快通过修法或判例明确生成式人工智能使用著作权内容规则,为生成式人工智能技术发展和应用“拨开迷雾”。其次,将生成式人工智能成熟应用于新闻采编实践,还需要新闻行业的共同努力,积极应对。
在现行法律法规框架下,取得权利人授权是最可行的解决方式之一。虽然一般著作权人分散的特点导致了生成式人工智能取得海量权利人授权的难点,但新闻作品相较于一般著作权人,有着天然的集中优势。由于历史上大量新闻相关数据由新闻机构掌握,授权使用方式获得数据有更大可能性和更多路径。著作权法在第三次修正中规定,报社、期刊社、通讯社、广播电台、电视台的工作人员创作的职务作品,作者享有署名权,著作权的其他权利由法人或者非法人组织享有。这种集中拥有著作权的情形,为创新授权方式提供了可能。
笔者认为,我国各级新闻媒体机构组织联系较为紧密,可以由行业协会牵头,以新闻机构联盟为纽带,建立类似于专利池运营模式的版权池。版权池汇集大量新闻文字数据、新闻图片和新闻视频,以集体授权方式,将新闻作品数据有偿授权给生成式人工智能公司使用,用于训练专门的新闻作品生成式人工智能以及面向社会大众使用的生成式人工智能。新闻机构可向生成式人工智能公司购买生成式人工智能服务用于新闻生产。此外,新闻机构也可与生成式人工智能公司共同探讨签署数据授权和产品使用互换等各类权益交换协议。参考我国一些媒体联盟与互联网平台有关新闻作品授权使用的实践,例如2019年中国财经媒体版权保护联盟与“学习强国”学习平台签订了《战略合作备忘录》,双方达成先授权后使用的协议,版权联盟协调成员单位将其公开刊发的新闻作品及其他相关作品(文字、图片、音频、视频),授权“学习强国”学习平台免费转载使用,而“学习强国”学习平台将以适当方式为转载的联盟成员单位所刊发作品提供免费展示和推广服务。
此方式将人工智能训练数据集限定在固定的新闻数据上,无需生成式人工智能抓取互联网数据进行训练,一方面避免了权属之争,从根本上解决生成式人工智能产生的新闻作品涉嫌侵权的问题,打破生成式人工智能训练数据量不足的障碍,促进技术发展和应用,为新闻机构提供更智能、更专业化的生成式人工智能工具。另一方面,由于新闻机构在新闻报道中使用审校制度、坚持新闻真实性等原则,这一版权池方式收集和利用的数据集相较于广泛互联网信息更具真实性和准确性,也能在一定程度上解决生成式人工智能生成新闻作品误用虚假消息带来的不准确、不可信问题。此外,结成版权池更利于新闻机构与生成式人工智能公司进行议价,有利于新闻机构的版权运营和变现。所以,在生成式人工智能训练数据普遍意义的著作权权属争议未尘埃落定之前,新闻行业完全可以先行动起来,掌握技术应用先机。
另外,对于新闻采编工作者来说,使用生成式人工智能时,应以审慎态度谨防著作权侵权发生。人工采编新闻作品内容完全在编辑记者的掌控中,所以对于严格引用其他作品或时事新闻的格式可以准确控制。由于生成式人工智能训练数据、训练过程的不可知性,生成物的侵权部分不容易被察觉,这就要求编辑记者在使用生成物时严格审校,谨慎对涉及他人著作权部分进行甄别。此外,在向生成式人工智能输入原始素材时,也要保证输入内容不侵犯他人著作权,同时要求生成式人工智能对使用的他人新闻作品注明出处。
《生成式人工智能服务管理暂行办法》第五条规定,鼓励生成式人工智能技术在各行业、各领域的创新应用,生成积极健康、向上向善的优质内容,探索优化应用场景,构建应用生态体系;采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。从促进技术发展和应用的角度来看,新闻机构及从业人员应以主动拥抱的姿态来面对生成式人工智能新闻技术发展。在新闻实务中,记者和编辑是AI生成内容的第一把关人、第一责任人,要清晰认识到AI的能力边界和潜在风险,坚持底线思维,避免过度依赖和不当使用。新闻机构将生成式人工智能应用于新闻采编工作时,应进一步梳理使用规则和审核流程,以制度化手段规避潜在侵权风险,避免不当使用。对于生成式人工智能带来的知识产权侵权等问题,在相关法律法规尚无更为明确的界定和规制前,全新闻行业应在不违反现行法律法规前提下,尽可能打破藩篱,平衡版权权益和技术发展的关系,以更为积极的态度寻求有利于技术发展的解决方案。(参考文献略)
作者:杨柳 中国知识产权报记者