AI大模型是人工智能开发、应用的基础设施,语料库则是训练和优化AI大模型的“养料”。今年,“顶流”AI大模型扎堆亮相文博会,其中,就有来自鹏城实验室的“鹏城·脑海”大模型,它是世界上规模最大的中文通用AI大模型基座。
为什么以中文为核心的AI大模型如此重要?有数据显示,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。“以ChatGPT为例,它的训练数据中,中文语料比重不足1%。国外的大模型中文语料占比少,它们训练出来的输出难以保证中国正确的价值观。”鹏城实验室大模型创新应用中心主任赵子莹告诉记者。
赵子莹表示,“鹏城·脑海”大模型以中文为核心,从底座训练开始,它的中文语料非常强大。据悉,作为一个全面国产、自主可控的大模型,“鹏城·脑海”能够保障大模型的数据安全隐私,输出内容符合以中文为核心的价值观,构建了安全保障和内容审核。
赵子莹称,面向数字政务、智慧金融、智能制造等应用场景,“鹏城·脑海”去年已正式向全社会开放。“中文价值观对很多领域的发展而言是非常重要的。目前,‘鹏城·脑海’正在为国家重大战略和各个地方经济发展进行全面的赋能。”
统筹:张纯青
策划:李琳
记者:尹珏文
摄像:冯登科
设计:陈伟红
校对:梁洁萍