刊于《信报》,2025年4月28日
机密曝光风险难消 采中庸方案化解
许佳龙
科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授
笔者在本栏上两期的文章,分析了机构或企业应用AI大语言模型须知的要点,并厘清一些易生错觉的观念,包括目前开源大模型像DeepSeek、通义千问和文心一言等开放给用户免费使用,个别机构或企业下载了这些开源大语言模型后,别以为也可以结合自身的需要,对大模型自行作数据训练,从而使这个大模型能够配合到自身的应用,这只是一厢情愿想法。
诚然,机构或企业希望自身可对大模型进行数据训练,正如前文指出,原因有二,一是害怕机构或企业的用户私隐、或公司机密信息外泄,通过对大模型作自行数据训练,可以把私隐或机密信息密封,避免外泄之虞。二是想有一个适用于机构、公司以至个别专业行业应用场景的大语言模型。
微调与检索增强生成选择
从目前发展情况看,机构或企业想得到一个自身适用或行业板块的AI大语言模型,有两个方案可供选用,其一是「微调方案」,其操作是当我们下载了相关开源程序后,例如DeepSeek,在这个大模型的程序文文件上,再进行数据微调训练,但在训练过程中,采用大量与自身相关的特定数据,对大模型作出微调训练,使模型的输出反应,能够切合特定任务或专门领域的提问。
其二是「检索增强生成」(RAG)方案。简单来说,这个方案是机构或企业需要建构一个自身的文文件数据库。以医疗行业为例,我们建构一个庞大而相关的医疗文文件数据库,然后用一个程序接口(Application Programming Interface‧API),接入到这个大模型之中,让这个大模型直接在这个特定文文件数据库中,找寻并提取相关信息数据,作出响应输出。
RAG这个「检索增强生成」方案的成本较微调方案为低,而且毋须对AI进行重新训练,并结合外部的文档生成更精准的回答,似乎更符合一般机构或企业的选择。
机密文件外泄风险难除
但是,RAG方案也有一个问题——也是一个老问题——即机构或企业仍然需要把「自建」的数据库,寄挂在服务供货商的平台上。到㡳这些服务供货商会否百份百保证不挪取你数据库中的信息数据?虽然平台服务供货商有服务质素的保证,有「用户协议 」(User agreement),白纸黑字承诺不会挪取用户的数据信息,不过,个别机构或企业或始终放心不下,没有完全信心,举例来说,在某些国家或地区,若其法制容许通过法律指令,去强制平台必须透露用户的数据数据,在这种情况下,使用RAG这个方案,显然仍然未能保证机构或公司的机密信息或文档,可以封包得密不透风,不被挪用。
既然RAG方案仍带着私隐或机密数据可能外泄的风险,那么机构和企业可以怎么办?
取乎中庸的方案选择
一个安全的方案,笔者初步想到其中一个方法是,机构或企业可能需要与大语言模型服务供货商合作,一方面自行建构一个自身的数据库,然后下载一个大语言模型,在自身机构的范围内应用,还自己做RAG,不过仍然采用通用语言大模型,整个系统不是置于云端或服务商上,而是在自家机构的平台上应用。这样做,成本相对会较高,所需的程序和工序亦较多,要投入相当人力物力,但相对目前可行的方案选择中,这个方案,相对算是取乎中庸之道,不过,说到底,这个方案仍然需要得到像微软、阿里巴巴和DeepSeek等机构大量的配合和合作。
这个取乎中庸的方案,相信可符合机构或企业机密文件资料的保障要求;亦能够成功建立一个适合自身专业领域所需应用的生成式大语言模型。可以说,这个方案是在之前讨论的两个方案中,采用一种折衷性选择。
当然,相对彻底的做法,是采取「微调方案」,因为微调方案是把下载了大模型的程序后,用机构或企业自身「度身订做」的文文件及数据,去进行大语言模型训练,并嵌入了自身专业的行业知识和相关文文件,这个经微调的大模型,由始至终都可以为自身机构或企业之用。不过,这个方案所牵动的巨大成本,相信大部分公司或可能用不着。但从「一劳永逸」的角度说,「微调方案」会优胜一筹。
AI科技浪潮加速前行
总的来说,在人工智能技术快速发展的今天,技术应用的范畴也不断扩展,如何有效整合最新的 AI 技术,来增强企业的分析判断与决策能力,并且推动社会经济发展,是各相关持份方包括企业、技术研究人员以至政府决策官员关注的焦点。目前, 开发AI生成式大语言模型的应用潜力和应用范围,正有加速发展之势。AI如何改变商业发展模式和人类日常的生活习惯,这股发展新浪潮很值得我们密切留意。