刊于《信报》,2025年4月7日
机构应用AI大语言模型须知要点
许佳龙
科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授
笔者过去在本栏撰写了多篇文章,探讨了AI大语言模型背后的一些生成逻辑和应用共通点。近日DeepSeek 大语言模型的面世、阿里巴巴的聊天机器人「通义千问」等开放免费使用,让我们看到这类大语言模型愈来愈倾向开源发展;加上开发成本愈来愈低,使生成式AI普及应用之路,又向前跨出了一大步。
在此发展大趋势下,机构或企业多不想落后于形势,想充份利用新科技发掘出新的发展商机。最近,有些机构高层与我们讨论并表示,其所属机构正考虑如何应用生成式AI,因为看到DeepSeek 能够以低成本开发,却取得丰硕的成果,大模型对用户的提问,输出了令人满意而详细的响应,于是一些机构也很想自身拥有一个大语言模型,以配合助力机构的发展应用。
这个发展憧憬和愿望,大家是否可做得到,如愿以偿?问题很值得讨论。笔者手头有一些数据,或可供参考。
再进行数据训练成本不菲
表面看, DeepSeek大语言模型面世,这个大模型的数据训练成本相对OpenAI的ChatGPT大大降低,然而成效却足以匹敌,于是可能以为,原来训练生成式AI可以那么简易,大家也可以自行制造,得到一个适用于机构或企业自身特殊应用的AI大模型?
走笔至此,笔者想首先厘清一个观念——纵使有了开源式DeepSeek这种AI 技术创新应用或训练方式,不过,如果我们下载一个像DeepSeek这种开源大语言模型,并且需要全面地训练这个整体模型,以配合自身机构的发展之需,所耗用的训练成本,实在非一般公司愿意或能够承担得起。据DeepSeek的官方报告,DeepSeek所用的训练成本约 500万美元。这个数字,对一般机构或企业来说,负担绝不轻松。
笔者和同事曾尝试运用一个DeepSeek蒸馏版的较小模型,当中只有 700亿个参数,并采用一个价值只需几万元的服务器来操作,结果,即使可以操作和应用,但这始终只是一个经蒸馏的小模型,不可以与DeepSeek有几千亿个参数的全版本模型相提并论。事实上,一个几千亿个参数的大模型,显然不是一般企业轻易可及,即使大企业也需要购入大量芯片,积累足够算力,才能取得像DeepSeek-R1 这样的效果。
因此,即使有了像DeepSeek、通义千问和文心一言这类开源大模型程序,但并不代表一般公司也可以据此语言大模型,进行配合自身需要的大数据训练,建构出一个自身可「专用」的AI大模型,对这一点认识很重要。
机密信息外泄风险忧虑
那为什么一些公司渴望进行自身的大数据训练?原因可能有二,其一是公司有一些机密信息内容,不想暴露于外,遂不敢上载到云端,于是对由第三方服务供货商在云端提供的一个生成式语言大模型应用,有所疑虑。笔者所接触的机构,不少有这种想法。
譬如,监管机构或政府机构未必敢冒险,把客户的资料、或自身进行调查得出来的机构信息内容,放置到由第三方云端管理的语言大模型上,担心这个由第三方云端管理的大模型,一旦吸纳了这些机密信息内容,并运用到其大模型进行大数据训练,这些「机密性」信息便有机会落入或暴露到外人手中。另一方面也要担心个别用户的私隐问题。这些忧虑,其实也可以解释为什么各国政府都积极研究能否发展自己国家的大模型。
的确,没有人知道上传的数据之后会如何运用,是否会变成大模型数据训练的其中信息内容?基于这种忧虑,有不少公司不敢使用这些语言大模型公司的服务,避免私隐和机密信息出现潜在外泄风险。事实上,过往也有媒体报导过,一些机密信息内容嵌进了ChatGPT后,其他客户找到了相关信息。
目前,开源大语言模型相继推出后,普及应用情况的确有所提升。不过,除非我们把这整个开源大模型下载到自身的服务器上应用,否则,私隐和机密信息外露的风险,始终未能消除。
「度身订造」适切应用场景
换句话说,我们须要清楚,DeepSeek是一个开源大模型,但若果用户下载了这个大模型后,毋须对此重新进行数据训练,不用「度身订造」(customize)个别的适切应用,只是把整个DeepSeek大模型放置在机构或公司自身的服务器上应用,其实不用担心有关私隐和隐机密信息外泄的问题,但此举的应用无疑有局限性。
除了担心私隐或担心机密数据外泄问题外,另一个原因,是机构想拥有一个自身适用的大模型,可配合机构特殊的应用场景,或者配合到自身行业板块之用,例如医疗行业或者金融行业,这类机构往往倾向训练一个我们称为context specific,亦即与其行业应用场景相关、可针对性应用的语言大模型。
如何解决这个问题?很显然,即使把DeepSeek这个大模型下载到自身公司的服务器上应用,也解决不了问题,因为DeepSeek只是一个通用大模型,并非专门针对个别板块行业的应用。如果我们要获得一个为自身「度身订造」或行业专用的语言大模型,是有选择方案的。囿于篇幅,另文讨论。