刊于《信报》,2025年4月14日

大模型度身订造 两方案可供选择

许佳龙

科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授

笔者前文讨论了机构使用AI语言大模型须知的要点,第一是,只要我们把像DeepSeek这类开源大模型整个下载到自身的服务器上应用,机构或企业的私隐和机密信息外泄风险忧虑,其实不用担心,但这种下载应用的场景有限。

第二是,机构若想拥有一个自身适切应用的大模型,「度身订造」(customize )一个可配合机构自身发展需要,或可供行业板块专门领域的应用,可有什么选择方案?本文续谈这个问题。

在基础大模型进行微调

在目前人工智能世界,有两个应用方案可供选用。第一个选择,是我们称为「微调」(Fine-tuning)方案。通过微调模型参数,重新训练一个新的大模型,让AI大语言模型的输出,切合我们的预期。不过,相对其他方案选择,微调方案的成本最高。

具体来说,我们把相关大模型的开源程序下载了后,在这个开源程序的文文件上,再进行数据训练,但在训练过程中,采用大量与自身相关的特定数据,对这个模型作出微调甚或强化学习(reinforcement learning),使模型的输出反应,能够切合特定任务或专门领域的提问。以医疗行业为例,如果机构想做出一个医疗咨询服务的大模型,便需要采用大量与医疗相关的数据、文献和过去的医疗个案纪录,亦即使用专门特定的文文件数据,在应用对象的基础模型进行微调训练,使之能够完成特定的任务,有效回答出特定或专门行业的相关问题。

微调方案的好处,是可以针对或因应个别行业的需求,训练出一个机构或企业可「专用」的大模型,切合到机构或企业的发展所需;而坏处则是训练成本相对高,虽然可能较预训一个基础大语言模型为轻,但耗用的训练成本也不菲。据媒体报导,杭州深度求索人工智能基础技术研究有限公司,利用技术创新开发DeepSeek大模型,耗用了约 500万美元。由于微调本身仍然需要足够的经验和技术,亦需要足量的芯片算力,以至需要管理及开发成本,因而微调一个大模型所花的成本,也可能动辄以百万单位计。因此,对于一般机构或企业来说,微调未必是一个最理想或可负担的选择。

自建文文件数据库

另一个可供选择的方案,我们称之为「检索增强生成」(Retrieval-augmented generation‧RAG)。目前,在网上也有供货商提供这种RAG服务。顾名思义,「检索增强生成」是赋予生成式人工智能模型检索信息能力的技术,据此对大型语言模型输出进行优化。其背后的概念,简单来说,是我们依然采用一个通用语言大模型,譬如用DeepSeek-R1这个基础版本,但我们把这个通用大模型,配合到我们自身建构的一个文文件数据库中。笔者再以医疗行业为例说明,首先,我们建构一个庞大而相关的医疗文文件数据库,然后通过这个数据库的程序接口(Application Programming Interface‧API),去接入到这个大模型之中,让大模型直接在这个特定文文件数据库中,找寻并提取相关信息数据,作出输出响应。

换言之,利用「检索增强生成」技术,使这个大模型在接收到用户的提问后,运用这个特定和具专业权威的数据库,生成相关专门或特定领域的响应。事实上,通用大语言模型用了海量数据进行训练,运用了几千亿个参数,为响应用户的提问、翻译以至生成文章的要求,生成出适切的响应输出。可以说,RAG是在大型语言模型强大的功能基础上,将其检索能力扩展为能够访问特定领域、或组织的内部知识数据库,以生成相关的回答。

RAG优化基础大模型输出

很显然,RAG是一种有效优化大语言模型输出的方法,运用RAG,使大模型能够为机构或特定行业生成适切、具准确性和配合自身机构或特定领域的响应输出。相对微调方案,RAG方案的成本为低。

对一些机构或企业来说,这可能是一个可取的选择方案。因为不需要重新训练大模型,只采用一个通用大模型,随后所需要做的工作和投入,是建立一个自身的数据库,通过一个程序接口,接入去这个通用大模型之中即可。

从目前所见,大部AI大语言基础模型服务供货商,都有提供RAG服务,包括微软的Copilot;阿里巴巴的通义千问,这类大模型平台公司,大都开发了RAG这方面的配套服务或工具,而且也有这些程序接口,让用户直接建构与机构自身或专业相关的「领域特定数据」(Domain specific data)文档,再配合这些平台上的大语言模型,机构或企业据此可完成取得RAG应用。不过, RAG的应用方案也不是毫无问题,囿于篇幅,另文续谈。

Read Article