刊于《信报》,20241111

从自然语言处理到ChatGPT之路

许佳龙

科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授

笔上周阐述和分析了生成式AI发展之路的序曲——传统人工智能的起点。到2017年,谷歌(Google)推出一个称为「转移器」(Transformer)的「深度学习」(deep learning)架构,以推进机器处理及了解文字的能力。所谓Transformer模型其实是使用一套数学技术,侦测一个系列中相互影响或依赖的数据原素,藉着由追踪序列数据中的关系,学习上下文之间的脉络及意义。这样一来,一些研究机构便从中得到发展启迪——即是否可以通过自然语言(尤其英文),当中的文法,词汇,用字之间出现的频率及先后次序,来发现字与字之间的关系,从而能够制造出一个聊天机器人,可以自行产生答案作答,与传统人工智能制造出来依靠「规则基准」作答有别。换言之,透过这个转移器,应用到机器深度学习网络系统里,就能够有效地从文本中学习语句,生产出贴切有用的信息。

要达致这个效用,必须要大量去了解到自然语言——英文,包括需要了解其文法、行文结构组织、字与字之间的关系、先后出现的频率等等。当中,若干研究机构各有重点发展方向,其中一家广为人熟识的研究机构,就是OpenAI。

ChatGPT横空面世

在谷歌于2017年开发了Transformer后,OpenAI便投入大量资源,把大量公共英文书以至电子书的文字,通过深度学习网络,融入Transformer的新技术,分析大量英文书的用词用句之间的频率和关系、出现的先后和行文结构等,从而训练出一个深度学习的神经网络,去协助机器人作答,当有人提出一个英文问题,便从大量用字用词之间的关系中,制造出与问题相关的答案。

OpenAI于2022年12月推出ChatGPT( Chat Generative Pre-trained Transformer‧中文直译为聊天生成预训练转换器),推出之后,令生成式AI的发展备受各方追捧,并予以无限憧憬。

可以想象,如果采用英文的文本数量愈多,作答所覆盖的可能性便愈大,亦即问题与可能答案「对口」的相关性愈高、愈适切。ChatGPT,其实是OpenAI 发展GPT的第3.5代了。很显然,聊天机器人模型背后的概念,其实就是GPT(生成预训练转换器)。追溯OpenAI发展GPT的历史,经过了GPT1, GPT2,GPT3,到GPT3.5,即是为人熟知的ChatGPT。目前已有ChatGPT4, GPT4.5(即在GPT4下的ChatGPT),GPT4-o,据闻未来的GPT5正在研发之中。

换代升级优化「智能」

每一代的分别有两端,其一,是新的版本加上了大量的文本,数量之巨,远超我们的想象力。已发展的GPT3或GPT4,所涵盖的英文书和文本数量,可能比美甚至多于世界任何一个图书馆的藏书量;同时亦加上网络上用户所产生的内容。其二,是在适当的地方,插入人工的判断。当预训了这个聊天机器人后,也会「告知」机器人,其作答的答案并非适切或最佳,有什么地方可以作出改善。透过这两方面的提升,不断去优化新的GPT版本,使聊天机器人的「智能」不断提升,写出来的答案不断进步和更为准确。

不过,想深一层,聊天机器人的应用场景其实很有限。目前,应用聊天机器人的,主要是银行或财金机构,或一般有客户服务部,即需要对应客户端频繁电话查询的机构。

应用飞跃的憧憬

然而,为何当前外界对生成式聊天机械人的反应如此热烈?其中一个最主要原因,是当大家突然间发现,原来可以用「英文对答」之下,产生很多内容,于是开始意识到,生成式聊天机械人不只是「聊天」那么简单,而可以协助我们解决很多平时用语言说出来的工作,这无疑是一个相当大的应用飞跃。

很显然,语言虽然只是一个媒体,但其背后所承载的,可以是很多不同专业的知识和经验,譬如会计、土木工程、专业数学以至财经金融,这些广阔无垠的知识和经验都是通过语言来表达。当透过深度学习技术得出来这个硕大无比的「聊天」模型,其应用其实已超出了纯语言沟通的范畴,而是透过语言这个媒介,触及到媒介背后所涉猎的各种专业知识。虽则聊天机械人本身未接受过任何专业训练,缺乏专业知识,唯一通晓的,是由深度学习神经网络和转换器技术,撷取及综合前人所阐述、经过沟通交流的相关专业知识和经验,并用语言呈现出来;按照前人所用的专业词句或文章写法,照办煮碗,用同样或类似的文字,去生成所需要回答的问题内容。

日前,据外媒披露,在ChatGPT面世即将满两周年,OpenAI公司预计12月前会推出新的AI旗舰模型,比当前的GPT-4强大100倍。但无论如何,生成式人工智能的「智能」,无疑有一定局限性,甚至其生成的内容隐藏「误读」,并非百份百正确,有机会误导用户。有关这个问题和机构一窝蜂开拓大数据语言模式之风,下周续谈。

生成式AI投资火热透视‧之二

Read Article