刊于《信报》,2024年11月4日
「生成式AI」火热来龙去脉
许佳龙
科大商学院署理院长;信息、商业统计及营运学系讲座教授;艾礼文家族商学教授
在证券市场,与人工智能(AI)业务相关的股份,自2022年底OpenAI推出CHAT GPT后,随即横扫资本市场,即使相关企业没有显著的盈利成长,股价亦告倍翻。一股「生成式人工智能」(Generative artificial intelligence‧下简称「生成式AI」)热潮,直卷投资世界。
据美国史丹福大学「人本人工智能研究中心」(HAI)发表的《人工智能指数报告2024》(AI Index Report 2024)指出,全球生成式人工智能(Generative AI)投资额大增,2023年达到252.3亿美元,较2022年急升近9倍,比2019年投资额上升约30倍(《报告第四章,第 32页》。
集体憧憬 一窝蜂投资
一窝蜂的投资、巨大的资源投入,会否隐伏像上世纪九十年代互联网普及应用时,大家争相对互联网作出无限憧憬、投入巨大资源,后来形成泡沫,最终到 2000年初爆破的类似场景或危机?今天,生成式AI的发展浪潮方兴未艾,不少机构投入巨额资源,争相训练大语言模型,最终是否会形成投资泡沫,抑或是「物有所值」的前期投资?问题值得细心思考分析。
但要深入分析,探幽入微,必须了解这股生成式AI热潮的来龙去脉。笔者拟以一系列文章,对问题全面探究,让读者和投资者一起思考未来发展的个中关键。
人工智能其实并非一个新概念。在电子行业或电子计算专业,是一个已有一段时间的话题。过往,人工智能所解决的问题重点,是协助决策和进行预测,所设定的一套系统,用来预测未来事物发展的一些走向。以经营零售生意为例,假如公司设立了一套具「人工智能」的系统,通过输入公司过往的数据,包括交易纪录、客户群体特征、市场的客观环境数据等,把这些数据数据输入这个系统里,然后进行训练,透过分析大量数据,同时仔细检视过往的经验,得出一个「模型」,据此去预测产品的可能销售情况和走向。
传统与生成式人工智能之别
传统人工智能的有效判断或预测能力,取决于数据的质量和数量。过往几十年,电子行业不断发展这种人工智能技术,而发展出来不少成行成市的人工智能系统,挂在一些商业统计或数据分析系统里应用。可以说,过往的人工智能,其实就是从这些数据分析中,孳生出来的系统,亦即透过分析了大量数据,然后加入一个自动给出分析、判断和提议的「智能」,是以称之为「人工智能」(artificial intelligence,缩写为AI)。
当前在市场一片热哄哄的「生成式AI」又是如何孳生出来?扼要来说,一切的生成式AI皆来自「自然语言处理」(Natural Language Processing‧NLP),而自然语言处理则来自几个大应用,当中一个是文本分析。过去,传统人工智能面对一个困难,就是在进行数据分析时,必须先把数据整理好,行列条目归一,像一个电子表格,一切清𥇦有序,这样,机构需要花大量人手去整理数据。
传统的人工智能世界,机构所花大量的成本,并非花在「智能」上,而是耗于数据处理方面。把大量数据整理得清晰有序,能够置入系统里进行分析。这个数据的「整理」,成为传统人工智能发展的一个「无形关卡」。
当中也带出了一个「棘手问题」,即如何处理文本?如果有大量文件/数据数据,里面用的都是「自然文字/语言」,如何能够从这些自然语言读取到个中的意义,分析到文件的内容?这就顺理成章涉及到「自然语言处理」的范畴了。
聊天机器人的滥觞
严格来说,NLP是传统人工智能里的一个领域。然则何以这个细分领域,突然发展出当前那么烫手可热的生成式 AI?
这不得不由人类制造了「聊天机器人」(ChatBot)说起。事实上,这种由对话或文字进行交谈的计算机程序,其实也不是崭新概念。然而,之前所制作的机器人,是以「规则基准」(Rules-based system)作为系统运行的依据。
简单来说,传统的聊天机械人,按既定的规则基准,人家询问什么问题,机械人就按照之前所定的应答基准规则,向所定出的可能答案路径推进,就像以一棵「判定树」的形式进行,透过所询问题的关键词,在这个关键词所应对的「判定树」上的分支,道出问题所规范的答案。若再有其他问题或跟进问题,也是以这种方式,用所撷取的关键词,找出应对答案的路径 一层一层推进,找出/说出答案。
可以说,这种做法基本上也并未脱离传统人工智能的「目标性」窠臼,即根据以往的数据或经验,抽取出相关的内容作答或预测。
直到2017年,谷歌(Google)开发出一个称为「转移器」(Transformer)的「深度学习」(deep learning)架构,大跃进地推动机器攫取文字内容关系的深度学习,使生成式AI的面世取得突破性发展。有关这方面的突破,下周续述。
【生成式AI投资火热透视‧之一】