2023年6月10日上午,线上参与了北京智源大会,主要观看了2023北京智源大会-基础模型前沿技术论坛,以下是论坛中比较感兴趣的点和思考。
本次论坛的演讲嘉宾如下:
上述嘉宾有来自业界的刘胤晗老师和周彦祺老师,也有来自学界的刘知远老师、刘鹏飞老师和刘静老师以及来自研究院的林咏华老师。这些嘉宾中,我最熟悉的莫过于提示学习(Prompt Learning)的缔造者刘鹏飞老师啦~ 听闻他现在已经入职上交开展后续研究工作。
各位老师报告的内容大家可以访问2023北京智源大会-基础模型前沿技术论坛自行回顾,在这里我重点谈论自己对于圆桌讨论这一环节中的内容比较感兴趣的研究点。PS:观看视频过程中,我们可以享受到百度AI同传技术带来的实时语音识别与翻译,大大提升了观感~
刘鹏飞老师提到,pretrain model & prompt learning 可以看作是“存 & 取” 的过程,这其中的要点在于不对等的信息差异。这个角度很新奇,是我之前没有想到过的。他目前比较感兴趣的点是 AI for Mathematics ,就是用 AI 来解数学题。此外,还提到 LLM 对于结构化数据如 json 和 html 数据的理解能力。
刘静老师站在学术研究的角度为我们讲述了大模型时代,在感知大模型与决策大模型的不断涌现下,科研的“可行路径”,其中之一便是与企业形成“互补” —— 虽然我们无从得知企业的 secret recipe,但可以通过合作的方式为产品落地增速,更好地服务大众。二是做探索性的研究,如 AI for science。此外,刘老师还提到 prompt 工程师可能是在未来几年会消失的职业,鉴于 soft prompt learning 已经发展得如火如荼。
刘胤晗老师,RoBERTa, BART, 和 mBART 的提出者,这次作为Brich.ai的核心创始人兼CTO进行报告。十分有幸在本次论坛中见到!她提到,LLM 生成质量的两个关键点在于 RLHF 和 reward model. 此外,通用人工智能(Artificial General Intelligence ,AGI)在专业领域并不必要,因为企业是有自己的模型的,而现有的大模型存在安全隐患,处于隐私保护的考虑,所以大模型并不会成为企业的首选。对于他们公司而言,接触到的是 health-care 这种类型的数据,训练过程中,对于海量数据,他们会采用 sliding window 的方式来提高训练效率。不知道这和我理解的并行有何相关性。
周彦祺老师,谷歌研究科学家,T5 模型的共同提出者,她研究的主要是 MoE,全称 Mixture-of-Experts,即混合专家系统,最新论文为Mixture-of-Experts with Expert Choice Routing (NIPS 2022)。这一概念在之前我从未听说过,简单了解发现原来已经有很多相关的研究了,比如视觉模型 V-MoE、语言模型 Switch Transformers 以及多模态模型LIMoE. 个人感觉 MoE 与 集成学习有一些相通之处,都是多个决策者的决策集合。此外,周老师提到关于 LLM 推理过程中使用的 auto-regression 是否可以 in parallel 是值得探索的一个方向。不过我认为,auto-regression 更符合人类进行语言表达的习惯,毕竟语言是时序信息,还有一种可能是,我们已经在大脑中完成了语言的并行化,只是需要在时序空间内依序表达出来,这就是认知科学需要研究的范畴了~
此外, 讨论过程中老师们还提到AI产生的 hallucination 问题,对此也有相关研究,这一问题也十分值得探索。
附本次论坛中学习到的一些专业术语:
SFT:有监督微调 Supervised Fine-Tuning,对应的训练数据就是 SFT data
ROI:投资回报率 Return On Investment
参考资料
- MoE in Large Model - 知乎 (zhihu.com)
- 稀疏大模型简述:从MoE、Sparse Attention到GLaM_夕小瑶的博客-CSDN博客
- Scaling Laws for Neural Language Models - 知乎 (zhihu.com)
- ChatGPT原理详解+实操(1)----SFT(GPT模型精调) - 知乎 (zhihu.com)
- GPT-4的“hallucination”(幻觉)相关对策 - 知乎 (zhihu.com)