大LLM使用过程中的成本缩减策略

该研究概述并讨论了用户可以利用的三种策略来降低使用 LLM 的推理成本：1）prompt 适应，2）LLM 近似和 3）LLM 级联。此外，该研究提出了级联 LLM 一个简单而灵活的实例 FrugalGPT，它学习在不同查询中使用哪些 LLM 组合以减少成本并提高准确性。

论文地址：https://arxiv.org/pdf/2305.05176.pdf

Google发布生成式AI教程《Google Cloud Skills Boost》

https://baai.org/l/27311

马毅团队新工作｜突破黑盒，深度网络研究

https://baai.org/l/27317

大模型微调究竟需要多少数据

https://baai.org/l/27339

多样性，高质量这两个数据上的问题一直被认定是决定模型性能的天花板。

在目前的绝大多数微调模型，都是靠着大力出奇迹来实现一个较好的性能，这也是过去几个月大家都在卷数据量的一个真实写照。

但是否想过，openai这种什么技能都能做到的模型，在多样性上应该做了大量的工作，并且在数据量上应该没有太大的追求。

所以，最近的风向变成，是否可以利用少量的数据就能取得差不多的效果，这样的话，努力的方向就可以变成多样性数据的挖掘上，这可能是openai走通但我们没想明白的地方。

Yann LeCun-智源大会

https://mp.weixin.qq.com/s/Wu603Sk0QjwCKXhq4_aFFQ

这就是近年来一些流行的大模型的工作原理：其中一些来自 Meta 的同事，包括开源的 BlenderBot、Galactica、LLaMA、Stanford 的 Alpaca（Lama 基于 LLaMA 的微调版）、Google 的 LaMDA 、Bard、DeepMind 的 Chinchilla，当然还有 OpenAI 的 ChatGPT 和 GPT-4。
如果使用一万亿个 Token 或两万亿个 Token 的数据训练模型，它们将获得惊人的性能。但实际上，它们也会犯很愚蠢的错误（事实错误、逻辑错误、不一致性等），它们的推理能力有限，会产生有害内容。
大量研究表明，这些系统缺乏底层的现实知识，因为它们纯粹是通过文本来训练的，无法完全理解人类知识，无法真正规划答案。然而，这些系统在编写辅助工具、生成代码以及帮助程序员编程方面都非常出色。

你可以让他们做各种事情：用各种语言写代码、生成文本，而且效果很好。但同样，他们会虚构一些故事。如果你想获知真实的信息，我们不如使用信息检索系统、搜索引擎。
所以，这些系统对于写作辅助、初稿生成、统计出版都很有帮助（尤其对于写作语言非母语者）。但此类系统不擅长给出真实、一致的答案。对于一些数据集中存在的行为，它们可以做得很好。然而，对于推理，计划，做算术之类的问题，他们要用搜索引擎计算器数据库查询之类的工具来解决。它们还需要得到进一步的训练。
目前研究的一个热门话题是，如何让这些系统调用上述工具。这被称为扩展语言模型。我和 FAIR 的同事讨论了为扩展语言模型提出的各种技术。我们很容易被目前的 AI 系统流畅的性能所欺骗，以为他们很聪明，但实际上并非如此。这些系统非常擅长「提取记忆」。但是，他们并不理解世界的运行原理。这种基于自回归的生成存在一个主要的缺陷。

事实上，我认为，人工智能研究面临三大挑战：
（1）通过自监督学习习得表征并预测世界模型。当下的自监督和强化学习需要大量的样本和试验。我们要通过自监督学习，以一种任务无关的方式表征世界。学习用于规划和控制的预测模型。
（2）学会推理：犹如 Daniel Kahenman 提出的「系统 1 & 系统 2」的理论。系统 1 是一种与潜意识计算相对应的人类行为或行为，你不需要思考就能做的事情。系统 2 是有意识地用你的大脑的全部力量进行推理。当下的人工智能系统大多停留在系统 1 的阶段。
（3）学习规划复杂的动作序列。通过将复杂的任务分解成简单的任务来分层次地计划复杂的动作序列。