大语言模型(LLM)像大脑一样,它们是由 “神经元” 组成的,它们观察文本中的一些特定模式,以影响整个模型接下来 “说” 什么。但由于 LLM 中的参数数量多到已经无法由人类解释的程度,因此,LLM 给人一种 “黑盒” 的感觉,并出现了偏见、幻觉、涌现等一系列不好解释的现象。
近日,OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》,震惊了全网。OpenAI最新研究利用GPT-4自动进行大语言模型中神经元行为的解释和评分,并将其应用于另一种语言模型GPT-2(包含307200个神经元,15 亿个参数),公开了这些GPT-2神经元解释和分数的数据集。这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性,从而更好地理解智能是如何工作的。
“我们的目标是使用 Al 来帮助我们理解 Al”,OpenAI 的这一研究对 AI 行业意味着,利用GPT-4和机器学习技术就能定义、测量 AI 可解释性,未来在神经元层将会产生“大模型比人脑更会思考”技术趋势。
文章称目前GPT-4生成的可解释实验还不完美,当比GPT-2更大模型时解释表现效果很差。神经元复杂行为无法用简短的自然语言描述,OpenAI 解释了神经元的这种行为,却没有试图解释产生这种行为的机制,而且整个过程算力消耗极大等。
OpenAI 希望在未来的工作中可以解决上述这些问题,最终OpenAI希望使用模型来形成、测试和迭代完全一般的假设,从而比肩人类大脑的想法和行为,以及将其大模型解释为一种在部署前后检测对齐和安全问题的方法。