[arXiv 2025]BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM

ops/2025/3/6 3:44:07/

论文网址:BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM

论文代码:https://github.com/1994cxy/BP-GPT

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Method

2.3.1. fMRI to Text Decoding

2.3.2. Training

2.3.3. Inference

2.4. Experiment

2.4.1. Dataset

2.4.2. Implementing Details

2.4.3. Baseline and Evaluation Metrics

2.4.4. Evaluation the Text Prompt

2.4.5. Evaluation of fMRI to Text Decoding

2.4.6. Ablation Study

2.5. Conclusion

3. Reference


1. 心得

(1)不好意思哈xd这么早给你扒来读了,只是刚好看到了,就当宣传了,github多来点Star也不是不行

(2)还只有四页,轻松愉悦看一看

(3)一天一论文,头发远离我

2. 论文逐段精读

2.1. Abstract

        ①现存问题:现有的LLM在从fMRI中提取语义的时候没有端到端?????有点以偏概全了,我觉得不是一个很好的limitation

        ②They proposed Brain Prompt GPT (BP-GPT) to decoding fMRI by aligning fMRI and text

2.2. Introduction

        ①我很欣赏你,用一句名言开头。只有小登的世界是这样的,一本真正的故事会,而不是八股。

“The limits of my language mean the limits of my world” - Ludwig Wittgenstein.

如果作者认为语言带来了理解,这总有一种不能进步的意味。实际上造词这种东西时有发生,我们的词袋也一直更新,但ai似乎不能自动更新捏。

        ②The frequency of pronouncing is different from BOLD reaction

        ③Chanllenge: decoding multi words in one repetition time (TR)(这个现存问题不比上面那啥端到端正常???)

        ④Framework of BP-GPT:

(这图片还可以再优化一下吧....)

2.3. Method

2.3.1. fMRI to Text Decoding

        ①Encode fMRI by:

P_i^B=\mathbf{E}_\eta(x_i^B),

where \mathbf{E}_\eta denotes encoder, x_i^B denotes fMRI signal.

        ②BCELoss of fMRI encoder:

\mathcal{L}_{brain} =-\sum_{i=1}^{N}\log p_{\eta}(W|P_{i}^{B}) \\ =-\sum^{N}\sum^{\mathcal{L}}\log p_{\eta}(w_{j}|p_{1}^{B},\ldots,p_{k}^{B},w_{1},\ldots,w_{j-1})

        ③The similarity between positive pair fMRI prompt and text prompt:

S_p=\exp(cos(P_B^i\cdot P_T^i)/\tau)

where \tau is temperature hyperparameter

        ④Negative pairs from different samples, the similarity is calculated by:

S_n=\exp(\cos(P_B^i\cdot P_B^j)/\tau)+\exp(\cos(P_B^i\cdot P_T^j)/\tau),i\neq j

        ⑤The contrastive loss:

L_{\mathcal{C}}=-\mathbb{E}\left[\log\frac{S_p}{S_n}\right]

2.3.2. Training

        ①BCEloss is for training text prompt, and the decoder is trained by:

L=L_{brain}+\alpha L_{C}

2.3.3. Inference

        ①The length of sentence is different from fMRI windows. "当前解决方案在最近的工作中利用字率模型来预测参与者感知的单词数。当生成的文本长度满足字率模型预测的字数时,文本生成过程将停止。虽然这种方法可以解决问题,但它并没有充分利用 LLM 的特性。"

        ②So they add $ in the real text:

based on TR

2.4. Experiment

2.4.1. Dataset

        ①Dataset: 

A. LeBel, L. Wagner, S. Jain, A. Adhikari-Desai, B. Gupta, A. Morgenthal, J. Tang, L. Xu, and A. G. Huth, “A natural language fmri dataset for voxelwise encoding models,” Scientific Data, vol. 10, no. 1, p. 555, 2023.

        ②Subjects: they choose 3 from 8

        ③Situation: passively listened to naturally spoken English stories such as The Month and New York Times Modern Love podcasts

2.4.2. Implementing Details

        ①\tau =0.1

        ②\alpha =1

        ③Time series windows for fMRI sequence and corresponding text: 20s with no gap

        ④Length of prompt: k=30

        ⑤Input dimesion of BERT: 512

        ⑥Layer of Transformer: 8 with 8 head

        ⑦Optimizer: AdamW

        ⑧Batch size: 32

2.4.3. Baseline and Evaluation Metrics

        ①Test set: story “Where There's Smoke”

2.4.4. Evaluation the Text Prompt

        ①Performance:

2.4.5. Evaluation of fMRI to Text Decoding

        ①Performance table:

2.4.6. Ablation Study

        ①Contrastive module ablation:

        ②Fine tune ablation:

2.5. Conclusion

        ~

3. Reference

@article{chen2025bp,title={BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM},author={Chen, Xiaoyu and Du, Changde and Liu, Che and Wang, Yizhe and He, Huiguang},journal={arXiv preprint arXiv:2502.15172},year={2025}
}


http://www.ppmy.cn/ops/163487.html

相关文章

Ai-web 1.0靶场通关攻略

1.环境 虚拟机:kali 靶机:ai-web-1.0 2.获取靶机ip 确认靶机ip为192.168.13.160 3.获取绝对路径 用御剑扫描发现两个路径 http://192.168.13.160/robots. txt和http://192.168.13.160/index.html 发现一些路径 用kali的dirb扫描发现一个info.php文件…

Spring Cloud Alibaba学习 4- Spring Cloud Gateway入门使用

Spring Cloud Alibaba学习 4- Spring Cloud Gateway入门使用 中文文档Spring Cloud Gateway 中文文档 一. 基本使用 1. Predicate配置 1.1 配置参数介绍 直接通过官方给的application.yml介绍,这里就不介绍简写方式了,直接介绍完整方式 spring:clo…

Jedis、Lettuce和Redisson性能设计

一、Jedis源码级学习要点 1. 线程模型与连接管理 阻塞式I/O设计:通过Socket直接建立连接,每个命令发送后线程会阻塞等待响应25连接池实现:JedisPool管理物理连接,避免线程安全问题,核心类GenericObjectPool实现连接复…

Skynet入门(一)

概念 skynet 是一个为网络游戏服务器设计的轻量框架。但它本身并没有任何为网络游戏业务而特别设计的部分,所以尽可以把它用于其它领域。 设计初衷 如何充分利用它们并行运作数千个相互独立的业务。 模块设计建议 在 skynet 中,用服务 (service) 这…

中科大 计算机网络组成原理 1.4 接入网和物理媒体 笔记

一、接入网核心功能与架构 ‌核心作用‌ 接入网是连接用户终端与核心网络的桥梁,承担用户身份认证、带宽分配、数据加密等功能,直接影响网络服务的可靠性和用户体验。例如,杭州电视台的数字人主播通过光纤专线实现零失误新闻播报,…

Unity插件-Mirror使用方法(五)组件介绍(​Network Identity)

目录 一、插件介绍 二、主要组件 Network Manager Network Manager HUD 三、Network Identity 1、组件介绍 2、核心功能 网络唯一标识 同步生命周期 权限管理 组件依赖 3、关键属性与配置 4、基础使用方法 1. 添加与配置 2. 脚本中的访问 5、高级功能与示例 1…

Arm64架构的Linux服务器安装jdk8

一、下载 JDK8 打开浏览器,访问 oracle官网找到适用于自己服务器的 arm64 架构的 JDK8 安装包。 二、安装 JDK8 将下载好的 JDK 压缩包上传到服务器上 解压 JDK 压缩包: tar -zxvf jdk-8uXXX-linux-arm64.tar.gz选择安装目录,我将 JDK 安装…

AI大模型-提示工程学习笔记22-元提示(meta-prompting)

目录 1. 元提示的核心思想 (1) 传统提示的局限性 (2) Meta-Prompting 的解决方案 2. Meta-Prompting 的工作流程 (1) 元提示输入 (2) 提示生成 (3) 提示评估 (可选) (4) 提示选择 (可选) (5) 任务执行 3. Meta-Prompting 的关键组件 (1) 大语言模型 (LLM) (2) 元提…