[arXiv 2025]BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM

server/2025/3/6 5:15:42/

论文网址:BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM

论文代码:https://github.com/1994cxy/BP-GPT

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Method

2.3.1. fMRI to Text Decoding

2.3.2. Training

2.3.3. Inference

2.4. Experiment

2.4.1. Dataset

2.4.2. Implementing Details

2.4.3. Baseline and Evaluation Metrics

2.4.4. Evaluation the Text Prompt

2.4.5. Evaluation of fMRI to Text Decoding

2.4.6. Ablation Study

2.5. Conclusion

3. Reference


1. 心得

(1)不好意思哈xd这么早给你扒来读了,只是刚好看到了,就当宣传了,github多来点Star也不是不行

(2)还只有四页,轻松愉悦看一看

(3)一天一论文,头发远离我

2. 论文逐段精读

2.1. Abstract

        ①现存问题:现有的LLM在从fMRI中提取语义的时候没有端到端?????有点以偏概全了,我觉得不是一个很好的limitation

        ②They proposed Brain Prompt GPT (BP-GPT) to decoding fMRI by aligning fMRI and text

2.2. Introduction

        ①我很欣赏你,用一句名言开头。只有小登的世界是这样的,一本真正的故事会,而不是八股。

“The limits of my language mean the limits of my world” - Ludwig Wittgenstein.

如果作者认为语言带来了理解,这总有一种不能进步的意味。实际上造词这种东西时有发生,我们的词袋也一直更新,但ai似乎不能自动更新捏。

        ②The frequency of pronouncing is different from BOLD reaction

        ③Chanllenge: decoding multi words in one repetition time (TR)(这个现存问题不比上面那啥端到端正常???)

        ④Framework of BP-GPT:

(这图片还可以再优化一下吧....)

2.3. Method

2.3.1. fMRI to Text Decoding

        ①Encode fMRI by:

P_i^B=\mathbf{E}_\eta(x_i^B),

where \mathbf{E}_\eta denotes encoder, x_i^B denotes fMRI signal.

        ②BCELoss of fMRI encoder:

\mathcal{L}_{brain} =-\sum_{i=1}^{N}\log p_{\eta}(W|P_{i}^{B}) \\ =-\sum^{N}\sum^{\mathcal{L}}\log p_{\eta}(w_{j}|p_{1}^{B},\ldots,p_{k}^{B},w_{1},\ldots,w_{j-1})

        ③The similarity between positive pair fMRI prompt and text prompt:

S_p=\exp(cos(P_B^i\cdot P_T^i)/\tau)

where \tau is temperature hyperparameter

        ④Negative pairs from different samples, the similarity is calculated by:

S_n=\exp(\cos(P_B^i\cdot P_B^j)/\tau)+\exp(\cos(P_B^i\cdot P_T^j)/\tau),i\neq j

        ⑤The contrastive loss:

L_{\mathcal{C}}=-\mathbb{E}\left[\log\frac{S_p}{S_n}\right]

2.3.2. Training

        ①BCEloss is for training text prompt, and the decoder is trained by:

L=L_{brain}+\alpha L_{C}

2.3.3. Inference

        ①The length of sentence is different from fMRI windows. "当前解决方案在最近的工作中利用字率模型来预测参与者感知的单词数。当生成的文本长度满足字率模型预测的字数时,文本生成过程将停止。虽然这种方法可以解决问题,但它并没有充分利用 LLM 的特性。"

        ②So they add $ in the real text:

based on TR

2.4. Experiment

2.4.1. Dataset

        ①Dataset: 

A. LeBel, L. Wagner, S. Jain, A. Adhikari-Desai, B. Gupta, A. Morgenthal, J. Tang, L. Xu, and A. G. Huth, “A natural language fmri dataset for voxelwise encoding models,” Scientific Data, vol. 10, no. 1, p. 555, 2023.

        ②Subjects: they choose 3 from 8

        ③Situation: passively listened to naturally spoken English stories such as The Month and New York Times Modern Love podcasts

2.4.2. Implementing Details

        ①\tau =0.1

        ②\alpha =1

        ③Time series windows for fMRI sequence and corresponding text: 20s with no gap

        ④Length of prompt: k=30

        ⑤Input dimesion of BERT: 512

        ⑥Layer of Transformer: 8 with 8 head

        ⑦Optimizer: AdamW

        ⑧Batch size: 32

2.4.3. Baseline and Evaluation Metrics

        ①Test set: story “Where There's Smoke”

2.4.4. Evaluation the Text Prompt

        ①Performance:

2.4.5. Evaluation of fMRI to Text Decoding

        ①Performance table:

2.4.6. Ablation Study

        ①Contrastive module ablation:

        ②Fine tune ablation:

2.5. Conclusion

        ~

3. Reference

@article{chen2025bp,title={BP-GPT: Auditory Neural Decoding Using fMRI-prompted LLM},author={Chen, Xiaoyu and Du, Changde and Liu, Che and Wang, Yizhe and He, Huiguang},journal={arXiv preprint arXiv:2502.15172},year={2025}
}


http://www.ppmy.cn/server/172790.html

相关文章

基于Matlab的语音识别系统设计

摘要 在通信技术的不断进步发展下,语音识别技术也取得了令人瞩目的成就,人们对语音识别技术的性能要求也越来越高。语音识别技术是通常以人们说话的内容作为识别对象的一项技术,凭借其安全高效、价格低廉、易于实现等特点,能与其…

【Hudi-SQL DDL创建表语法】

CREATE TABLE 命令功能 CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。 命令格式 CREATE TABLE [ IF NOT EXISTS] [database_name.]table_name[ (columnTypeList)]USING hudi[ COMMENT table_comment ][ LOCATION location_path ][ OPTIONS (options_lis…

软考中级-数据库-3.2 数据结构-数组和矩阵

数组 一维数组是长度固定的线性表,数组中的每个数据元素类型相同。n维数组是定长线性表在维数上的扩张,即线性表中的元素又是一个线性表。 例如一维数组a[5][a1,a2,a3,a4,a5] 二维数组a[2][3]是一个2行2列的数组 第一行[a11,a12,a13] 第二行[a21,a22,a23…

vue3中 组合式~测试深入组件:事件 与 $emit()

一、语法(props) 第一步&#xff1a;在组件模板表达式中&#xff0c;可以直接用$emit()方法触发自定义事件&#xff0c; <!-- MyComponent --> <button click"$emit(someEvent)">Click Me</button> 第二步父组件可以通过 v-on (缩写为 ) 来监听…

当我删除word文件时无法删除,提示:操作无法完成,因为已在Microsoft Word中打开

现象&#xff1a; 查看电脑桌面下方的任务栏&#xff0c;明明已经关闭了WPS和WORD软件&#xff0c;但是打开word文档时还是提示&#xff1a; 解决方法步骤&#xff1a; 1、按一下键盘上的ctrl Shift Esc 键打开任务管理器 2、在进程中找到如下&#xff1a; 快速找到的方法…

ctf网络安全赛题

CTF简介 CTF&#xff08;Capture The Flag&#xff09;中文一般译作夺旗赛&#xff0c;在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。CTF起源于1996年DEFCON全球黑客大会&#xff0c;以代替之前黑客们通过互相发起真实攻击进行技术比拼的方式。发展…

大语言模型的预训练目标(如MLM、Next Token Prediction)如何影响模型性能?

大语言模型的预训练目标&#xff0c;如MLM&#xff08;Masked Language Modeling&#xff09;和Next Token Prediction&#xff0c;对模型性能有显著影响&#xff0c;主要体现在以下几个方面&#xff1a; 1. 对文本理解能力的影响 MLM&#xff1a;通过随机遮蔽输入文本中的某些…

《挑战你的控制力!开源小游戏“保持平衡”开发解析:用HTML+JS+CSS实现物理平衡挑战》​

&#x1f4cc; 大家好&#xff0c;我是智界工具库&#xff0c;致力于分享好用实用且智能的软件以及在JAVA语言开发中遇到的问题&#xff0c;如果本篇文章对你有所帮助请帮我点个小赞小收藏吧&#xff0c;谢谢喲&#xff01;&#x1f618;&#x1f618;&#x1f618; 博主声…