下一章 上一章 目录 设置
63、将大脑EEG信号转换成文本已经out了 ...
-
梦境聚变:从大脑EEG信号生成高质量图像
原创 Nature.AI NatureAI 2023-11-10 01:34 发表于北京 12人听过
梦境聚变:从大脑EEG信号生成高质量图像
这是近期来自于清华大学深圳国际研究生院、腾讯AI实验室和彭成实验室的白云鹏、王新涛、曹艳佩、葛逸笑、袁纯、单颖的工作。这篇论文介绍了DreamDiffusion,这是一种从大脑脑电图(EEG)信号直接生成高质量图像的新方法,无需将思维转化为文本。DreamDiffusion利用预先训练的文本到图像模型,并采用时间掩码信号建模来对EEG编码器进行预训练,以获得有效且稳健的EEG表示。此外,该方法进一步利用CLIP图像编码器提供额外监督,以更好地将EEG、文本和图像嵌入进行对齐,从而克服了利用EEG信号进行图像生成的挑战,如噪音、信息受限和个体差异,并取得了令人满意的结果。定量和定性结果证明了所提方法的有效性,是朝着便携和低成本思维到图像的重要一步,具有在神经科学和计算机视觉领域的潜在应用。代码可在此处获得:https://github.com/bbaaii/DreamDiffusion。
Introduction
研究者们近年来在图像生成方面取得了巨大进展,特别是在文本到图像生成方面有了突破,使图像质量大幅提升,并能够通过文本控制创作出精美的绘画作品。他们很好奇是否能够直接通过大脑活动(如脑电图记录)来控制图像生成,而不需要先将想法翻译成文本。这种思维到图像的方法有着广泛的前景,可以极大提高艺术创作的效率,捕捉那些瞬间的灵感,甚至有助于心理疗法,帮助自闭症儿童和语言障碍者。
一些最近的研究尝试基于功能性磁共振成像(fMRI)信号重建视觉信息,他们已经证明了通过大脑活动可以重建高质量的结果。然而,他们离利用脑信号便捷高效地创建图像还有很远的路要走,主要原因是fMRI设备不便携并且成本高昂。相比之下,脑电图是一种无创、低成本的记录脑电活动的方法,具有巨大的未来艺术生成潜力。
本工作的目标是利用预训练的文本到图像模型的强大生成能力,直接从脑电图信号生成高质量的图像。然而,这并不容易,主要有两个挑战。一是脑电图信号不可避免地含有噪音,并且数据有限,个体差异也很大;二是脑电图信号空间与文本和图像空间有较大差异。为了应对这些挑战,他们提出了两项精心设计的解决方案:一是使用大量脑电图数据进行脑电表示的训练,二是利用额外的学习来辅助对齐脑电、文本和图像空间。这些方法通过实验证明了DreamDiffusion的有效性。
总的来说,他们的工作提出了DreamDiffusion这一直接从脑电图信号生成高质量、逼真图像的方法,并通过潜伏信号建模和额外的学习设计,取得了显著的成果。
Related Works
?我们的方法包括三个主要组成部分:1)对屏蔽信号进行预训练,以实现有效和稳健的脑电编码器,2)使用预先训练的稳定扩散对有限的脑电-图像对进行微调,3)使用CLIP编码器对脑电、文本和图像空间进行对齐。
Generating images from brain activity
近年来,研究者们一直在积极探索利用脑信号(包括fMRI和EEG)生成图像的方法。对于fMRI的应用,传统方法依赖于使用fMRI图像配对数据来训练模型,以从fMRI中预测图像特征。在测试过程中,这些图像特征将被输入到生成对抗网络(GANs)中进行刺激重建。然而,最近的研究提出了无监督方法,如可重构的自编码器设计,可以从未配对的fMRI和图像中学习,并利用回归模型来提取潜在的fMRI表示,用于微调预训练的条件BigGAN进行解码。最近的一项工作将SC-MBM和DC-LDM整合起来,以生成更合理的图像,并保留更好的语义信息。
类似地,使用深度学习技术从EEG信号生成图像也已经被探索。研究人员使用LSTM和生成方法来学习更紧凑的EEG数据表示,以生成引发特定脑反应的视觉刺激。另一项方法将编码的EEG信号作为输入,生成相应的图像,即使只有有限的训练数据。研究人员还利用EEG作为监督信号来学习语义特征表示,并实现了与语义图像编辑相媲美的性能。总的来说,这些方法展示了利用脑信号生成图像的潜力,并推动了脑-计算机接口领域的发展。
DreamDiffusion方法包括三个主要组成部分:1)用于有效和稳健的EEG编码器的掩码信号预训练,2)利用预训练的稳定扩散进行有限的EEG-图像配对微调,3)使用CLIP编码器对齐EEG、文本和图像空间。
Model pre-training
研究者们研究发现,预训练模型在计算机视觉领域变得越来越受欢迎,各种自监督学习方法聚焦于不同的假设任务。这些方法通常利用假设任务,比如对比学习,这种方法建模图像的相似性和非相似性,或者自编码,该方法从被屏蔽部分恢复原始数据。特别是,掩模信号建模(MSM)已成功地通过从视觉信号中恢复原始数据,学习了下游任务所需的有用上下文知识,对自然语言使用低掩模比例也获得了成功。另一种近期的方法是CLIP,通过对互联网上收集的4亿个文本-图像对进行预训练,建立了一个多模态嵌入空间。CLIP学习到的表示非常强大,能够在多个数据集上进行零样本图像分类,并提供了一种评估文本和图像语义相似性的方法。
Diffusion models
研究者们最近开始越来越倾向于使用扩散模型作为生成高质量内容的生成模型。扩散模型的基本形式是由双向马尔可夫链定义的概率模型。这些模型由于与类似图像数据的归纳偏差自然契合,因此表现出很强的生成力。在训练过程中使用一种重加权目标可以实现最佳的合成质量,这允许在图像质量和压缩能力之间进行权衡。然而,在像素空间中评估和优化这些模型是计算昂贵且耗时的。
为了解决这些挑战,一些扩散模型在更低维度的压缩潜变量空间上进行工作,例如提出的LDMs。通过使用矢量量化和正则化自编码器将图像压缩为更低维度的潜在特征,然后使用相同的潜在特征空间进行重构,LDM在维持合成质量的同时减少了计算成本。此外,基于UNet的去噪模型配备了注意力模块,能够通过键/值/查询向量在马尔可夫链转换过程中调节图像生成的灵活性。这种方法有几个优势,包括降低计算成本和改善图像合成质量。
?将原文中的图示说明翻译为中文:使用大规模噪音脑电图数据建模屏蔽信号。我们可视化了脑电图数据中一个通道的重建结果。我们可以观察到整体趋势准确,但细节受数据集影响,因为这些数据集中的脑电信号相对较嘈杂。
Proposed Method
研究者们提出了一种新的方法,用于从脑电信号中生成高质量的图像。该方法包括三个主要组成部分:
第一,他们利用大量嘈杂的脑电数据进行信号预训练,以训练一个有效且稳健的脑电编码器,从而提取上下文知识。
第二,他们使用预训练的稳定扩散技术,对少量脑电图像对进行微调,以进一步提高生成图像的质量。
第三,他们通过微调过程,在脑电、文本和图像的嵌入空间中进行对齐,从而减少脑电编码和图像编码之间的距离,从而提高了生成图像的质量。
最终,他们成功地开发出了DreamDiffusion技术,能够仅通过脑电信号生成高质量的图像。这个方法就好比是在制作美味的菜肴时,首先收集各类食材,并利用经验和技巧提炼出各种调味料,然后在调味料和食材的配合下,通过精心烹饪得到了一道美味可口的佳肴。
Masked signal pre-training for effective and robust EEG representations
研究者们使用脑电图(EEG)数据记录人脑产生的电活动,这是通过在头皮上放置电极来测量的一种非侵入性、低成本的方法。脑电图数据具有几个特点。首先,数据是二维的,一维代表放置在头皮上的通道或电极,另一维代表时间。脑电图的时间分辨率很高,意味着它能够捕捉到毫秒级的大脑活动快速变化。然而,脑电图的空间分辨率较低,意味着很难准确定位大脑内活动的源头。其次,脑电信号受年龄、睡眠和认知状态等因素影响很大,数据高度变化。最后,脑电图数据常常带有噪音,需要经过细致的处理和分析才能提取有意义的信息。
由于脑电图数据固有的变异性和噪音,传统的建模方法通常难以从中提取有意义的信息。因此,采用掩码信号建模技术,这是一种已被证明可以从嘈杂和多变数据中捕获上下文信息的方法,代表了从大规模嘈杂的脑电图数据中获取有意义上下文知识的一个有希望的途径。与MAE和MinD-Vis不同,这些方法将输入视为二维图像并掩盖空间信息,我们考虑了脑电信号的时间特性,并深入挖掘了人脑时间变化背后的语义信息。
考虑到脑电信号的高时间分辨率,研究者首先将其在时间域划分为令牌,并随机掩盖一定比例的令牌。随后,这些令牌将通过使用一维卷积层转换成嵌入。然后,采用类似MAE的不对称架构来基于周围令牌的上下文线索预测缺失的令牌。通过重建掩盖的信号,预训练的脑电编码器学习了对不同人和各种大脑活动的深刻理解。
研究者的主要结果表明,他们的模型能够从脑电图数据生成高质量的图像,并且这些图像与脑电图数据相匹配。
?DreamDiffusion生成的图像质量显著优于Brain2Image生成的图像。
Fine-tuning with Stable Diffusion on limited EEG-image pairs
研究者们使用了EEG信号经过掩蔽信号预训练后得到了有效的表示,然后利用这个表示来生成图像,方法是利用预先训练的稳定扩散(SD)模型。稳定扩散是逐渐去噪正态分布变量以学习数据分布的方法。在SD中加入了交叉注意力机制,以实现更灵活的条件图像生成,最常见的条件是文本提示。稳定扩散已经显示出了在生成高质量图像方面具有很强的潜力,可以从各种类型的信号(如标签、文本和语义地图)中生成图像。
稳定扩散是在潜在空间上操作的。给定像素空间中的图像x,x被VQ编码器E()编码,获得对应的潜在变量z=E(x)。交叉注意力机制在UNet中引入了条件信号。这种交叉注意力还可以将来自EEG数据的条件信息纳入其中。具体来说,EEG编码器的输出y进一步通过一个投影器_投影成一个嵌入_(y) R^M d_。然后,这个EEG表示被嵌入到U-Net中,通过实现Attention(Q, K, V)=softmax(Q K^Td) V的交叉注意力层。
在精调过程中,研究者们一起优化了EEG编码器和U-Net的交叉注意头。他们保持了稳定扩散的其余部分不变。他们使用了以下SD损失函数进行优化。
L_SD=E_x, N(0,1), t[-_(x_t, t, _(y))_2^2],其中_是作为UNet实施的去噪函数。
此外,研究者们进行了与Brain2Image的比较,发现使用DreamDiffusion生成的图像质量明显高于Brain2Image生成的图像。图:比较
Aligning the EEG, text, and image spaces with CLIP encoders
研究者们进行了一项关于优化脑电图(EEG)信号的研究,以更适合生成图像。他们使用了经过预训练的Stable Diffusion模型,但是这个模型是专门用于文本到图像的生成,而脑电图信号具有自己的特点,并且其潜在空间与文本和图像的潜在空间有很大不同。因此,直接使用有限的EEG-图像配对数据端到端地微调Stable Diffusion模型很难准确地将EEG特征与预先训练的SD中的文本嵌入对齐。为了解决这个问题,研究者们引入了CLIPradford2021learning的使用,并在大量的文本-图像配对数据上进行训练,以使Stable Diffusion模型中的文本和图像空间对齐良好。因此,他们建议使用额外的CLIPradford2021learning 监督来协助对齐EEG、文本和图像空间。
具体来说,他们使用预训练的编码器获得的EEG特征,通过一个投影层转换成与CLIP相同维度的嵌入。然后使用损失函数来最小化EEG嵌入与从CLIP图像编码器获得的图像嵌入之间的距离。在微调过程中,CLIP模型保持不变。该损失函数可以鼓励EEG特征与图像更紧密地对齐,使其更类似于文本特征。通过这种方式,研究者们成功将EEG信号、文本和图像对齐在统一的空间中。优化后的EEG嵌入表示更适合SD图像生成,从而提高了生成图像的质量。
此外,研究者们还对不同模型及参数进行了量化研究,其中E和A代表对编码器和交叉注意力头进行微调,结果显示在特定条件下不同的微调方式和参数会对模型性能产生影响。
Experiments and Analyses
Implementation details
研究者们收集了来自400个受试者的大约120,000个脑电图(EEG)数据样本,这些数据涵盖了30至128个脑电信道的范围。这些数据用于在MOABB平台上进行脑电图预训练。MOABB是一个软件包,旨在通过提供一组公开可用的脑电图数据集和一套最先进的算法,促进脑-计算机接口(BCI)算法的开发。该平台使研究者们能够轻松验证新算法,使用自动化的统计分析,消除了耗时且不可靠的数据预处理的需要。这些数据包含了各种类型的脑电图数据,包括看物体、动作想象和观看视频等任务。研究者们的目标是从各种脑电图数据中学习通用的表征,而不需要对脑电图数据的类型有特定要求。由于数据采集设备的不同,这些脑电图数据样本的信道数量差异显著。为了便于预训练,研究者们对所有数据进行了统一填充,将缺失的信道填充为复制数值,使所有数据都有128个信道。在预训练过程中,每4个相邻时间步被分为一个令牌,并且通过投影层将每个令牌转换为一个1024维的嵌入向量,以进行后续的掩码信号建模。损失函数计算重建的脑电信号与原始脑电信号之间的均方误差(MSE)。损失仅在掩码补丁上计算。重建是对整个128个信道作为一个整体进行的,而不是单个信道。预训练后解码器被丢弃。
研究者们使用ImageNet-EEG数据库进行了思维图像转换实验,该数据库包含了6名受试者观看来自ImageNet数据集中40个不同物体类别的2000张图像时获得的脑电记录。每个类别包含50张图像,每张图像播放0.5秒,然后每观看50张图像后有10秒暂停时间。使用128通道的Brainvision EEG系统记录了脑电数据,总共获得了12000个128通道的脑电序列。该数据集包括各种对象的图像,如动物(狗、猫、大象等)、车辆(客机、自行车、汽车等)和日常物品(计算机、椅子、杯子等)。更多细节可在相关参考文献中找到。
其他实施细节包括利用Stable Diffusion 1.5版本进行图像生成,脑电信号的掩码比例设置为75%。在预训练之前,所有脑电信号都在5-95赫兹的频率范围内进行了过滤。随后,这些信号被截断到共同的长度512。编码器进行了500个时期的预训练,并使用Stable Diffusion进行了另外的300次微调。脑电图的预训练模型类似于dosovitskiy2020image中的ViT-Large。训练和测试都是在同一个受试者上进行的,并且在论文中呈现的所有结果都是使用第4号受试者的数据生成的。
?
Comparison with Brain2ImageDBLPGS17
研究者们进行了我们提出的方法与Brain2ImageDBLP:conf/mm/KavasidisPSGS17的比较。在这项工作中,Brain2Image采用了传统的生成模型,即变分自编码器(VAE)和生成对抗网络(GAN),以实现将脑电图转化为图像。但是,Brain2Image只展示了少数类别的结果,并且没有提供参考实施。鉴于此,研究者们对Brain2Image论文中展示的几个类别(即客机、南瓜灯和熊猫)的结果进行了定性比较。为了确保公平比较,他们遵循了由Brain2Image概述的相同主观评估策略,并在图fig:com中展示了不同方法生成的实例。顶部行显示了Brain2Image生成的结果,而底部行由我们提出的方法DreamDiffusion生成。我们观察到,DreamDiffusion生成的图像质量显著高于Brain2Image生成的图像,从而验证了我们提出的方法的有效性。
?
Ablation studies
这一部分,研究者们对所提出的框架进行了几项消融研究,采用了不同的案例。他们通过一个50路的top-1准确度分类任务来评估不同方法的有效性。他们使用一个预先训练好的ImageNet1K分类器来确定生成的图像的语义正确性。地面真实图像和生成的图像都将被输入分类器。然后,他们将验证生成的图像的top-1分类是否与地面真实分类在50个选定的类别中相匹配。只要生成的图像的语义分类结果与地面真实一致,那么这个生成的图像将被认为是正确的。
预训练的作用。为了展示大规模脑电图数据的预训练的有效性,研究者们进行了一项验证,训练了几个模型,其中包括未训练的编码器。这些模型中有一个模型与完整模型相同,而另一个模型只有两层浅的脑电图编码层,以避免数据过度拟合。在训练过程中,这两个模型在有或无剪辑监督下进行了训练,结果显示在表tab:ablation1中,模型1-4。可以观察到,没有进行预训练的模型的准确性下降了。
蒙版比例。我们研究了确定用于脑电图数据的MSM预训练的最佳蒙版比例。如表tab:ablation1中的模型5-7所示,过高或过低的蒙版比例都会对模型的性能产生不利影响。在蒙版比例为0.75时,获得了最佳的整体准确度。这一发现很重要,因为它表明,与自然语言处理常用的低蒙版比例不同,当进行MSM处理脑电图时,高蒙版比例也是一个可取的选项。
CLIP对齐。我们的方法的关键之一是通过CLIP编码器将脑电图表征与图像进行对齐。为了验证这种方法的有效性,我们进行了13-14号实验,如表tab:ablation1所示。可以观察到,当不使用CLIP监督时,模型的性能显著下降。事实上,如图fig:ablation的右下角所示,即使在没有进行预训练的情况下,使用CLIP来对齐脑电图特征仍然可以产生合理的结果,这突显了我们方法中CLIP监督的重要性。
Conclusion
这篇论文提出了一种新颖的方法,名为“DreamDiffusion”,用于利用脑电图(EEG)信号生成高质量的图像。脑电图是一种非侵入性且易于获取的脑活动数据源。该方法通过利用大量脑电图数据学习到的知识以及图像扩散模型的强大生成能力,解决了与基于脑电图的图像生成相关的挑战。通过预训练和微调方案,可以使用稳定扩散将脑电图数据编码为适合图像生成的表示。我们的方法在从脑活动生成图像的领域中代表了重大进展。
局限性。目前,实验结果表明脑电图数据只能在类别级别上提供粗粒度信息。图fig:failure显示了一些失败案例,其中一些类别被映射到具有相似形状或颜色的其他类别。我们假设这可能是因为人类大脑在识别对象时认为形状和颜色是两个重要因素。尽管如此,DreamDiffusion有潜力在神经科学、心理学和人机交互等广泛领域中得到应用。
参考文献
Y. Bai, X. Wang, Y. Cao, Y. Ge, C. Yuan, and Y. Shan, “DreamDiffusion: Generating High-Quality Images from Brain EEG Signals.” arXiv, Jun. 30, 2023. Accessed: Oct. 19, 2023. [Online]. Available: http://