动物感知世界的方式多种多样,约80%通过视觉感知获取外界信息[1]。尤其是鸟类具有发达的视觉系统和卓越的视觉认知能力,在视觉学习和认知方面具有更丰富的模式,例如鸽子可以联合多维度信息(频率和方向)区分正弦波光栅[2],甚至表现出一定的迁移学习能力[3]。有研究表明,鸽子能实现图片和实物的相互迁移学习,能够将一种视觉形式获得的知识应用于另一种视觉任务。Watanabe[4]训练鸽子辨别真实物体(食物与非食物),发现这种辨别能力能迁移到相应的图片识别,同样,通过图片训练也能成功辨别真实物体。Spetch等[5]分别使用图片或实物作为刺激,训练鸽子识别颜色相同但形状不同的物体,行为学结果显示,鸽子同样能够实现图片与实物的相互迁移学习,证明鸽子大脑能够建立图片与实物的对应关系。
相较于通过图片认知学习,视频能够更加充分地展示物体的三维结构和空间位置信息,鸟类也能从视频中学习更复杂的认知任务。Watanabe等[6]发现,鸽子能够区分视频中的两个不同单词的手语演示。Qadri等[7]使用go/no-go任务训练实现了鸽子对视频中的武术和印度舞蹈的不同人类行为的区分。Guillette等[8]发现,斑胸草雀通过观看筑巢示范视频,其在选择筑巢材料时表现出对视频中示范材料的偏好,说明其可以从视频中学习到社会信息,展现出一定的迁移学习能力。
上述研究从行为学上证明了鸟类可以实现视觉认知迁移学习,但是迁移学习涉及的神经回路和神经机制尚不清楚。已有研究表明,腹外侧中丘(mesopallium ventrolaterale,MVL)在鸟类视觉通路中发挥着重要作用[9-10],与视觉识别神经回路中多个神经核团存在广泛的神经投射[11]。Stacho等[12]训练鸽子辨别形状、颜色和运动刺激,并使用ZENK蛋白表达的方法证明了MVL核团在处理视觉信息特征时表现出显著的活性,表明MVL能实现对视觉特征的编码。Anderson等[13]设计了S+和S-的带有奖励的范式训练鸽子,并采集MVL的神经响应,结果表明,通过Spike发放率编码可以实现对莫奈和毕加索画作的有效区分。Clark等[14]通过逐步增加图像的混乱程度,探究鸽子视觉系统对于图像特征的处理,发现MVL中既有包含对完整图像响应强烈的神经元,也包含对高度混乱图像响应强烈的神经元,表明MVL可能通过整合全局和局部信息实现对复杂图像的编码。鉴于MVL作为鸟类视觉通路的重要核团能有效编码视觉信息,本文提出MVL脑区可能也会参与视觉识别迁移学习的猜想,并尝试研究MVL核团进行视觉识别迁移学习的神经表征。
基于上述原因,本文以鸽子为研究对象,采用基于目标导向的视频目标实验范式完成视频到实物迁移学习的训练。同时植入微电极阵列采集鸽子MVL核团的神经信号,运用功率谱估计方法,准确提取特征响应频带;使用锁相值方法构建MVL核团脑功能网络,并提取平均节点度、聚类系数和全局效率等网络特征进行不同视觉认知状态的神经编码表征,尝试揭示迁移学习模式的神经机制。
本文基于对鸽子视频目标学习迁移实物目标识别时MVL核团的神经响应机制的研究,设计了目标导向式训练系统,实现对鸽子视频和实物目标识别的训练任务。如图1(a)所示,以鸽子等待区为每次实验的起点,实验开始后拉开挡板,鸽子能够看到四通道选择区,根据训练或者测试需求分别呈现视频视觉刺激或者认知实物。4种视觉刺激包括:空白对照、1个目标视觉刺激和2个干扰视觉刺激。为了避免鸽子空间位置记忆,3种刺激在通道随机呈现。实验所用的实物如图1(b)所示,包括1个目标和2个干扰,均是用对应的遥控小车录制的视频。视频录制过程如下:分别将3辆小车进行360°旋转依次录制视频,这样可以排除行走路线和角度对实验结果的影响,每段视频时长均为10 s。训练过程中鸽子返回等待区和进入正确的视觉目标显示区域会打开食盒,获得食物奖励。
图1 目标导向式训练系统示意图
Figure 1 Schematic diagram of a goal-oriented training system
针对鸽子进行视频目标认知训练实现实物迁移学习的视觉目标识别实验分为鸽子筛选与环境适应、视频学习和实物迁移测试3个阶段。
(1)鸽子筛选与环境适应阶段。选取20只体重400~500 g的成年健康鸽子(雌雄不限),购自郑州某农贸市场。鸽子单笼饲养,每周清洁笼舍两次,并用84消毒液进行消毒。本文涉及的动物饲养与实验操作都按照郑州大学生命科学伦理审查委员会的相关规定严格执行。每只鸽子每天被放入训练装置30 min进行环境适应7 d,在不做训练期间,只给圈养于笼中的鸽子提供水,在训练装置中训练时才有食物奖励(食盒每次开放3 s),诱导鸽子在等待区和选择区的食盒之间形成自主循环,完成一个视频学习试次的拟定路线。经过7 d的初步训练,16只鸽子能够自主完成前往选择区和返回等待区的目标路线,其余鸽子淘汰。
(2)视频学习阶段。筛选后的16只鸽子随机分成两组:一组(8只)鸽子进行视频学习训练;另一组(8只)在实物迁移测试中作为对照组。视频学习训练组的鸽子学习流程如图2所示。每个视频学习试次以鸽子在等待区起始,打开挡板,鸽子看到4个区域随机播放3个视频和1个空白对照视频,只有一个是目标视频,若鸽子正确选择走向目标视频则打开对应食盒给予3 s食物奖励,否则扬声器报警3次作为惩罚;之后鸽子返回等待区,等待区食盒打开给予3 s食物奖励,同时关闭遮挡板,完成一个训练试次;最后进入5 s试次间隔期(ITI),等待下试次训练。每次进行2组视频学习训练,一组训练包括30试次,每隔1 d进行一次视频学习,连续3 d训练的平均正确率达到80%以上时认为鸽子完成视频目标学习,可以进入实物迁移测试阶段。
图2 视频学习流程
Figure 2 Video learning process
(3)实物迁移测试阶段。对完成视频学习的8只鸽子进行实物迁移测试,将视频替换为录制视频时使用的小车,实物迁移测试流程和视频学习一致,每隔1 d进行一次测试,每次测试2组,连续进行3次测试。观察鸽子通过视频学习训练后的实物迁移学习的行为表现。此外,将未经过视频学习的对照组8只鸽子同样进行实物认知测试,通过统计分析两组鸽子在视频指导实物迁移学习过程中的行为反应,证实鸽子视频学习对实物识别认知的指导作用。
对完成视频学习和实物迁移学习测试的8只鸽子的MVL脑区进行微电极植入手术。鸽子术前12 h禁食禁水,手术开始前按照鸽子0.14~0.15 mL/100 g的体重比例向其腹腔注射体积浓度为3%的戊巴比妥钠进行麻醉。将鸽子的头部固定在立体定位支架上,以鸽子的耳杆线和中缝线的交点为原点,根据脑图谱(图3)将微电极阵列植入到MVL核团,植入位点:AP为10.5 mm,ML为6.0 mm,DV为1.8 mm。手术结束后,将鸽子放回鸽子笼,6 h后给予水和食物,鸽子需恢复一周后方可进行后续实验。经过后续测试,鸽子恢复较好,电极植入各通道效果良好的鸽子共有6只,其编号分别为018,023,071,085,096和057。
图3 鸽子MVL核团位置示意图
Figure 3 Schematic diagram of the location of the MVL nucleus in pigeons
本文使用课题组研制的无线神经信号采集装置,由采集模块、传输模块和展示模块组成,使用Intan Technologies公司的神经电生理检测芯片连接16通道的微电极阵列,通过Wi-Fi连接将信号传输到电脑主机用于可视化和存储信号,采样率设置为10 kHz,实验过程通过摄像头记录。
视频学习和实物迁移测试时,训练装置的选择区末端同时出现3段视频或3个实物,观察鸽子是否走向目标。在信号采集时,每次只显示1个视频或者实物,从而准确采集鸽子识别单一视频或者实物时的脑电信号。
在实验过程中,工频干扰以及鸽子的走动等原因会引入噪声,因此需要对数据进行预处理。本文采用以下预处理步骤:使用无相移带通滤波器提取1~250 Hz的局部场电位信号(local field potential,LFP);降采样到1 000 Hz以减少需要处理的数据长度;使用去均值法消除低频干扰;采用陷波器去除50 Hz工频干扰;使用自适应共同平均参考法(ACAR)消除空间伪迹噪声[15]。
本文中的特征响应频带的确定依据视频或者实物出现前后的LFP信号的功率谱变化情况而确定,因此需要对功率谱进行估计。Welch方法通过分段和平均处理显著减小了频谱估计的方差,提高了估计的稳定性,并且通过重叠分段和加窗处理,减小了频谱泄漏,提高了频谱估计的分辨率,被广泛应用于神经科学研究中。Welch的具体步骤如下:首先将信号重叠分段,加汉明窗抑制频谱泄漏;然后逐段进行DFT变换并计算功率谱(周期图);最后通过多段平均降低噪声,提高功率谱估计的稳定性与可靠性。
为确定视觉识别时鸽子MVL脑区LFP信号的特征响应频带,使用视觉识别任务开始前的基线信号(即挡板拉开前1 s的LFP信号)与进行视觉识别任务时的信号(即挡板拉开后1 s的LFP信号)的功率谱能量密度比值确定,挡板拉开时即为视觉识别任务开始时刻(装置自动打标),使用如下比较方法。
首先,使用Welch方法计算单个试次的基线信号和视觉识别信号的功率谱密度:
(1)
(2)
式中:和
分别为第i试次的基线信号和视觉识别信号,i=1,2,…,N。
其次,求所有试次功率谱密度平均值,分别得到基线信号和视觉识别信号的平均功率谱密度:
(3)
(4)
式中:和
分别为所有试次的基线信号和视觉识别信号平均功率谱密度。
最后,得到功率谱密度的相对变化曲线:
(5)
锁相值(PLV)是一种衡量两个时间序列相位一致性的指标[16-17],常用于神经科学和信号处理领域,特别是在分析脑电信号时,用于衡量不同通道之间的相位同步程度。对于两通道的LFP信号x(t)和y(t)锁相值的计算公式如下所示:
(6)
式中:ΔΦ(t)为两个通道的相位差;M为时间点数。
由锁相值计算得到的锁相值矩阵为
(7)
式中:PLVij为通道i和通道j之间的锁相值;N为通道个数。LFP信号的每个通道作为功能网络的节点,之后选择阈值对锁相值矩阵进行二值化,大于阈值设置为1,小于阈值设置为0。二值化后L中1表示两节点间存在功能连接;0表示两节点间不存在功能连接。
为了便于对网络的内部特征差异进行描述和度量,本文提取了脑功能网络连接特性[18-19]的3个典型特征:平均节点度k、聚类系数C和全局效率E。节点度是指与该节点的连接边数。平均节点度则是指所有节点的度数之和除以节点数量,其在脑功能网络中反映了网络的整体连通性、信息传递效率和功能整合性,计算公式为
(8)
式中:ki为节点i相邻节点的个数;n为节点数量。
聚类系数C主要表征节点的邻居节点间的聚集程度。C越大,表示节点间的连接性越好,计算公式为
(9)
式中:ei为网络中节点i的邻居节点之间实际连接边数;0≤C≤1,当C=1时,网络是全连接的,C=0时,网络中所有节点均为孤立节点,没有连接边。
全局效率E能够度量网络的全局传输能力,E越高,节点间信息传递的速率越快,效率越高,计算公式为
(10)
式中:dij为任意节点i和j之间的最短路径长度;n为节点数量。
为了从行为学上验证视频学习能够指导实物识别,本文统计了视频学习以及实物迁移测试过程中鸽子识别的正确率,并绘制了如图4所示曲线。其中,前20次为视频学习过程,第21到第23次为实物迁移测试过程。从图4可以看出,随着训练过程的进行,鸽子目标识别的正确率显著提高,在进行最后一次视频学习时,整体平均正确率达到了85.01%,表明鸽子已经能够完成目标识别任务。在随后的3次实物迁移测试中,整体平均正确率分别为73.91%,77.96%和81.28%,而对照组的8只鸽子在实物测试中的整体平均正确率分别为23.85%,22.37%和23.05%,表明鸽子能够通过对视频目标的学习实现对实物目标的迁移学习,证明鸽子大脑的视觉认知神经机制具有迁移学习能力,这可能和鸽子脑的视觉认知机制有关,可能涉及大脑神经元的重塑和神经回路的重组[20]。
图4 鸽子视频学习指导实物识别的行为正确率
Figure 4 Object recognition behavior accuracy guided by pigeon video learning
根据2.2节的特征响应频带确定方法绘制基线信号和视觉识别信号的功率谱密度相对变化曲线如图5所示。可以看出,在目标识别时功率比值变化较为强烈的部分集中在18~28 Hz;在干扰识别时功率比值变化较为强烈的部分集中在7~17 Hz,在此区域内比值超过了1.02。综合考虑,使用无相移滤波器滤出5~30 Hz频带范围用于分析较为合理。
图5 视觉识别任务前后的功率谱密度相对变化曲线
Figure 5 Relative change curve of power spectral density before and after visual recognition tasks
构建脑功能网络时需要截取特定时间段LFP信号并提取特征响应频带。截取视觉识别任务开始后1 s(即挡板拉开后1 s)的LFP信号,使用无相移滤波器滤波后使用锁相值方法构建脑功能网络。
在脑功能网络研究中,阈值的确定对于功能网络的构建和分析至关重要。阈值的选择直接影响网络的结构特性,如节点的连通性、聚类系数和全局效率等。本文在对功能网络的阈值选择时,使用平均节点度作为衡量指标,以0.01的步长在0~1内遍历阈值,得到视频目标识别、视频干扰识别、实物目标识别和实物干扰识别的平均节点度随阈值的变化结果如图6所示。经计算得知,当阈值选取为0.68时,无论是视频识别还是实物识别,目标和干扰的平均节点度差值最大,因此选择该阈值构建功能网络。
图6 平均节点度随阈值变化曲线
Figure 6 Curve of average node degree with varying threshold
基于上述阈值构建了脑功能网络,并提取平均节点度、聚类系数和全局效率3个网络特征,分析其在目标识别中的差异。使用Mann-Whitney检验对每两组数据进行显著性检验,其结果如图7所示,其中,**表示p<0.01;***表示p<0.001;****表示p<0.000 1;没有标注表示没有显著性。
图7 网络特征显著性分析
Figure 7 Significance analysis of network features
从上述功能网络特征显著性分析可以发现,对于目标和干扰来说,无论是视频还是实物,通过MVL核团提取的神经信号构建的脑功能网络的平均节点度、聚类系数和全局效率都能将两者有效区分,说明MVL在目标识别中起着重要作用,和Anderson等[13]的研究结果一致。此外,比较目标视频和目标实物以及干扰视频和干扰实物发现都没有显著性差异。这些现象可能表明,鸽子的MVL作为一个高级视觉核团,可以编码视频和实物之间的共有特征,对视频和相应实物产生相似的神经反应,从而说明其在迁移学习中具有重要作用。进一步对两种不同颜色和形状干扰的功能网络特征分析发现,两者不存在显著性差异,表明在视觉目标识别时,鸽子的MVL核团作为高级视觉认知核团,可能不仅仅是对颜色和形状特征的简单编码,或许与其经验和学习经历等有关,存在更复杂的整合编码形式。
本文构建了目标导向式的实验范式,完成了视频学习和实物迁移测试,并提取了鸽子MVL脑区的神经电信号,使用功率谱方法找到了视觉识别的特征响应频带,使用锁相值方法构建了脑功能网络并提取了网络特征。主要研究结论如下。
(1)比较经过视频学习和未经视频学习的鸽子在实物测试中的表现,视频学习能显著提高实物测试的正确率,证明了鸽子具有从视频目标学习迁移到实物目标的能力。
(2)使用Welch功率谱估计方法计算视觉识别任务前后的功率谱,并绘制功率谱密度相对变化曲线,发现目标识别时能量响应区间为18~28 Hz,在干扰识别时能量响应区间为7~17 Hz。
(3)构建脑功能网络并提取网络特征,发现识别目标时的平均节点度、聚类系数和全局效率显著大于识别干扰时,表明MVL核团可以有效编码目标和干扰。但对于视频或者实物来说,网络特征没有显著差异,说明MVL核团作为一个高级核团,可能编码了视频和实物的共有特征,从而在迁移学习中起到重要作用。
本文基于上述研究证明了鸽子MVL核团在目标识别和实物迁移测试中的重要作用,但目前特征提取未发现MVL对不同干扰刺激的差异性,可能说明该核团不仅仅是简单对颜色和形状信息进行编码,可能存在包含经验信息的更复杂形式。因此,本文还存在很多有待继续深入研究的问题:例如需要充分分析迁移学习过程中视频和实物之间的特征差异,详细分析可能影响迁移学习效果的因素;需要深入分析不同干扰刺激在MVL核团中的视觉特征编码,揭示MVL在视觉认知和迁移学习中的神经表征机制。
[1] 罗四维. 视觉信息认知计算理论[M]. 北京: 科学出版社, 2010.
LUO S W. The perception computing of visual information[M]. Beijing: Science Press, 2010.
[2] BERG M E, GRACE R C. Categorization of multidimensional stimuli by pigeons[J]. Journal of the Experimental Analysis of Behavior, 2011, 95(3): 305-326.
[3] HERRNSTEIN R J, LOVELAND D H. Complex visual concept in the pigeon[J]. Science, 1964, 146(3643): 549-551.
[4] WATANABE S. Object-picture equivalence in the pigeon: an analysis with natural concept and pseudoconcept discriminations[J]. Behavioural Processes, 1993, 30(3): 225-231.
[5] SPETCH M L, FRIEDMAN A. Comparative cognition of object recognition[J]. Comparative Cognition &Behavior Reviews, 2006, 1:12-35.
[6] WATANABE S, FURUYA I. Video display for study of avian visual cognition: from psychophysics to sign language[J]. International Journal of Comparative Psychology, 1997, 10(3): 111-127.
[7] QADRI M A J, COOK R G. Pigeons and humans use action and pose information to categorize complex human behaviors[J]. Vision Research, 2017, 131: 16-25.
[8] GUILLETTE L M, HEALY S D. Social learning in nest-building birds watching live-streaming video demonstrators[J]. Integrative Zoology, 2019, 14(2): 204-213.
[9] AZIZI A H, PUSCH R, KOENEN C, et al. Emerging category representation in the visual forebrain hierarchy of pigeons (Columba livia)[J]. Behavioural Brain Research, 2019, 356: 423-434.
[10] CLARK W J, PORTER B, COLOMBO M. Searching for face-category representation in the avian visual forebrain[J]. Frontiers in Physiology, 2019, 10: 140.
[11] GÜNTÜRKÜN O, KOENEN C, IOVINE F, et al. The neuroscience of perceptual categorization in pigeons: a mechanistic hypothesis[J]. Learning &Behavior, 2018, 46(3): 229-241.
[12] STACHO M, STRÖCKENS F, XIAO Q, et al. Functional organization of telencephalic visual association fields in pigeons[J]. Behavioural Brain Research, 2016, 303: 93-102.
[13] ANDERSON C, PARRA R S, CHAPMAN H, et al. Pigeon nidopallium caudolaterale, entopallium, and mesopallium ventrolaterale neural responses during categorisation of Monet and Picasso paintings[J]. Scientific Reports, 2020, 10(1): 15971.
[14] CLARK W, CHILCOTT M, COLOMBO M. The effect of progressive image scrambling on neuronal responses at three stations of the pigeon tectofugal pathway[J]. Scientific Reports, 2022, 12(1): 14190.
[15] LIU X Y, WAN H, LI S, et al. Adaptive common average reference for in vivo multichannel local field potentials[J]. Biomedical Engineering Letters, 2017, 7(1): 7-15.
[16] WANG Z M, LI S, ZHANG J, et al. Emotion recognition based on phase-locking value brain functional network and topological data analysis[J]. Neural Computing and Applications, 2024, 36(14): 7903-7922.
[17] 宾光宇, 张雅静, 高小榕. 相位同步方法用于稳态视觉诱发电位的测量[J]. 清华大学学报(自然科学版), 2008, 48(9): 1507-1510.
BIN G Y, ZHANG Y J, GAO X R. Steady state visual evoked potential measurement using a phase-locking method[J]. Journal of Tsinghua University (Science and Technology), 2008, 48(9): 1507-1510.
[18] WU X, ZHENG W L, LI Z Y, et al. Investigating EEG-based functional connectivity patterns for multimodal emotion recognition[J]. Journal of Neural Engineering, 2022, 19(1): 016012.
[19] 秦红娜, 王思佳, 肖晓啸, 等. 精神分裂症患者与健康人不同空间尺度下脑功能网络小世界拓扑属性的比较研究[J]. 放射学实践, 2023, 38(7): 835-840.
QIN H N, WANG S J, XIAO X X, et al. A comparative study of small-world topological properties of brain functional networks at different spatial scales in patients with schizophrenia and healthy people[J]. Radiologic Practice, 2023, 38(7): 835-840.
[20] CHEN N H, CAI P, ZHOU T G, et al. Perceptual learning modifies the functional specializations of visual cortical areas[J]. Proceedings of the National Academy of Sciences of the United States of America, 2016, 113(20): 5724-5729.