空间转录组技术正经历从“ 高通量” 到“ 高分辨率” 的范式转变。 Visium HD 将空间分辨率提升至 2 微米, Stereo-seq 实现亚微米级测量,单次实验可产生数百万测量单元,为解析组织微环境的细胞组成提供了前所未有的机遇。然而,这一技术进步也带来了严峻的计算挑战:现有解卷积方法大多基于贝叶斯推断或稠密协方差建模,其 O(N ² ) 的时间或空间复杂度使其难以处理超过数万个 spots 的数据集——据报道, Cell2Location 在处理约 20,000 个 spots 的 Slide-seqV2 数据时即因计算负担而无法运行。更为根本的挑战在于特征选择。现有方法普遍采用高变异基因( HVG )策略,其隐含假设是 方差大的基因携带更多信息 。然而,基因表达方差与均值在负二项分布模型下呈二次关系耦合,导致高丰度细胞类型的标志基因天然拥有高方差,而占比仅 0.1% 的稀有群体——如肿瘤干细胞、血管内皮细胞——其标志基因即使具有高度特异性,也会因总体方差贡献低而被系统性排除
研究团队首先系统阐述了 FlashDeconv 的框架设计。该方法将空间解卷积问题重新表述为图正则化非负最小二乘问题,包含三个关键设计:( 1 )采用 Log-CPM 归一化处理极端稀疏的空间转录组数据,其有界范数防止高表达基因主导压缩空间;( 2 )引入基于杠杆分数加权的 CountSketch 随机投影,与最大化解释方差的 PCA 不同,该投影满足 Johnson- Lindenstrauss 性质,保证细胞类型签名之间的欧氏距离在压缩空间中以高概率保持;( 3 )采用稀疏 k-NN 图拉普拉斯正则化建模空间连续性,复杂度仅为 O(N · k) 而非 O(N ² ) 。
杠杆分数的几何意义在于衡量每个基因对参考矩阵列空间的贡献程度——即该基因是否定义了一个独特的区分方向,而非简单反映有多少细胞表达它。研究团队通过一系列实验构建了从数学原理到分子功能再到空间表型的完整证据链。在丰度不变性测试中,研究团队使用小鼠脑 scRNA -seq 参考( 40,532 细胞, 59 种细胞类型),将少突胶质细胞从 26.7% 人为降采样至 0.4% ——细胞数量减少 67 倍。结果显示,基于方差的排名从 115 位下降 至 240 位,劣化超过 100% ;而杠杆分数排名始终稳定在约 150 位,证明了 生物学身份 与 数量丰度 的真正数学解耦。
进一步的基因象限分析揭示了系统性偏差。将 31,053 个基因映射到方差 - 杠杆分数二维平面,“ GOLD” 象限(低方差、高杠杆分数)包含经典血管标志物( Cldn5 、 Rgs5 、 Ly6a 等), GO 富集分析显示这些基因显著富集于“ 血管生成调控 ” ( FDR 校正 p = 2.8 × 10 ⁻⁶)、 “ 内皮细胞分化” ( FDR 校正 p = 2.1 × 10 ⁻⁴)等通路。相反,“ NOISE” 象限(高方差、低杠杆分数)包含 35% 的未注释 Gm 系列转录本( GOLD 中仅 6% ), GO 分析在 FDR 校正 p 0.05 水平无任何显著通路。空间可视化进一步证实: GOLD 基因在组织切片上重建出清晰的血管解剖结构(空间结构评分 1.33 ),而 NOISE 基因呈现随机 椒盐噪声 分布(评分 0.87 ; Mann-Whitney p = 5.6 × 10 ⁻⁵)。
研究团队通过三个应用案例展示了 FlashDeconv 的实际价值。在人卵巢癌治疗响应分析中, FlashDeconv 在 3.8 秒内处理了 6 例高级别浆液性卵巢癌患者的全部样本( 15,092 个 spots ),发现治疗反应不佳患者的肿瘤细胞占比高达 56.1% ,而反应良好患者仅 14.3% ,差异达 3.9 倍;免疫细胞浸润与良好预后相关,巨噬细胞在反应良好患者中高 11 倍。这些发现与 Denisenko 等人使用 CARD 方法分析同一数据集的结论高度一致【6】。
在 Visium HD 分辨率地平线的系统性量化中, FlashDeconv 在 12 秒内处理了 8 μ m 分辨率下的 351,817 个 bins 。分析揭示了 分辨率地平线 μ m 分辨率下, 61.5% 的 bins 被单一细胞类型主导;到 16 μ m 时骤降至 13.3% ,信息损失 78% 。更关键的发现是相关性符号翻转: Paneth 细胞和 Goblet 细胞在 8 μ m 分辨率下表现为弱负相关( r = -0.12 ),反映其在细胞尺度上的互斥性;然而随着分辨率变粗,在 64 μ m 时变为强正相关( r = +0.80 )。研究团队使用 Xenium 单分子测序数据进行地面真值验证,证实这是源自组织空间组织尺度的物理现象,而非算法伪影。
在 Tuft-Stem 化学感受细胞巢的发现中,研究团队注意到 Tuft 细胞(仅占肠上皮 0.4-2% )在所有细胞类型中表现出最高的 HVG 盲区 ——其标志基因在基于方差的选择下比杠杆分数排名低 21 个百分位。在 8 μ m 分辨率下, FlashDeconv 识别出 2,244 个局灶性 Tuft 细胞微环境,比例高达 61% ,这些微环境表现出肠道干细胞富集 16.8 倍、肠内分泌细胞富集 15.3 倍,而分化细胞类型显著缺失。这一发现与 Tuft 细胞已知的定位及其作为储备干细胞的能力相符【7】。
总的来说,该项研究成功解决了当前空间转录组解卷积领域面临的两大核心挑战:计算可扩展性和稀有细胞检测。其核心洞见在于区分 几何结构 与 统计方差 ——杠杆分数量化每个基因对细胞类型间区分结构的贡献,独立于表达量级或群体规模。 FlashDeconv 证明:测量几何结构而非统计方差,可以将生物学重要性与数量流行性解耦,这一原理在空间解卷积之外,对轨迹推断、多组学整合和图谱级比较研究也具有潜在应用价值。
Copyright © 2012-2018 某某公司 版权所有 非商用版本