科研项目
SpatialScope: 适用于多平台空间转录组数据的分析工具集
项目介绍与目标
转录组
细胞内所有转录产物(例如mRNA等)的集合。 转录组具有时空特异性,通过转录组能够从转录水平研究基因的功能和结构,揭示特定生物学以及疾病发生过程中的分子机理。
单细胞RNA测序(scRNA-seq)
通过在单个细胞水平上对转录组进行测序,可以对组织中细胞种类、表达模式有更深入的认识。但是单细胞RNA测序无法获取细胞的原始空间位置信息。 事实上,空间信息对于理解不同细胞在空间上的分布、交互、通信,与其所发挥的生理功能至关重要。
空间转录组
作为最近几年新发展的技术,空间转录组在保留细胞精确空间定位的同时,测量细胞内转录组的表达情况,对生长发育及疾病发生发展过程的研究具有重要意义。但目前空间转录组学技术存在两个不足:一是基于测序的空间转录组技术无法实现单细胞分辨率的精度,同一个空间位置信息可能包含多个细胞;二是基于成像的空间转录组技术能检测到的基因通量有限,只能检测几百到几千个基因。
SpatialScope
为了突破技术的局限性,我们开发一个整合多平台空间转录组和单细胞RNA测序数据的分析工具集-SpatialScope,来解决各种空间转录组技术的弊端。 对于基于测序的空间转录组技术,我们通过结合深度学习和多模态数据(HE染色成像,空间位置,空间转录组,单细胞RNA测序)将低分辨率的空间转录组数据解构成单细胞水平,从而实现真正意义的单细胞分辨率。对于基于成像的空间转录组技术, 我们通过生成模型,对没有测量到基因表达数据进行补全,从而实现全转录组的覆盖。
研究意义与挑战
我们开发的空间转录组分析工具集可以用于各种实验平台生成的 ST 数据,例如 10X Visium、Slide-seq 和 MERFISH 等,在算法层面同时实现单细胞分辨率和全转录组的覆盖,大大加深了人们对空间转录组学数据及相关生物学和病理过程的理解。目前基于空间转录组数据的分析工具还处于初步发展阶段,此领域的研究仍有以下四点不足与挑战:
(1) 已有的方法往往只适用于某一种或一类空间转录组技术生产的数据。
(2) 不同平台或不同测序技术生成的数据存在批次效应。
(3) 空间转录组数据同时有多个模态,如何同时利用所有模态的信息来分析空间转录组数据仍处于探索阶段。
(4) 空间转录组于2020年才被nature评为年度技术方法,导致与之相关的研究和分析还大多停留在科学研究,还没有形成规模化的产业化发展。
方法
基于测序的空间转录组技术生成的数据:我们首先通过深度学习获取单个细胞的空间位置,然后通过一个分层统计模型和后验分布采样把在低分辨率下测量的空间转录组数据分解成单细胞水平的基因表达数据,最后将生成的单细胞水平基因表达数据分配到第一步获取的单细胞空间位置从而实现单细胞分辨率的空间转录组数据。
基于成像的空间转录组技术生成的数据:我们首先通过生成模型学习单细胞RNA测序的基因表达数据分布,然后从学习到的分布中对没有测量到空间转录组基因表达数据进行采样补全,从而实现全转录组的覆盖。
得到单细胞分辨率和全转录组的覆盖的空间转录组数据后,我们就可以进行全面且有深度的下游分析。比如研究不同细胞类型在空间上的分布、交互,细胞与环境之间的交互,配体-受体之间的相互作用,在空间有差异表达的基因等。
关键贡献与商业价值
此项目的研究成果可以运用于基础科学研究、医学诊断等。比如研究肿瘤-微环境相互作用,肿瘤免疫微环境,肿瘤与邻近组织的结构与状态,肿瘤相关的信号通路等。为肿瘤的生长机制、诊断、治疗、药物研发提供新思路;另外也可以用于研究胚胎、器官、组织生长发育的过程,鉴定与生长发育相关的时空特异表达的基因和通路,为胚胎发育、细胞分化的遗传机制提供理论支持,从而推动优生优育、人造器官等方面的研究。
下一步计划
提升模型性能,减少计算时间,实现实时分析诊断 针对空间转录组数据拓展下游分析的方法,发挥空间信息的优势 将分析工具打包成智能应用产品,推进产业化。
研究成员与合作伙伴
肖家顺,深圳市大数据研究院研究科学家
万晓萌,香港科技大学博士生
万翔,深圳市大数据研究院医疗大数据实验室主任
杨灿,香港科技大学数学系副教授
吴若昊,香港科技大学生命科学部副教授
林志翔,香港中文大学统计系助理教授