清华大学医学院合作开发基于机器学习的高通量
北京讯 近日,清华大学那洁课题组与剑桥大学的玛格达琳娜·泽尼卡·格兹(Magdalena Zernicka-Goetz)课题组合作,开发了一套基于机器学习的高内涵筛选策略,用以全自动分析和评估类胚胎模型。
哺乳动物围着床期胚胎发育相关研究对揭示早期胚胎发育过程中的重要事件、指导发育缺陷及妊娠失败等疾病的治疗有重要的意义,然而,伦理约束和取材困难限制着相关研究的进展。近年来,胚胎体外培养及利用干细胞模拟的类胚胎为围着床期胚胎发育相关研究提供了新的模型。现有的基于干细胞的类胚胎模型大多基于研究者手动分析和观察,缺乏统一的标准且费时费力,难以进行标准化和高通量的研究。
本研究中,作者将高内涵共聚焦成像筛选与类胚胎模型相结合,并利用机器学习辅助的分析策略对类胚胎图集进行了高效客观的分析,建立了全自动智能化的类胚胎分析策略。应用此策略,研究人员揭示了不同多能干细胞株生成类胚胎的能力具有很大的异质性,并对可促进类胚胎发生的生长因子及小分子进行了筛选,确定了骨形成蛋白4(BMP4)在类胚胎生成过程中的促进作用。本研究为解决现有类胚胎模型面对的难题提供了创新方法。
图1 基于机器学习的类胚胎分析策略
研究人员首先展示了体外三维(3D)共培养的小鼠胚胎及胚外干细胞系可以自发组装为类似着床后早期原肠胚样结构,免疫荧光染色分析显示,该结构可以复现胚胎早期发育过程中早期羊膜腔发生、基底膜形成、头尾极化等重要的生物事件。
图2 干细胞体外培养自组装为类胚胎结构
随后,研究人员将类胚胎模型适配于高内涵共聚焦显微镜平台,通过高内涵成像,获得了多通道三维(3D)类胚胎扫描图像。该图集包括了多能性,胚外组织、细胞极化标志蛋白和细胞核的荧光数据以及形态、位置等相关信息。以海量类胚胎图像为训练集及分析对象,研究者通过软件的人机交互模块对机器进行训练和学习,最终实现了机器学习辅助的高效率、高准确率、客观的类胚胎图像分析,可全自动地对类胚胎模型进行形态特征、极化能力、生成效率、胚胎及胚外干细胞质量等多维度的量化分析。利用此分析平台,研究者比较了包括胚胎干细胞(ESC)及诱导的多能干细胞(iPSC)在内的多株不同小鼠多能干细胞系的类胚胎生成能力,发现了不同多能干细胞在二维(2D)及三维(3D)培养以及类胚胎发生过程中的表现有较大的异质性。研究者随后利用此系统进行了小分子及生长因子筛选,经过初筛、筛选、时间窗口和浓度梯度摸索,最终确定了骨形成蛋白4(BMP4)在类胚胎发生过程中的促进作用,并利用单个类胚胎转录组测序、表观遗传组分析以及代孕雌鼠体内的移植实验验证了这一发现。该研究填补了类胚胎领域缺乏统一量化标准的空白,为类胚胎和类器官等三维培养体系的高通量自动化图像分析提供了参考,极大地提高了相关研究的效率和分析维度。
图3 基于机器学习的类胚胎分析流程
该成果以“利用机器学习辅助的高内涵筛选系统全自动分析及评估类胚胎模型”(Machine Learning-Assisted High-Content Analysis of Pluripotent Stem Cell-Derived Embryos in vitro)为题,于4月23日在线发表在干细胞生物学领域权威期刊《干细胞报道》(Stem Cell Reports)上。清华大学医学院那洁副教授、剑桥大学的玛格达琳娜·泽尼卡·格兹教授为该论文的通讯作者,清华大学医学院博士后郭健颖、博士生王培哲为本论文共同第一作者,清华大学博士生邱辉和朱咏林为本研究作出重要贡献。本研究由国家重点研发计划、国家自然科学基金、英国维康信托基金会(Wellcome Trust)和Curci基金会(Curci Foundation),以及清华-北大生命科学联合中心等组织机构提供经费支持。清华大学药学院丁胜教授、刘鹏研究员及北京大学分子医学研究所博士生崔明曜为本研究提供了帮助。