本申请是2019年3月25日提交的标题为“确定循环核酸的线性和环状形式(Determining Linear And Circular Forms of Circulating Nucleic Acids)”的美国临时专利申请第62/823,567号的非临时申请并要求其权益,所述美国临时专利申请出于所有目的通过引用以其整体并入本文。
背景
染色体外环状DNA(eccDNA)是独立于染色体DNA存在的环状形式的DNA(Zhu等人,Sci Rep.2017;7(1):10968)。根据电子显微镜观察,它们首先在小麦和野猪DNA中发现(Hotta等人,Proc Natl Acad Sci U S A.1965;53:356-62)。后来的研究人员发现,这些形式的DNA广泛存在于所有有机体的组织中(Gaubatz.Mutat Res.1990;237(5-6):271-292)。此外,已经揭示可以在鼠(Kumar等人,Mol Cancer Res.2017;15:1197-1205)和人类血浆(Zhu等人,Sci Rep.2017;7:10968)中检测到eccDNA。
已经在血浆中检测到线粒体DNA(Chiu等人,Clin Chem2003;49:719-726和Lo等人,Sci Transl Med 2010;2:61-ra91)。已经对癌症患者的血浆中的线粒体DNA进行了测量,但这些测量不一致(Yu M等人,Mitochondrial DNA 2012;23:329-32;Zachariah RR等人,Obstet Gynecol 2008;112:843-50;Mehra N等人,Clin Cancer Res 2007;23:421-6;Kohler等人,Mol Cancer 2009;8:105;以及Choudhuri等人,Mol Cell Biochem 2014;386:259-269)。
概述
本公开内容的各种实施方案可以提供用于分析生物样品中的环状DNA的技术,所述生物样品可以包括细胞和/或无细胞DNA,如血浆。例如,为了测量环状DNA,可以进行切割以线性化环状DNA,从而可以对它们进行测序。示例切割技术包括限制性酶和转座酶。然后,可以使用一个或多个标准来鉴定线性化DNA分子,例如,以便与线性DNA分子区分开。一个示例标准是将一对反向末端序列映射到参考基因组。另一个示例标准是例如与限制性酶或通过转座酶加入的适配子序列相关的切割标签的鉴定。
一旦鉴定了环状DNA分子(例如,eccDNA和环状线粒体DNA),就可以对它们进行分析(例如,以确定计数、尺寸概况和/或甲基化),以测量生物样品的特性。示例特性包括检测染色体区域中的拷贝数畸变,其继而可以用于检测疾病(例如癌症)的水平。疾病水平可以直接,使用畸变,例如使用甲基化检测。另一个实例包括基于eccDNA的量鉴定细胞组织中的组织类型或疾病。
另外,一些实施方案可以提供同时分析短的线性和环状mtDNA分子的方法。例如,本公开内容允许(1)定量血浆DNA库中的线性和环状形式的无细胞mtDNA分子之间的相对量,例如,以确定疾病水平;以及(2)推断血浆DNA库中线性和环状mtDNA分子的来源组织,例如,作为确定非造血组织或造血组织是否具有序列变体的一部分。序列变体的鉴定可以进一步用于鉴定疾病(例如癌症)和关于该疾病的原始信息。
下面详细描述本公开内容的这些和其它实施方案。例如,其它实施方案涉及与本文描述的方法相关的系统、装置和计算机可读介质。
参考以下详细描述和附图,可以获得对本公开内容的实施例的性质和优点的更好理解。
附图简述
图1显示了根据本公开内容的实施方案的用于eccDNA鉴定的示例技术。
图2A和2B显示了根据本公开内容的实施方案的用于连接处搜索方法的示意性方法。
图3A-5B显示了根据本公开内容的实施方案的一个妊娠病例(MspI处理的)的尺寸分析。
图6A-7B显示了母体特异性eccDNA和胎儿特异性eccDNA(5例合并)的尺寸分析。
图8显示了eccDNA的基因组位置的注释。
图9显示了来自用MspI和HpaII处理的一个妊娠血浆样品的eccDNA的基因组位置。
图10A和10B显示了根据本公开内容的实施方案,使用基于转座酶的标签化(tagmentation)进行eccDNA鉴定的原理的实例。
图11显示了根据本公开内容的实施方案,使用标签化方案对eccDNA的尺寸分析。
图12显示了根据本公开内容的实施方案,通过酶促转化对eccDNA进行鉴定和甲基化分析的示例工作流程。
图13A和13B显示了根据本公开内容的实施方案,人类血浆中eccDNA的尺寸分析和累积频率。
图14比较了不同染色体中线性和eccDNA分子的甲基化水平。
图15显示了根据本公开内容的实施方案,通过亚硫酸氢盐转化对eccDNA进行鉴定和甲基化分析的示例工作流程。
图16是说明根据本公开内容的实施方案的用于分析环状核DNA的技术的流程图。
图17显示了根据本公开内容的实施方案的用于区分血浆中无细胞环状来源的和线性来源的mtDNA分子的示例技术。
图18说明了BfaI限制性酶证明多种原理的用途。
图19A和19B显示了根据本公开内容的实施方案,在具有和没有限制性酶(BfaI)消化的情况下血浆DNA的血浆mtDNA度量的比较。
图20显示了在不同处理下测序的mtDNA片段的尺寸概况。
图21A和21B显示了在所有常染色体和所有mtDNA中mtDNA>200bp的比例。
图22显示了针对图20中的酶促切割2020以及图18中的模拟结果的具有两个切割末端的mtDNA片段的尺寸概况。
图23显示了通过Pacific Biosciences单分子实时(Single Molecule Real-Time,SMRT)测序平台测序的未经限制性酶处理的血浆DNA中的MtDNA片段。
图24A显示了根据本公开内容的实施方案,在具有或没有酶促切割处理的情况下血浆中mtDNA的比例之间的相关性。图24B显示了根据本公开内容的实施方案,在用酶促处理的血浆DNA的所有DNA(核和线粒体)中的线性来源的mtDNA的比例与没有处理的所有血浆DNA(核和线粒体)中的所有mtDNA的比例的相关性。
图25A和25B显示了在具有和没有限制性酶消化的情况下,HBV和HCC样品的血浆DNA的血浆mtDNA度量的比较。
图27显示了根据本公开内容的实施方案的基于靶向捕获的TopM分析。
图28显示了根据本公开内容的实施方案,酶促切割和靶标富集改进了mtDNA片段的检测。
图29显示了根据本公开内容的实施方案,使用用于分析线性和环状mtDNA的肝脏移植模型所说明的示例技术。
图30显示了说明根据本公开内容的实施方案的肝脏移植病例的统计的表3000。
图31显示了根据本公开内容的实施方案的肝脏移植病例的血浆中线性和环状mtDNA分子的分析。
图32显示了根据本公开内容的实施方案,mtDNA分数(在没有酶处理的情况下通过测序确定的)与肝脏DNA分数(通过使用ddPCR的甲基化分析确定的)的相关性。
图33显示了根据本公开内容的实施方案的健康对照与肝脏移植患者之间线性和环状mtDNA的量的差异。
图34显示了根据本公开内容的实施方案的所有mtDNA分子中线性和环状mtDNA分子的比例。
图35A-35C显示了针对mtDNA在所有分子中的百分比(35A)、线性mtDNA在所有mtDNA分子中的百分比(35B)以及环状mtDNA在所有mtDNA分子中的百分比(35C),在HCC与非HCC对象之间的差异。
图36显示了根据本公开内容的实施方案,使用妊娠模型分析线性和环状mtDNA的示例技术。
图37显示了根据本公开内容的实施方案,针对线性mtDNA分子的突变负荷计算的实例。
图38是说明根据本公开内容的实施方案的用于分析环状线粒体DNA(mtDNA)和线性mtDNA的方法2700的流程图。
图39是说明根据本公开内容的实施方案的用于分析环状线粒体DNA的方法2800的流程图。
图40说明了根据本公开内容的实施方案的系统。
图41显示了可与根据本公开内容的实施方案的系统和方法一起使用的示例计算机系统的框图。
术语
“组织”对应于集合在一起作为功能单元的一组细胞。可以在单一组织中发现超过一种类型的细胞。不同类型的组织可以由不同类型的细胞(例如肝细胞、肺泡细胞或血细胞)组成,但也可以对应于来自不同有机体(母亲对比胎儿)的组织或对应于健康细胞对比肿瘤细胞。“参考组织”可以对应于用于确定组织特异性甲基化水平的组织。来自不同个体的相同组织类型的多个样品可以用于确定该组织类型的组织特异性甲基化水平。
“生物样品”是指从对象(例如,人(或其它动物),如孕妇,患有癌症的人或疑似患有癌症的人,器官移植受体或疑似患有涉及器官(例如,心肌梗塞的心脏、卒中的大脑或贫血的造血系统)的疾病过程的对象)中采集的并且含有一种或多种目标核酸分子的任何样品。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、水囊肿(例如睾丸)液、阴道冲洗液、胸膜液、腹水液、腹膜液、脑脊髓液、唾液、汗液、泪液、痰液、支气管肺泡灌洗液、宫颈灌洗液、乳头排出液、来自身体不同部位(例如甲状腺、乳房)的吸入液、眼内液(例如房水)等。也可以使用粪便样品。在多个实施方案中,已富集无细胞DNA的生物样品(例如经由离心方案获得的血浆样品)中的大部分DNA可以是无细胞的(例如超过50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的)。离心方案可以包括例如3,000g×10分钟,获得流体部分,并且以例如30,000g再离心10分钟以去除残留的细胞。作为生物样品分析的一部分,可以分析至少1,000个无细胞DNA分子。作为其它实例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个无细胞DNA分子或更多。
如本文中所用的,术语“片段”(例如DNA片段)可以指多核苷酸或多肽序列中包含至少3个连续核苷酸的部分。核酸片段可以保留亲本多肽的生物活性和/或一些特征。核酸片段可以是双链的或单链的、甲基化的或未甲基化的、完整的或带切口的、与其它大分子(例如脂质粒子、蛋白质)复合或未复合的。核酸片段可以是线性片段或环状片段。肿瘤来源的核酸可以指从肿瘤细胞释放的任何核酸,包括来自肿瘤细胞中病原体的病原体核酸。
术语“测定法(assay)”通常是指用于确定核酸或核酸样品的性质(例如,核酸的统计学上显著的数目)以及对象(从其获得样品)的性质的技术。测定法(例如第一测定法或第二测定法)通常是指用于确定以下的技术:样品中的核酸数目、样品中核酸的基因组身份、样品中核酸的拷贝数变异、样品中核酸的甲基化状态、样品中核酸的片段尺寸分布、样品中核酸的突变状态或样品中核酸的片段化模式。本领域技术人员已知的任何测定法都可以用于检测本文中提及的核酸的任一种性质。核酸的性质包括序列、数目、基因组身份、拷贝数、一个或多个核苷酸位置处的甲基化状态、核酸尺寸、一个或多个核苷酸位置处核酸中的突变以及核酸的片段化模式(例如核酸片段所在的核苷酸位置)。术语“测定法”可以与术语“方法”互换使用。测定法或方法可以具有特定的灵敏度和/或特异性(例如,基于一个或多个截止值的选择),并且可以使用接受者操作特征(ROC)曲线下面积(AUC)统计来测量其作为诊断工具的相对有效性。
“序列读取”是指从核酸分子的任一部分或全部测序的核苷酸串。例如,序列读取可以是存在于生物样品中的整个核酸片段。还例如,序列读取可以是从核酸片段测序的短核苷酸串(例如,20-150个碱基)、在核酸片段的一个或两个末端处的短核苷酸串,或生物样品中存在的整个核酸片段的测序。序列读取可以通过多种方式获得,例如使用测序技术或使用探针(例如通过杂交阵列或捕获探针)或扩增技术(如聚合酶链式反应(PCR)或使用单引物的线性扩增或等温扩增),或基于生物物理的测量(例如质谱)。序列读取可从单分子测序获得。作为生物样品分析的一部分,可以分析至少1,000个序列读取。作为其它实例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个序列读取或更多。可以将序列读取与参考基因组比对(映射)以确定其在参考基因组中的位置。可以使用各种软件包来执行这种比对。
“单分子测序”是指对单个模板DNA分子进行测序以获得序列读取,而无需解读来自模板DNA分子克隆副本的碱基序列信息。单分子测序可以对整个分子或仅部分DNA分子进行测序。可以对DNA分子的大部分进行测序,例如大于50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。序列读取(或来自两个末端的读取)可以与参考基因组比对。当两个末端被比对时(例如,作为整个片段的读取的一部分或对于配对末端),可以在比对中实现更高的准确性,并且可以获得片段的长度。
序列读取可以包括与片段末端相关的“终止序列”(或“末端序列”)。终止序列可以对应于片段的最外N个碱基,例如片段末端的2-30个碱基。如果序列读取对应于整个片段,则序列读取可以包括两个终止序列。当配对末端测序提供对应于片段末端的两个序列读取时,每个读取的序列可以包括一个终止序列。
“序列基序”(或仅“基序”)可以指DNA片段(例如,无细胞DNA片段)中的碱基的短的重复模式。序列基序可以出现在片段的末端,因此是终止序列的一部分或包括终止序列。“末端基序”可以指优先存在于DNA片段末端的终止序列的序列基序(可能针对特定类型的组织)。末端基序也可以恰好出现在片段的末端之前或之后,从而仍然对应于终止序列。
“切割标签”可以指在DNA片段末端的短序列,表明DNA已经在该位置被切割。例如,切割标签可以由酶消化(限制性酶或转座酶)产生,并且可以是不同的标签或重复的序列。当使用限制性酶时,“切割标签”可以是“末端基序”。
如本文所用,术语“基因座(locus)”或其复数形式“基因座(loci)”是任何长度的核苷酸(或碱基对)的位置或地址。基因座在基因组上可以具有变异。
“终止位置”或“末端位置”(或仅仅“末端”)可以指无细胞DNA分子,例如血浆DNA分子的最外碱基(即在末端处)的基因组坐标或基因组身份或核苷酸身份。末端位置可以对应于DNA分子的任一末端。以此方式,如果一端是指DNA分子的起点和末端,那么两个都可以对应于终止位置。在实践中,一个末端位置是通过分析方法检测或确定的无细胞DNA分子的一个末端上的最外碱基的基因组坐标或核苷酸身份,所述分析方法例如(但不限于)大规模平行测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案、聚合酶链式反应(PCR)或微阵列。此类体外技术可以改变无细胞DNA分子的真实体内物理末端。因此,每个可检测末端可以表示生物学上的真实末端或所述末端是一个或多个朝内的核苷酸或一个或多个从分子的原始末端延伸的核苷酸,例如非平末端双链DNA分子的悬突通过克列诺片段(Klenow fragment)的5’钝化和3’填充。末端位置的基因组身份或基因组坐标可以来源于序列读取与人类参考基因组如hg19的比对结果。其可以来源于表示人类基因组的初始坐标的索引或代码的目录号。其可以指通过(但不限于)靶标特异性探针、微测序、DNA扩增读取的无细胞DNA分子上的位置或核苷酸身份。术语“基因组位置”可以指多核苷酸(例如基因、质粒、核酸片段、病毒DNA片段或基因组)中的核苷酸位置。术语“基因组位置”不限于基因组内的核苷酸位置(例如,配子或微生物中或者多细胞有机体的每个细胞中的染色体的单倍体集)。
术语“等位基因”是指在相同物理基因组基因座处的可选DNA序列,其可能会或可能不会导致不同的表型性状。在任何特定的二倍体有机体中,每个染色体有两个拷贝(男性人类对象中的性染色体除外),每个基因的基因型包括该基因座上存在的一对等位基因,其在纯合子中相同,而在杂合子中不同。有机体的群体或物种通常在各个个体的每个基因座上包含多个等位基因。在群体中发现一种以上等位基因的基因组基因座称为多态性位点。基因座处的等位基因变异可以被测量为存在的等位基因的数目(即多态性程度)或群体中杂合子的比例(即杂合率)。如本文所用,术语“多态性”是指人类基因组中的任何个体间变异,无论其频率如何。此类变异的实例包括但不限于单核苷酸多态性、简单串联重复多态性、插入-缺失多态性、突变(其可能是引起疾病的)和拷贝数变异。本文所用的术语“单倍型”是指在同一染色体或染色体区域上一起被传递的多个基因座处的等位基因的组合。单倍型可以指少至一对基因座或染色体区域或整个染色体或染色体臂。
术语“胎儿DNA分数浓度”与术语“胎儿DNA比例”和“胎儿DNA分数”可互换使用,并且是指来源于胎儿的生物样品(例如母体血浆或血清样品)中所存在的胎儿DNA分子的比例(Lo等人,Am J Hum Genet.1998;62:768-775;Lun等人,Clin Chem.2008;54:1664-1672)。类似地,肿瘤分数或肿瘤DNA分数可以指生物样品中肿瘤DNA的分数浓度。
术语“尺寸概况(size profile)”和“尺寸分布”通常涉及生物样品中DNA片段的尺寸。尺寸概况可以是直方图,其提供各种尺寸的DNA片段的量的分布。各种统计参数(也称为尺寸参数或仅称为参数)可以将一个尺寸概况与另一个区分开。一个参数是特定尺寸或尺寸范围的DNA片段相对于所有DNA片段或者相对于另一尺寸或范围的DNA片段的百分比。
本文所用的术语“参数”意指表征定量数据集和/或定量数据集之间的数值关系的数值。例如,第一核酸序列的第一量与第二核酸序列的第二量之间的比值(或比值的函数)是参数。分离值是参数的一个实例。“分离值”(或相对丰度)对应于涉及两个值,例如DNA分子的两个量,两个分数贡献或两个甲基化水平,如样品(混合物)甲基化水平和参考甲基化水平的差值或比值。分离值可以是简单的差值或比值。作为示例,x/y的直接比值以及x/(x+y)是分离值。分离值可以包括其它因子,例如乘法因子。作为其它示例,可以使用值的函数的差值或比值,例如,两个值的自然对数(ln)的差值或比值。分离值可以包括差值和/或比值。“甲基化水平”是例如甲基化DNA分子(例如在特定位点)与其它DNA分子(例如在特定位点的所有其它DNA分子或仅未甲基化的DNA分子)之间的相对丰度的实例。其它DNA分子的量可以充当归一化因子。作为另一个实例,可以确定相对于所有或未甲基化的DNA分子的强度的甲基化DNA分子的强度(例如,荧光或电强度)。相对丰度也可以包括每体积的强度。
“分类”可以指与样品的特定性质相关的任何数字或其它字符。例如,“+”符号(或词语“阳性”)可以表示样品归类为具有缺失或扩增。另一个实例中,术语“分类”可以指对象和/或样品中肿瘤组织的量、对象和/或样品中肿瘤的尺寸、对象中肿瘤的阶段、对象和/或样品中的肿瘤负荷以及对象中肿瘤转移的存在。分类可以是二元的(例如阳性或阴性)或具有更多分类等级(例如1到10或0到1的标度)。
术语“截止值”和“阈值”可以指操作中所使用的预定数目。阈值或截止值可以是一种值,高于或低于所述值则适用特定分类,例如病况的分类,如对象是否患有病况或病况的严重程度。截止值或阈值可以是“参考值”,或者来源于代表特定分类或者在两个或更多个分类之间进行区分的参考值。可以在参考或不参考样品或对象的特征的情况下来预先确定截止值。例如,可以基于测试对象的年龄或性别来选择截止值。可以在测试数据输出之后并基于测试数据的输出来选择截止值。例如,当样品的测序达到一定深度时,可以使用某些截止值。作为另一个实例,具有一种或多种病况的已知分类和测得的特征值(例如,甲基化水平,统计尺寸值或计数)的参考对象可以用于确定参考水平,以区分不同的病况和/或病况分类(例如,对象是否患有该病况)。可以选择参考值来代表一个分类(例如,平均值)或在度量的两个聚类之间的值(例如,被选择以获得期望的灵敏度和特异性)。作为另一个实例,可以基于样品的统计模拟来确定参考值。这些术语中的任何一个都可以在任何这些上下文中使用。
“非造血组织来源”是指除血液系统以外的任何器官。实例包括肝脏、肺、心脏、脑、非造血癌症、胎盘等。
术语“核DNA”是指源自细胞核的DNA。“核基因组”对应于源自细胞核的核DNA。“线粒体基因组”对应于源自细胞中线粒体的DNA。
术语“癌症水平”(或更一般地,“疾病水平”或“病况水平”或“病症水平”)可以指是否存在癌症(即存在或不存在)、癌症的阶段、肿瘤尺寸、是否存在转移、身体的总体肿瘤负荷、癌症对治疗的反应和/或癌症严重程度的其它度量(例如癌症复发)。癌症水平可以是数字(例如,概率)或其它标记,如符号、字母和颜色。水平可以为零。癌症水平还可以包括恶化前或癌前病况(状态)。癌症水平可以多种方式使用。例如,筛查可以检查以前不知道患有癌症的某人是否存在癌症。评估可以调查被诊断出患有癌症的某人,以监测癌症随时间的进展,研究治疗的有效性或确定预后。在一个实施方案中,预后可以表示为患者死于癌症的机会,或者在特定持续时间或时间之后癌症进展的机会,或者癌症转移的机会。检测可以意指“筛查”,或者可以意指检查具有癌症暗示特征(例如症状或其它阳性检查)的某人是否患有癌症。
本文所用的术语“序列失衡”或“畸变”意指在临床相关染色体区域的量中的至少一个截止值所定义与参考量的任何显著偏差。序列失衡可以包括染色体剂量失衡、等位基因失衡、突变剂量失衡、拷贝数失衡、单倍型剂量失衡和其它类似失衡。作为实例,当肿瘤的基因的一个等位基因缺失或基因的一个等位基因扩增或其基因组中的两个等位基因差异扩增时,就可以发生等位基因失衡,从而在样品的特定基因座处产生失衡。作为另一个实例,患者可以在肿瘤抑制基因中具有遗传突变。然后,患者可以继续发展为肿瘤,其中肿瘤抑制基因的未突变等位基因缺失。因此,在肿瘤内,存在突变剂量失衡。当肿瘤将其DNA释放到患者血浆中时,肿瘤DNA将与患者血浆中的组成DNA(来自正常细胞)混合。畸变可以包括染色体区域的缺失或扩增。
哺乳动物基因组中的“DNA甲基化”通常是指在CpG二核苷酸中的胞嘧啶残基的5’碳上加入甲基基团(即5-甲基胞嘧啶)。在其它情况下,胞嘧啶中可以发生DNA甲基化,例如CHG和CHH,其中H为腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化也可以是5-羟甲基胞嘧啶的形式。还报道了非胞嘧啶甲基化,如N6-甲基腺嘌呤。
“位点”(也称为“基因组位点”)对应于单个位点,其可以是单个碱基位置或一组相关碱基位置,例如,CpG位点或更大的一组相关碱基位置。“基因座”可以对应于包括多个位点的区域。基因座可以仅包括一个位点,这将使基因座在该上下文中等同于位点。
每个基因组位点(例如,CpG位点)的“甲基化指数”可以指显示该位点处的甲基化的DNA片段(例如,由序列读取确定的)占覆盖该位点的读取总数的比例。“读取”可以包括从DNA片段获得的信息(例如,位点处的甲基化状态)。可以使用优先与特定甲基化状态的DNA片段杂交的试剂(例如引物或探针)获得读取。通常,这种试剂在用取决于其甲基化状态而差别修饰或差别识别DNA分子的方法(例如亚硫酸氢盐转化、或甲基化敏感性限制性酶、或甲基化结合蛋白、或抗甲基胞嘧啶抗体)或者识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术处理后施加。
区域的“甲基化密度”可以指区域内的位点处显示甲基化的读取的数目除以覆盖该区域中的位点的读取的总数。这些位点可以具有特定的特征,例如是CpG位点。因此,区域的“CpG甲基化密度”可以指显示CpG甲基化的读取的数目除以覆盖该区域CpG位点(例如,特定CpG位点,CpG岛内的CpG位点或更大的区域)的读取的总数。例如,可以从亚硫酸氢盐处理后在CpG位点未转化的胞嘧啶总数(对应于甲基化的胞嘧啶)确定人类基因组中每100-kb堆栈的甲基化密度,所述CpG位点作为映射到该100-kb区域的序列读取所覆盖的所有CpG位点的一部分。还可以针对其它堆栈尺寸执行此分析,例如500bp、5kb、10kb、50kb或1-Mb等。区域可以是整个基因组或染色体或染色体的一部分(例如,染色体臂)。当区域仅包含CpG位点时,该CpG位点的甲基化指数与该区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以指显示被甲基化(例如,在亚硫酸氢盐转化后未转化)的胞嘧啶位点“C”的数目,相比在该区域中所分析的胞嘧啶残基(即包括CpG范围之外的胞嘧啶)的总数。甲基化指数,甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。除亚硫酸氢盐转化外,本领域技术人员已知的其它方法可用于询问DNA分子的甲基化状态,包括但不限于对甲基化状态敏感的酶(例如甲基化敏感的限制性酶)、甲基化结合蛋白、使用对甲基化状态敏感的平台进行的单分子测序(例如,纳米孔测序(Schreiber等人,Proc Natl Acad Sci 2013;110:18910-18915))以及通过Pacific Biosciences单分子实时分析(Flusberg等人,Nat Methods 2010;7:461-465))。DNA分子的甲基化度量可以对应于甲基化位点(例如,CpG位点)的百分比。甲基化量度可以被指定为绝对数或百分比,其可以被称为分子的甲基化密度。
“可识别甲基化的测序”是指允许在测序过程中确定DNA分子的甲基化状态的任何测序方法,包括但不限于亚硫酸氢盐测序或甲基化敏感的限制性酶消化后的测序,使用抗甲基胞嘧啶抗体或甲基化结合蛋白进行的免疫沉淀或允许阐明甲基化状态的单分子测序。“可识别甲基化的测定法”或“甲基化敏感测定法”可以包括基于测序和非测序的方法,如MSP,基于探针的询问,杂交,限制性酶消化然后进行密度测量,抗甲基胞嘧啶免疫测定,质谱询问甲基化胞嘧啶或羟甲基胞嘧啶的比例,免疫沉淀后不进行测序等。
术语“对照”、“对照样品”、“参考”、“参考样品”、“正常”和“正常样品”可以互换使用,以大体上描述不具有特定病况,或在其它方面是健康的样品。在一个实例中,本文公开的方法可以在患有肿瘤的对象上进行,其中参考样品是取自对象健康组织的样品。在另一个实例中,参考样品是取自患有疾病(例如,癌症或癌症的特定阶段)的对象的样品。可以从对象或数据库获得参考样品。参考通常是指参考基因组,其用于对从对象的样品进行测序获得的序列读取进行映射。参考基因组通常是指单倍体或二倍体基因组,来自生物样品和组成样品的序列读取可以与之进行比对和比较。对于单倍体基因组,每个基因座只有一个核苷酸。对于二倍体基因组,可以鉴定杂合基因座,这样的基因座具有两个等位基因,其中任一等位基因都可以允许与该基因座比对匹配。参考基因组可以对应于病毒,例如,通过包括一个或多个病毒基因组。
本文所用的短语“健康”通常是指具有良好健康的对象。这样的对象表现出不存在任何恶性或非恶性疾病。“健康个体”可以患有与被测定的病况(其通常可以不被视为“健康”)无关的其它疾病或病况。
术语“癌症”或“肿瘤”可以互换使用,并且通常是指异常的组织块,其中该块的生长超过正常组织的生长并且与其不协调。根据以下特征,可以将癌症或肿瘤定义为“良性”或“恶性”:细胞分化程度,包括形态和功能,生长比率,局部浸润和转移。“良性”肿瘤通常分化良好,典型地比恶性肿瘤生长缓慢,并且仍然局限于起源部位。另外,良性肿瘤不具有浸润,侵袭或转移到远处的能力。“恶性”肿瘤通常分化较差(发育不良),典型地快速生长,伴随着周围组织的进行性浸润,侵袭和破坏。此外,恶性肿瘤具有转移至远处的能力。“阶段”可用于描述恶性肿瘤的进展程度。与后期恶性肿瘤相比,早期癌症或恶性肿瘤与体内较少的肿瘤负荷相关,通常伴有较少的症状,更好的预后和更好的治疗效果。后期或晚期癌症或恶性肿瘤通常与远处转移和/或淋巴扩散有关。
术语“约”或“大约”可以意指在如由本领域技术人员测定的具体值的可接受的偏差范围内,其将部分取决于所述值如何测量或测定,即,测量系统的限制。例如,根据所属领域中的实践,“约”可以意指在1或大于1个标准差内。或者,“约”可以意指给定值的多达20%、多达10%、多达5%或多达1%的范围。或者,尤其相对于生物学系统或方法,术语“约”或“大约”可以意指在值的数量级内,5倍内且更优选2倍内。在本申请和权利要求书中描述特定值的情况下,除非另有说明,否则应假设术语“约”意指处于该特定值的可接受误差范围内。术语“约”可以具有如本领域技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
本文所用的术语仅用于描述特定情况的目的,而不旨在是限制性的。如本文所用,单数形式“一个/一种(a)”、“一个/一种(an)”和“所述”也旨在包括复数形式,除非上下文另外清楚地指出。术语“基于”旨在意指“至少部分基于”。此外,就在详述和/或权利要求书中使用术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“带有(with)”或其变型的程度而言,这些术语旨在以类似于术语“包含(comprising)”的方式包括在内。
详述
自从发现染色体外环状DNA(eccDNA)以来,研究人员已经尝试了各种方法来获得关于这种特殊形式的DNA的知识。早期的报道在eccDNA的可视化和定量中利用电子显微镜和Southern印迹(Gaubatz.Mutat Res.1990;237:271-292)。这种方法只能获得关于eccDNA的序列的数目和部分(如通过探针杂交所获知的)的有限信息。更详细的信息,如eccDNA的准确完整序列和基因组位置是不容易获得的。而且,使用eccDNA来测量生物样品的特性(例如,用于诊断目的)受到限制。通过本公开内容的一些实施方案,我们已经提出了用于eccDNA分析的方法。
与源自核DNA分子的血浆DNA片段相比,源自线粒体基因组的无细胞线粒体DNA(mtDNA)片段显示出完全不同的尺寸特征(Lo等人,Sci Transl Med.2010;2:61ra91;Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)。当与血浆中核DNA的情况相比时,对于循环线粒体DNA,存在高得多的较短DNA分子的比例。此外,166-bp的模态峰和10-bp的周期性小峰不再显示在血浆中线粒体DNA的尺寸概况中。血浆线粒体DNA分子的核小体特征的这种消失可能是由于线粒体基因组中缺乏组蛋白包装(Lo等人,Sci Transl Med.2010;2:61ra91;Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)。
使用大规模平行测序,Jiang等人报道,与健康对照、HBV携带者和肝硬化对象相比,无细胞mtDNA分子的增加与患有肝细胞癌(HCC)的患者相关(Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)。然而,这种大规模平行测序只能有效地对线性片段化DNA,如天然片段化无细胞的核DNA和线粒体DNA,以及人工剪切或切割的基因组DNA进行测序。已知线粒体基因组是尺寸约为16.5kb的天然存在的环状双链DNA形式。在这里,我们假设Jiang等人(Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)分析的无细胞mtDNA可能是降解的线性mtDNA,而不是环状mtDNA。
通过本公开内容的一些实施方案,我们已经提出了对环状mtDNA的分析。例如,本公开内容可以提供用于分析生物样品(例如,包括无细胞DNA,如血浆)中的环状DNA的技术。例如,为了测量环状DNA,可以进行切割以线性化环状DNA,以便可以对其进行测序。示例切割技术包括限制性酶和转座酶。然后,可以使用一个或多个标准来鉴定线性化DNA分子,例如,以便与线性DNA分子区分开。一个示例标准是将一对反向末端序列映射到参考基因组。另一个示例标准是例如与限制性酶或通过转座酶加入的适配子序列相关的切割标签的鉴定。一旦鉴定了环状DNA分子(例如,eccDNA和环状线粒体DNA),就可以对它们进行分析(例如,以确定计数、尺寸概况和/或甲基化),以测量生物样品的特性,包括遗传特性和疾病水平。
I.环状核DNA
根据一些实施方案,工作流程首先通过核酸外切酶消化(例如使用核酸外切酶V)减少(例如,至基本上消除)血浆DNA样品中的线性DNA。其它技术(例如氯化铯-溴化乙锭(CsCl-EB)密度梯度离心)也可用于减少线性DNA。
然后,我们用打开环(例如,eccDNA或线粒体DNA的环)的方法跟进以形成线性化DNA分子。eccDNA的线性化可以以各种方式进行。在一个实例中,我们利用限制性酶消化在具有切割序列基序(其是一种类型的切割标签)的特定切割位点处打开环。在另一个实例中,我们使用转座酶(例如,经由标签化)来打开环,例如,插入可识别的切割标签,如用于限制性酶消化的切割序列基序。然后可以进行所得线性化DNA的文库制备和下一代测序。
在使用酶消化的各种实例中,一种实施方式可以使用限制性酶MspI(切割CCGG序列;甲基化不敏感的)。在另一个实施方式中,我们使用限制性酶HpaII(切割CCGG序列;甲基化敏感的)。在另一个实施方式中,我们组合了通过使用MspI和HpaII产生的数据以获得对eccDNA的新见解。
可以使用除MspI和HpaII之外的限制性酶。作为例证,也可以使用DpnI和DpnII,二者都识别GATC序列。DpnI仅在识别位点(A碱基)甲基化时才切割。另一方面,DpnII对甲基化状态不敏感。识别和切割的碱基数目可以变化。例如,MspI和HpaII都是4碱基切割者。可以使用除4碱基切割者之外的限制性酶,如6碱基切割者。
当与eccDNA的滚环扩增(Shibata等人,Science.2012;336:82-86)和剪切(例如,通过喷雾器)以形成线性化DNA相比时,使用切割标签的方法(例如,限制性酶或转座酶方法)可以在eccDNA读取的定义(鉴定)中提供更严格的标准。例如,可以使用包含已知序列(切割标签)的另外两个锚来准确地鉴定eccDNA分子,其中已经进行了切割(例如CCGG片段末端),并且在序列读取的两个末端序列之间不存在缺口。这种特征锚(signature anchor)可以用于准确地鉴定eccDNA读取以及用于确定它们在参考基因组中的位置。使用参考基因组经由比对程序可以确定缺口的不存在,如下面更详细描述的。
来自切割标签(例如CCGG读取末端)的这种信息不仅促进对eccDNA的更准确的鉴定,由从甲基化不敏感的和甲基化敏感的限制性酶检测到的eccDNA的数目所提供的互补信息也允许推断eccDNA的甲基化水平。通过以前记录的方法无法获得这样的信息。此外,在eccDNA片段中不存在CCGG片段末端(或对其它类型的限制性酶特异的其它识别序列,即其它类型的切割标签)可以提供预先存在eccDNA损伤的见解,所述eccDNA损伤是指在限制性酶切割之前eccDNA的线性化。这样的线性化可能是由于DNA加工过程中的机械剪切、血流中的核酸酶攻击等造成的。这样的eccDNA分子,虽然用连接位点检测到,但通常在片段的一端或两个末端缺少限制性酶切割基序。这样的情况可以被称为“预先存在的eccDNA损伤”。这样的信息也不能通过以前记录的方法获得。这样的信息可以为体内eccDNA产生和加工的生物学机制提供有价值的知识。
限制性酶消化的使用已经被用于产生用于分子克隆的重组质粒。然而,这样的应用与本公开内容之间存在明显的差异。首先,当映射到基因组时,从具有清楚的起始和结束位置的有机体的基因组产生eccDNA分子,然而这样的概念不存在于细菌质粒中。其次,用于eccDNA研究的限制性酶方法可以提供宿主基因组序列的见解。但是对于细菌质粒DNA,限制性酶消化方法仅允许窥视质粒DNA信息,而不允许窥视宿主基因组本身(Shintani等人,Front Microbiol.2015;31;6:242)。
限制性酶方法使用eccDNA上特异性识别位点的存在,以便其消化和线性化。利用转座酶随机切割DNA的标签化方法不需要特定的DNA序列。因此,标签化方法可以潜在地提供较高数目的线性化eccDNA用于文库构建和测序。在以前的报道中,描述了使用标签化进行组织中的eccDNA分析(Shoura等人,G3(Bethesda).2017;7(10):3295-3303)。Shoura等人使用氯化铯-溴化乙锭密度梯度离心从组织基因组DNA中富集eccDNA。相比之下,不需要执行这样的步骤。因此,本公开内容的标签化方法可以更适合于血浆DNA和包括循环DNA的其它体液或粪便。
A.用于eccDNA鉴定的原理和生物信息学方法
图1显示了根据本公开内容的实施方案的用于eccDNA鉴定的示例技术。基因组100中的“蓝色”条102和“红色”条106表示两个区域,其被假设连接在一起以形成染色体外环状DNA(eccDNA)。“青色”条表示限制性酶识别位点104,其充当切割标签。例如,MspI限制性酶可以识别和切割CCGG位点。这样的特异性切割将使原始环状DNA分子线性化。所得线性化分子将携带交错的末端,其可以通过末端修复步骤进行修复以形成平末端分子。这样的平DNA末端将携带切割标签(即5’CGG和3’CGG基序)。随后,可以使用不同的测序技术(包括但不限于Illumina平台、Ion Torrent测序等)对平末端DNA进行测序。
显示了eccDNA 110具有环状连接基因座112,其包括来自基因组100的两个区域102和106。区域102和106的末端包括在两个分开的基因组位置的核苷酸,它们在eccDNA 110中彼此直接相邻以形成环状连接基因座112。在步骤120,在位点104进行消化以产生线性化DNA分子125。在步骤130,例如如上所述进行末端修复。在步骤140,进行测序(例如,配对末端测序或单分子测序)以获得序列145,其包括环状连接基因座112。如图所示,序列145可以包括读取1和读取2。
如果我们以足够的读取长度对读取1和读取2进行测序,则在配对末端测序的步骤中使序列读取跨越环状连接基因座112(由嵌合箭头指示)的可能性很高。读取1从线性化DNA分子125的左端延伸,其中读取1在环状连接基因座112的左侧是蓝色,在环状连接基因座112的右侧是红色。读取2从线性化DNA分子125的右端延伸,其中读取2在环状连接基因座112的右侧是红色,在环状连接基因座112的左侧是蓝色。
在步骤150,与参考基因组进行比对。当读取1和/或读取2覆盖环状连接基因座112时,在比对结果中,我们将观察到线性化分子的读取1和读取2序列(例如,通过MspI切割)以独特的映射方向性映射到参考基因组。为了说明的目的,我们在读取1中定义了未映射的区段152(比对步骤后的红色箭头,“b->a”区段),其将对应于跨越连接处的来源于被连接以形成环状DNA的其他基因组区域的序列。类似地,我们在读取2中定义了未映射的区段154(比对步骤后的蓝色箭头,“e->f”区段),其将对应于跨越连接处的来源于被连接以形成环状DNA分子的其他基因组区域的序列。
以下两种情形覆盖了这样独特的映射方向性,涉及读取与参考基因组之间的反向方向:
a.当区段“b->c”的读取1最小映射坐标(即b)等于或小于区段“d->e”的读取2最小映射坐标(即d)时,读取1将在反向链中对齐,读取2将在正向链中对齐。
b.当读取2最小映射坐标等于或小于读取1最小映射坐标时,读取1将在正向链中对齐,读取2将在反向链中对齐(图1中未显示)。
这样独特的映射方向性不同于源自最初线性DNA的一对配对末端读取的常规映射方向。因此,这样的标准可以用于鉴定环状分子。例如,当读取1最小映射坐标等于或小于读取2最小映射坐标时,读取1在正向链中完全对齐,读取2在反向链中完全对齐;或者当读取2最小映射坐标等于或小于读取1最小映射坐标时,读取1在反向链中完全对齐,读取2在正向链中完全对齐。在生物信息学上,在读取1和/或读取2中存在的未映射区段中搜索参考基因组中的映射位点将允许描绘连接处。从片段的未映射区段推断的连接位点之间的距离将指示环状DNA的尺寸。例如,区域102与104之间的距离提供了环状DNA的尺寸。
另一个特征是,如果环状DNA仅被切割一次,则在映射的读取1与读取2之间存在两个核苷酸重叠。通过由MspI或HpaII或其它消化酶产生的交错末端(即锯齿状末端)引入读取1与读取2之间的这种两个核苷酸重叠的序列。MspI或HpaII将产生两个交错的单链断裂,并且两个断裂之间的距离将是2bp。这种5’突出的2-nt单链末端(彼此互补)将在末端修复步骤中被填充以形成平末端。因此,所得DNA序列将在读取1与读取2序列的末端之间携带2bp重叠。换句话说,在文库制备步骤中,将存在“末端修复”步骤,其将通过向每个末端加入两个核苷酸而将锯齿状末端完成为平末端。因此,所得DNA序列将具有两个平末端而不是两个锯齿状末端。当两个测序读取与基因组比对时,在末端修复步骤中加入的两个核苷酸将作为两个读取之间重叠的两个额外的碱基对出现,这可以另外或可选地用于鉴定环状DNA分子。
总之,在一个示例eccDNA鉴定方法中,可以有四个“诊断特征”,其包括:
a.如以上(a)和(b)中提供的环状DNA特异性映射方向(方向性);
b.可识别连接处的读取(仅一部分终止序列映射到参考基因组);
c.限制性酶切割标签;
d.读取1和读取2序列的5’端的两个重叠碱基。
这样的诊断特征可以极大地提高鉴定血浆DNA中全基因组eccDNA分子的特异性。在一些实施方式中,满足这些“诊断特征”中的至少一个的测序读取可以被定义为候选环状DNA。对于被限制性酶切割多次的环状DNA,读取1和读取2不会在彼此之间具有重复的序列(重叠的碱基)。在其它实施方式中,一对中仅一个读取可能跨越连结位点,另一个将不携带连接处。作为另一个实例,来自一对的两个读取都不会携带连接处,但显示了独特的映射方向,暗示了环状DNA。在另一个实例中,即使在测序读取中不能直接观察到完整的限制性酶切割标签,也可以从一个环状DNA的这些推断的连接位点之间的参考基因组中检索参考序列。然后可以通过生物信息学研究在这样检索到的参考序列中是否存在任何限制性酶切割标签(基序)。这样推断的限制性酶切割基序将增加鉴定的环状DNA种类确实正确的置信度。
因此,一种方法可以使用限制性酶作为分析eccDNA的一部分。这样的技术可以与本文所述的其它方法组合使用,例如用于分析eccDNA以及mtDNA。下游分析可以包括使用环状DNA的检测来测量样品的特性。
在步骤1中,可以接收有机体的生物样品。本文提供了生物样品的实例,如血浆和血清。生物样品包括多个染色体外环状DNA(eccDNA)分子。eccDNA可以来自任何数量的染色体,包括常染色体和/或性染色体。多个eccDNA分子中的每一个包括连接处,在该连接处,两个分开的基因组位置处的核苷酸彼此直接相邻。连接处112是这样的连接处的一个实例,其中区域102和106包括这样的两个分开的基因组位置,其彼此直接相邻。
在步骤2中,使用限制性酶进行消化。在一些实施方式中,可以使用多于一种类型的限制性酶。消化多个eccDNA分子可以形成一组线性化DNA分子,其各自包括连接处。每种限制性酶可以在不同的基序处切割,所得的线性化DNA片段具有不同的切割标签。术语“线性化DNA片段”与“线性DNA片段”不同,“线性DNA片段”在任何消化之前已经是线性的。
在步骤3中,对于线性化DNA分子中的每一个,可以对线性化DNA分子的至少两个末端进行测序以获得一个或多个序列读取。一个或多个序列读取可以包括或可以不包括连接处。如果读取不包括连接处,则仍然可以使用映射的方向性来鉴定eccDNA分子,如表1所述。在一些实施方案中,可以获得两个序列读取(每个末端一个)。在其它实施方案中,整个线性化DNA分子的单一序列读取可以包括两个末端,如本文所述。
在获得序列读取之后,可以将序列读取映射(比对)到参考基因组,例如,以查看它们是否以反向方向映射。如果它们确实以反向方向映射(示例标准),则相应的线性化DNA分子可以被鉴定为最初是环状的。因此,对于线性化DNA分子中的每一个,可以从一个或多个序列读取中选择线性化DNA分子的一对末端序列。该对末端序列不包括连接处。这样的末端序列的实例是图1中的末端序列146和末端序列148。该对末端序列中的每一个末端序列的方向被反转以获得一对反向末端序列。这样的反向末端序列的实例是反向末端序列156和反向末端序列158。然后可以将该对反向末端序列映射到参考基因组。
可以分析映射的反向末端序列以测量生物样品的特性。本文提供了这样的测量的实例。这样的分析可以使用检测到的eccDNA的集合值(例如,计数、尺寸或甲基化)。因此,该方法还可以包括基于映射到参考基因组的一对反向末端序列,将线性化DNA分子鉴定为源自eccDNA分子(下表1中提供的其它标准),以及确定鉴定的eccDNA分子的集合值,其中分析映射的反向末端序列以测量使用该集合值的生物样品的特性。
B.鉴定技术
如以上所解释的,各种标准可以用于鉴定环状DNA分子。另外,可以在原始序列读取(例如,来自图1的读取1和读取2)的分析中使用各种程序来鉴定环状DNA的一个或多个特性。
可以对原始序列读取进行预处理。例如,可以去除重复的读取,测序适配子和基于测序读取的3’端的低质量碱基。此外,可以选择配对末端读取(或来自单个分子读取的末端)的指定数目的碱基进行比对。
1.推定的eccDNA鉴定
在预处理的配对末端读取中由读取1和读取2的前50bp组成的生物信息学截短的读取1和读取2可以用于使用比对程序,例如Bowtie 2(Langmead等人,Nat Methods.2012;9:357-9)以配对末端模式与人类参考基因组进行比对。也可以使用其它比对技术。除了50bp之外,还可以使用每个读取的其它长度,例如,至少20、25、30、35、40或45bp。在比对时的第一遍可以尝试标准方向,例如,将读取1以左端在比读取中最后一个碱基更低的基因组位置处进行比对。对于那些正常比对(即,在正向方向)的配对末端读取,将在第一遍中确定关于读取1和读取2的映射方向性。与常规正确映射的配对末端相比,如果片段的读取1和读取2对应于环状DNA,则正向方向将不会提供该对的正确比对,因为这样的读取具有环状DNA特异性映射方向(图1)。
如果该对读取不与正向方向对齐,则可以在第二遍比对中中尝试反向方向。如图1所示,读取1和读取2是反向的。如果截短的读取可以以反向方向比对,则截短之前的相应读取可以与参考基因组重新比对。可能需要未截短的读取,以便它们覆盖连接处。如果读取确实覆盖了连接处,则它将不会与参考基因组完全对齐,即使在反向方向上亦如此,例如,如图1所示。具有至少一个读取(其不能在其全长上与参考基因组对齐)的配对末端读取可以用于下游详细分析eccDNA的“诊断特征”(例如,上述4个),因为不能以端对端(end-to-end)模式对齐参考基因组的这样的读取表明有连接处。这些配对末端读取可以被认为是源自环状DNA分子的推定读取。
2.探测eccDNA分子的连接处
为了以单碱基分辨率准确地定位eccDNA的基因组位置,一些实施方式分别微调了推定读取的重新比对。以读取1为例,将来自读取1序列的前20bp和后20bp用作种子(分别为种子A和种子B)以确定可能携带连接处的候选基因组区域。用于搜索候选位置的缩短读取有助于使含有连接处的读取的可能性最小化,这将影响连接位点的比对准确性和精确确定。在该步骤中,可以允许多次击中(例如,对于每个种子不超过10次击中),以便使检测连接处的灵敏度最大化。如果种子B序列没有置于在相同方向上的种子A映射位置的下游,则表明这样的读取1将携带连接处。
然后,我们使用搜索方法以单碱基分辨率探测读取1(其被鉴定为可能携带连接处)的连接处。
图2A和2B显示了根据本公开内容的实施方案的用于连接处搜索方法的示意性方法。在与参考基因组比对后,在读取内进行搜索,例如如图1中的步骤150后所示。携带连接处的读取207含有两个相反映射方向的区段(红色和蓝色),例如,如图1所示。
在图2A和2B中,以“分割和匹配”方式进行搜索。我们使用“分割位点”205(如黑色虚线所示)将原始读取1序列分成两部分,即部分A和部分B。我们沿着除种子区域202和204(例如,长度为20bp)之外的整个读取反复地滑动“分割位点”205,以便穷尽部分A和部分B的所有组合。“分割位点”205左边的序列(但不包括种子区域202)是部分A。“分割位点”205右边的序列(但不包括种子区域204)是B部分。部分A和部分B中每一个的最小长度可以被约束,例如不小于18bp。
图2A显示了当“分割位点”205与实际连接处212不重叠的实例。在分割读取后,可以重新比对种子区域202和204,如图所示。然后,可以分别连接部分A和部分B,如图所示。当“分割位点”205与实际连接处212不重叠时,如果在部分A和部分B分别粘贴到种子A和种子B后,我们将部分A和部分B与参考基因组进行比较,则部分A和部分B将显示许多错配。
图2B显示了当“分割位点”与实际连接处212完全重叠时的实例。如果在将部分A和部分B分别粘贴到种子A和种子B后,我们将部分A和部分B与参考基因组进行比较,则部分A和部分B在理论上将显示零错配。因此,在部分A和部分B的所有组合中给出最小错配的读取1序列中的“分割位点”250被鉴定为连接处。这样的最小值可以满足错配状况。在其它实施方式中,可以扩展种子,直到指定数量(例如,两个或更多个)的连续位置与参考不匹配。
这样的搜索也被独立地应用于读取2序列。读取2序列将用于进一步提高特异性。例如,读取2序列将具有两种情形:(1)与读取1一样,读取2序列携带连接处。这样的连接信息应与从读取1序列推断的结果兼容。(2)读取2序列不携带连接处。在这种情况下,读取2序列应在由连接位点任一端的序列所划分的区域内完全对齐,所述连接位点是从读取1序列(即,部分A和部分B)推断出来的。读取1和读取2的处理顺序是可交换的。在另一个实施方案中,要求沿着携带推断的连接处的整个读取的错配的总数目不超过指定数目(例如,2个)。
3.eccDNA的分类
根据eccDNA的诊断特征,包括每个查询片段的方向性、切割标签的完整性(例如,用于限制性酶和转座酶)以及读取1的5’末端与读取2的5’末端之间的距离,可以将eccDNA分类为不同的组别
(表1)。
表1
表1显示了eccDNA测序读取的分类。用限制性酶消化方法,我们鉴定了具有不同特征的eccDNA读取,并将其分类为3种类型和3种亚型。我们利用了四个分类标准,即:(i)连接处(形成eccDNA的原始基因组序列的起始和结束的连接位置),(ii)两个测序读取的方向性,(iii)CCGG标签,以及(iv)两个测序读取之间没有缺口。所有类型都满足方向性。在片段末端存在切割标签(例如,9-bp重复序列或其它尺寸的序列)作为单个/多个切割的标志的情况下,也可以出现这样的分型用于标签化。
类型1具有完整的片段并且检测到连接处。完整片段的状态表明切割标签是完整的,即末端没有被损坏,因此可以鉴定切割标签。
类型2具有不完整的片段并且检测到连接。不完整片段的状态表明切割标签不完整,即末端被损坏,因此不能鉴定切割标签。对于类型2-A,可以出现缺口,例如,当在限制性酶切割后DNA进一步断裂时,这将在实际片段末端与原始酶切割位点之间留下缺口,从而导致不完整的片段。可以按以下方式推断切割标签。对于类型2,由于片段不完整,读取的5’末端可能不携带完整的酶切割模式。在鉴定出连接位点后,我们可以从一个环状DNA的这些连接位点之间的参考基因组中检索参考序列。然后,可以分析参考序列以确定在这样检索到的参考序列中是否存在任何CCGG基序。如果存在CCGG基序,则我们将它们称为CCGG。
类型2-A和2-C可以以以下方式区分。对于一些eccDNA片段,对分子的攻击(物理的或化学的)可能已经发生一次以上,这将不会在DNA分子上产生一个断裂,而是产生两个或更多个断裂。在这种情况下,小片段可能已经从原始分子中掉出,在原始片段的两个末端之间留下缺口。可以查看完整分子的eccDNA序列。我们查看了从基因组产生的分子的起始和结束位置之间的序列。如果在片段末端的100bp半径(或其它指定距离)内被认为有CCGG位点,但我们在测序读取中看不到它,则我们假设该分子可能首先被限制性酶切割,然后进一步被其它未知的机制破坏,我们将其分类为2-A读取。另一方面,如果在片段末端的100bp距离内不被认为有CCGG位点,则我们假设该eccDNA不太可能通过限制性酶切割而线性化。
类型3没有检测到连接处。每种类型具有亚型:(A)由于一个酶切口而开环,(B)由于多个酶切口而开环,以及(C)由于其它机制而开环。符号“---”意味着“是”和“否”都是可能的。对于类型3读取,我们不区分完整的片段和不完整的片段。类型3-A片段可以类似于类型1-A或类型2-A,除了我们不能检测到连接位点之外。如果配对末端250bp测序长度不足以长到到达连接位点,则可能检测不到连接处,如果该分子太长并且连接位点在片段中间某处,也可能发生检测不到连接处。当存在1000bp eccDNA片段,并且连接位点在第400bp位置时,将出现这样的实例。在这种情况下,读取1和读取2都无法到达该连接位点。但是,仍然有理由相信这确实是eccDNA分子,因为读取1和读取2的映射方向将不同于线性分子的映射方向。
图1显示了类型1-A的实例。对于类型1-B,由于多个切口,因此在两个末端之间存在缺口。对于类型1-C,没有鉴定出切割标签,但方向性将导致推定读取被鉴定为可能包括连接处以及两个末端具有共同的悬突。并且,上述任何技术可以用于鉴定连接处。类型2的分析可以以与类型1-C类似的方式进行,因为不能鉴定切割标签,但可以对其进行推断。对于类型3,可以以与相应类型1类似的方式进行分析,但在该步骤中没有检测到连接处。在这样的情况下,可以从下游分析中排除DNA片段。其它实施方式可以定量血浆DNA中的eccDNA的量,这将使用类型C分子的数目的知识。
C.环状DNA的用途
eccDNA的环状性质意味着它们在体内对核酸外切酶清除更具抗性。另外,核酸外切酶消化自然缩短了消化靶标的长度。另一方面,eccDNA分子的环状形式使它们免于核酸外切酶消化和由此导致的缩短。因此,预期eccDNA具有比线性DNA更长的尺寸分布,因此每分子含有更多的遗传信息。因此,对于基因组异常的检测和遗传疾病的无创性诊断,这种特殊类型的DNA可能比线性DNA更稳定并且是信息量更大的生物标志物。
这种技术的一项应用是用于无创产前测试(NIPT)。然而,以前不知道胎儿来源的eccDNA是否存在于母体血浆中。通过使用本公开内容中所述的方法,我们首次证明了胎儿eccDNA存在于母体血浆中。通过使用这样的胎儿eccDNA,可以进行NIPT。这样的基于eccDNA的NIPT具有潜在的优点,即每分子胎儿eccDNA可获得的胎儿遗传信息的量可能高于母体血浆中的胎儿非eccDNA。
已知母体血浆中的胎儿非eccDNA具有非常短的尺寸分布,模态尺寸约为143bp(Lo等人,Sci Transl Med 2010;2:61ra91)。使用本公开内容中描述的方法,我们已经显示胎儿eccDNA具有比胎儿非eccDNA更长的尺寸分布。这种特征对于NIPT是非常理想的。作为实例,脆性X综合征是由脆性X精神发育迟缓1基因区域中的CGG三联体重复扩增引起的遗传病症。这样的重复可在脆性X患者中发生200多次,而对于正常人,该数值低于40(Garber等人,Eur J Hum Genet.2008;16:666-72)。因为血浆中的胎儿非eccDNA分子主要是短于200bp的DNA片段(Yu等人,Proc Natl Acad Sci U S A.2014;111:8583–8588),因此将难以发现含有超过200个CGG三联体重复(超过600bp)的序列的分子。然而,较大尺寸的eccDNA将允许这样的分子有更高的机会含有600bp长的DNA序列。因此,eccDNA代表NIPT(以及实际上妊娠环境之外的其它应用)的有价值的资源。
在我们当前的研究中,我们对来自晚期妊娠的5个妊娠病例进行了测序。在成功实施我们的新方法时,我们相信这样的设计也可以用于其它妊娠阶段(例如:早期妊娠和中期妊娠)。
表2显示了在一个妊娠病例中从不同类型的读取中检测到的eccDNA分子的数目(13007个)。在表2中,数目以CPM为单位,所述CPM是每百万映射读取的环状DNA。对未经处理的血浆以及用MspI和HpaII处理的血浆进行测量。没有核酸外切酶V或限制性酶处理的血浆DNA显示检测到非常少量的eccDNA(在一些类型中检测不到),然而来自用核酸外切酶V处理,然后用MspI消化或HpaII消化处理的同一病例的血浆DNA极大地提高了检测到的eccDNA分子的计数。该数据显示可以在血浆中检测到eccDNA。
表2
进一步分析样品以确定eccDNA的各种特性,如尺寸、基因组位置和甲基化。以下提供这样的分析。
1.尺寸分析
图3A-5B显示了根据本公开内容的实施方案的一个妊娠病例(MspI处理的)的尺寸分析。横轴是片段的尺寸,纵轴是在给定尺寸下的频率百分比。在给定类型和亚类型内测量频率。
用核酸外切酶V处理来自这些病例的血浆DNA以消除线性DNA。用MspI或HpaII消化所得DNA分子,然后构建文库和进行配对末端测序。这些图显示了使用读取类型1-A、1-B、1-C、2-A、2-B和2-C的eccDNA的尺寸分析。对于类型3,由于未检测到连接处,因此尺寸测定是不可用的。eccDNA的尺寸概况在大约200bp和340bp显示出明显的聚类。当放大到100-500bp范围时(参见插图),也显示了清晰的10bp周期性。
图3A显示了类型1-A eccDNA的尺寸概况。插图显示了相同的图,但被放大到100-500bp范围。除了大约200bp和340bp的聚类之外,可以在大约580bp和750bp看到另外的峰。这样的峰之间的距离可以与核小体尺寸有关。图3B显示了类型1-A和1-B eccDNA的尺寸概况。插图显示了相同的图,但被放大到100-500bp范围。对于I-B,在340bp处的峰较短,但其它峰增加,特别是在200bp处。大约200bp的峰可能由这一长度容易弯曲成环状DNA引起。
图4A显示了类型1-A和1-C eccDNA的尺寸概况。类型1-C eccDNA的数目少得多,因此,那些图在特定的数目处显示出尖峰,这与更平滑的统计分布相反。图4B显示了类型1-A和2-A eccDNA的尺寸概况。插图显示了相同的图,但被放大到100-500bp范围。对于2-A,200bp处的峰显著增加。
图5A显示了类型1-A和2-B eccDNA的尺寸概况。与1-A相比,2-B的尺寸概况更加分散。分散可能是由于2-B中少量分子的取样变化。插图显示了相同的图,但被放大到100-500bp范围。图5B显示了类型1-A和2-C eccDNA的尺寸概况。插图显示了相同的图,但被放大到100-500bp范围。对于2-C,在200bp处的峰显著增加。
图6A-7B显示了分别用于MspI和HpaII处理的母体和胎儿特异性eccDNA(5例合并)的尺寸分析。尺寸数据跨越类型1和2。通过提供关于母体和胎儿特异性SNP的信息的Illumina iScan技术完成母体和胎儿DNA的基因分型。在图6A和7A中,母体和胎儿eccDNA的频率图显示大约200bp和340bp的聚类,其中胎儿eccDNA在两个峰处更丰富。
在图6B和7B中,累积频率图显示胎儿特异性eccDNA分子比母体特异性eccDNA分子相对较短。对于MspI和HpaII处理都观察到这种现象。作为实例,片段尺寸的这种差异可以用于检测胎儿或肿瘤的染色体区域中的序列失衡(例如扩增和缺失),例如,如美国专利公开号2011/0276277、2016/0217251、2013/0040824、2016/0201142和2016/0217251(将其通过引用以其整体并入)中所述。例如,由于剂量效应,胎儿或肿瘤中的扩增区域将增加eccDNA释放到血浆中,导致与未受影响的区域相比更多的具有较短尺寸的eccDNA。由于剂量效应,缺失的区域将降低eccDNA释放到血浆中,导致与未受影响的区域相比较少的具有较短尺寸的eccDNA。
剂量效应也可以直接用于检测胎儿或肿瘤的染色体区域中的序列失衡(例如扩增和缺失),例如,如美国专利公开号2009/0087847、2009/0029377、2011/0105353、2013/0040824、2016/0201142和2016/0217251(将其通过引用以其整体并入)中所述。对于癌症,肿瘤细胞的已发布的数据表明,由于扩增,更多的eccDNA从具有癌基因的基因组区域释放。(Verhaak,R.G.W.,Bafna,V.&Mischel,P.S.Extrachromosomal oncogene amplification in tumour pathogenesis and evolution.Nat Rev Cancer 19,283–288(2019))。一旦这样的细胞发生凋亡或坏死,这样的eccDNA将在血浆或其它体液中变为无细胞的。
2.环状DNA的基因组位置
对于5个妊娠病例,通过与参考基因组比对来确定环状DNA的基因组位置。针对不同类型的位置确定基因组位置。
图8显示了eccDNA的基因组位置的注释。来自5个妊娠病例的eccDNA的基因组位置显示出类似的模式。与其它区域相比,尺寸高达2kb的eccDNA分子在3’非翻译区(UTR)和CpG岛中相对丰富。尺寸长于2kb的eccDNA分子在Alu区域中相对丰富。
图9显示了来自用MspI和HpaII处理的一个妊娠血浆样品的eccDNA的基因组位置。从外部到内部:1)所有的eccDNA;2)eccDNA≤2kb;3)eccDNA>2kb;4)母体特异性eccDNA;5)胎儿特异性eccDNA。红色:>95%置信区间;灰色:在置信区间之间。用MspI和HpaII处理的eccDNA显示出类似的分布模式。从在不同染色体上具有特定热点的广泛基因组区域产生eccDNA。图9显示了MspI和HpaII处理都可以检测由跨越基因组中的类似区域产生的eccDNA。这为两种处理方法提供了相互验证。
如以前的部分所述,区域中的一定量的eccDNA(例如,与线性DNA组合)可以用于鉴定拷贝数畸变。使用eccDNA(例如,在尺寸或计数分析中)可以提高准确性,例如,由于分析了更多的DNA。对于癌症,畸变区域的量可以用于检测癌症,并且可以跟踪畸变以随时间监测癌症,如2013/0040824中所述。
3.甲基化
线性DNA分子在人类血浆中的甲基化状态已经被用于检测和诊断各种疾病,如癌症(Chan等人,Proc Natl Acad Sci U S A.2013;110:18761–18768;Liu等人,Ann Oncol 2018;29:1445-1453)。考虑到线性无细胞DNA的甲基化信息的生物学应用价值,人类血浆中eccDNA甲基化状态的表征可以为临床应用提供新的可能性。然而,没有发表用于eccDNA甲基化分析的报道。
如以上所解释的,限制性酶MspI(甲基化不敏感的)和HpaII(甲基化敏感的)可以提供甲基化信息。由从甲基化不敏感的和甲基化敏感的限制性酶检测到的eccDNA的数目所提供的互补信息允许推断eccDNA的甲基化水平。例如,使用在来自同一病例的MspI和HpaII处理的样品中检测到的eccDNA的数目,可以推断eccDNA的甲基化水平。CCGG序列(M)中甲基化CpG位点的百分比由以下公式推断:
其中EM代表MspI处理的样品中的eccDNA计数以及EH代表HpaII处理的样品中的eccDNA计数。
表3显示了eccDNA的甲基化水平。来自经MspI和HpaII处理的血浆DNA样品的eccDNA计数用于推断那些DNA的甲基化水平。来自五个病例的数据显示DNA甲基化水平与以前记录的线性DNA(Lun等人,Clin Chem.2013;59:1583-94)相当。
表3
如下一部分所示,特定组织(例如胎儿或肿瘤)的eccDNA甲基化模式可以反映相同组织的线性DNA中的甲基化模式。因此,用于线性DNA的技术也可用于eccDNA。例如,线性DNA和eccDNA的甲基化水平可以用于通过将一个或多个甲基化水平与参考值进行比较来检测癌症,例如,如美国专利公开号2014/0080715中所述。作为另一个实例,胎儿DNA的甲基化差异可以用于确定遗传的单倍型,例如,如美国专利公开号2017/0029900中所述。作为另一个实例,甲基化模式可以用于确定来自特定组织类型(如胎儿或肿瘤)的eccDNA的百分比,例如,如美国专利公开号2016/0017419和2017/0349948中所述。这些出版物通过引用以其整体并入。
4.胎儿分数
相对于母体DNA,染色体胎儿DNA通常是低甲基化的。这种行为对于无细胞线性DNA持续存在。我们使用甲基化敏感的和不敏感的限制性酶分析了使用线性DNA和使用eccDNA测定的胎儿DNA分数之间的关系。结果表明相对于母体eccDNA,胎儿eccDNA具有低甲基化。
表4显示了通过线性和eccDNA推断的胎儿DNA部分。如在之前记录的,当与血浆中的母体线性DNA相比时,胎儿线性DNA分子相对低甲基化(Tong等人,Clin Chem.2007;53:1906-14)。在我们的研究中,5例中有4例HpaII处理的样品检测到较高部分的胎儿线性DNA,这种差异可以用胎儿DNA的低甲基化状态来解释。当我们使用eccDNA分析胎儿部分时,获得了类似的结果。在HpaII处理的样品中检测到的胎儿eccDNA部分高于在MspI处理的样品中检测到的胎儿eccDNA部分。
表4
因此,相对于母体eccDNA,胎儿eccDNA表现出低甲基化。组织类型之间的这种差异使得针对无细胞线性DNA开发的分析技术能够用于eccDNA。
D.标签化
如上所述,在核酸外切酶处理去除线性DNA后,转座酶可以用于切割环状DNA。转座酶(例如Tn5)可以用于介导环状DNA的片段化,并在单一反应中将两个末端的合成寡核苷酸连接到线性化片段上。通过利用转座酶具有“切割和粘贴”特性的事实来实现工作流程。这样的“切割和粘贴”功能可以切割双链DNA并将合成的寡核苷酸粘贴到靶序列中。Tn5二聚体与合成适配子的复合物能够使适配子序列通过转座酶‘切割和粘贴’催化活性而末端连接到靶DNA的5’末端(Adey等人,Genome Biol.2010;11:R119)。与适配子连接的靶向DNA可以促进用于特定测序平台的全测序适配子的掺入,所述特定测序平台例如但不限于Illumina合成测序平台、Pacific Biosciences单分子实时(SMRT)系统、纳米孔测序和半导体测序(例如Ion Proton and the GenapSys Gene Electronic Nano-Integrated Ultra-Sensitive(GENIUS))等。认为双链DNA的Tn5介导的片段化通常是随机的。因此,这样的Tn5介导的片段化将使得对环状DNA分子进行测序成为可能。转座酶同时催化体外DNA片段化和适配子掺入的方式可以提高测序文库构建的效率。
1.概述
图10A显示了根据本公开内容的实施方案使用基于转座酶的标签化进行eccDNA鉴定的原理的实例。如图10A所示,我们开发了使用转座酶分析细胞外环状DNA的方案。基因组中的“蓝色”条1001和“红色”条1006表示两个区域,它们被假设连接在一起以形成一段染色体外环状DNA(eccDNA)。“黄色卵形”表示转座酶二聚体1010。与转座酶二聚体连接的“绿色”条1012和“青色”条1014代表有助于测序的合成寡核苷酸(适配子序列)。例如,这样的合成寡核苷酸可以通过Illumina测序适配子(例如,P7和P5适配子)杂交。Tn5可以在包括线性和环状DNA的血浆DNA分子上引发非特异性切割,并将合成寡核苷酸连接到切割片段的两个末端。这样的Tn5切割可以在切割位点附近引入9bp切口。在测序之前,适配子上的这样的切口和单链探针可以被填充以形成双链DNA。
然后可以如图1所述进行测序和比对。如图10A所示,如果仅发生一次切割,则9bp切口可导致9bp重叠的存在。如果发生一次以上的切割,则可能不存在重叠,因为在两个切割处的序列可能不同。
因为血浆中大多数自发产生的线性DNA分子将为约166bp,我们可以调节Tn5的浓度和处理持续时间以产生反应条件,由此大多数自发产生的线性血浆DNA将仅被切割一次。如图10B所示,我们将不能对源自切割一次的线性DNA的切割片段进行测序(使用配对末端测序)。相比之下,如果切割的片段源自一段环状DNA,则它们将是可测序的,因为线性化片段的两个末端将连接至合成适配子用于测序。该策略允许跳过去除线性DNA的步骤(例如,不需要核酸外切酶)或富集环状DNA的步骤。使用Tn5或类似的酶具有优于使用具有特异性识别位点的限制性酶的优点,因为前者将使得可能对任何环状DNA进行测序,而不需要用于切割的特异性序列基序。
随后,可以使用不同的测序技术对平末端DNA进行测序,所述测序技术包括但不限于Illumina平台、Ion Torrent测序等。在一个实施方案中,如果我们以足够的读取长度对读取1和读取2进行测序,则我们将有机会在配对末端测序的步骤中使序列读取跨越连接处(由嵌合箭头指示)。因此,在比对结果中,我们观察到以如图10A所示的独特映射方向性映射到参考基因组的线性化分子的读取1和读取2序列,如针对图1所述。为了说明的目的,我们在读取1中定义了未映射的区段(比对步骤后的红色箭头,“b->a”区段),其对应于跨越连接处的来源于被连接以形成环状DNA的其他基因组区域的序列。类似地,我们在读取2中定义了未映射的区段(比对步骤后的蓝色箭头,“e->f”区段),其对应于跨越连接处的来源于被连接以形成环状DNA分子的其他基因组区域的序列。这样的独特映射方向性可以包括以下两种情形:
(a)当区段“b->c”的读取1最小映射坐标(即b)等于或小于区段“d->e”的读取2最小映射坐标(即d)时,读取1将在反向链中对齐,读取2将在正向链中对齐。
(b)当读取2最小映射坐标等于或小于读取1最小映射坐标时,读取1将在正向链中对齐,读取2将在反向链中对齐(示意图中未显示)。
这样独特的映射方向性不同于源自最初线性DNA的一对配对末端读取的常规映射方向。例如,当读取1最小映射坐标等于或小于读取2最小映射坐标时,读取1在正向链中完全对齐,读取2在反向链中完全对齐;或者当读取2最小映射坐标等于或小于读取1最小映射坐标时,读取1在反向链中完全对齐,读取2在正向链中完全对齐。在生物信息学上,在读取1和/或读取2中存在的未映射区段(例如“b->a”和“e->f”)中搜索参考基因组中的映射位点将允许描绘连接处。从片段的未映射区段推断的连接位点之间的距离将指示环状DNA的尺寸。
另一个特征是,如果环状DNA仅被切割一次,则可能可以在映射的读取1与读取2之间观察到约9个核苷酸重叠。通过Tn5产生的交错末端引入读取1与读取2之间的这样的9bp重叠序列。Tn5将产生两个交错的单链断裂,并且两个断裂之间的距离将是9bp(图10A中的“N”个字母)。每个断裂将分别与读取1和读取2适配子连接。修复后,9bp缺口将通过DNA聚合酶填充,这将在读取1和读取2中产生重复序列(图10A中的“黑色”条1022)。总之,在这种基于标签化的eccDNA鉴定方法中,有四个“诊断特征”,包括:
i.环状DNA特异性映射方向(方向性);
ii.可识别连接处的读取;
iii.切割标签对应于适配子序列;
iv.当环状DNA仅被切割一次时,读取1与读取2序列的5’端有九个重叠碱基。
在其它实施方案中,如果我们使用可以产生长读取的测序平台,例如Pacific Biosciences SMRT测序、纳米孔测序等,则我们可能仅从一个读取中看到连接信息。
满足至少一个诊断特征的测序读取可以被定义为候选环状DNA。对于被Tn5多次切割的环状DNA,读取1和读取2不会在彼此之间具有重复的序列(重叠的碱基)。在一些情况下,一对中只有一个读取可能跨越连接位点,而另一个则不会携带连接处。即使来自一对的两个读取都不携带连接处,独特的映射方向也意味着环状DNA。
使用基于转座酶的标签化,用于检测eccDNA的生物信息学方法可以在其在基于限制性酶的方法中使用后进行模拟。例如,我们可以跳过涉及分析由限制性酶引入的切割基序的存在的步骤。映射方向性和读取中连接处的存在将是用于确定特定片段是否可以被分类为环状DNA的两个主要的“诊断特征”。
2.血浆结果
表5显示了通过标签化方法进行的eccDNA检测。CPM对应于每百万个映射读取的环状DNA。用核酸外切酶V处理来自晚期妊娠的血浆样品,然后进行标签化并使用Illumina XT DNA文库制备试剂盒进行文库制备。测序结果显示使用该方法检测到大量的eccDNA。而且,通过这种方法检测到的eccDNA的量远高于限制性酶处理方法检测到的eccDNA的量。
表5
图11显示了根据本公开内容的实施方案使用标签化方案的eccDNA的尺寸分析。使用标签化方案检测的血浆eccDNA的尺寸在大约200bp和340bp处显示出明显的聚类。当放大到100bp至500bp的范围时,还显示了急剧的10bp周期性。图11中的尺寸概况类似于使用限制性酶的技术的尺寸概况。因此,标签化可以以与限制性酶技术相同的方式用于分析eccDNA的各种特性以及诊断应用。
3.细胞结果
另外,Tn5转座酶已经用于开发使用测序(ATAC-seq)的转座酶可及的染色质的测定法(Buenrostro等人,Nat Methods.2013;10:1213-8)。这样的方法是基于将测序适配子直接体外转座到天然染色质中。染色质压缩状态将影响将测序适配子插入到染色质的效率。因此,所得测序覆盖率将反映染色质可及性。因为ATAC-seq涉及Tn5转座酶的使用,所以我们预测源自已经经历ATAC-seq的样品中的环状DNA种类(例如eccDNA和线粒体DNA)的序列将被测序并存在于ATAC-seq测序数据集中。在ENCODE(DNA元件百科全书,www.encodeproject.org/)中有许多可公开获得的ATAC-seq数据集,包括来自各种组织的数据。我们从ENCODE数据库下载了9种组织的ATAC-seq FASTQ文件,包括乙状结肠、横结肠、乳腺上皮、胃食管括约肌、胃、网膜脂肪垫、脾脏、皮下脂肪组织和胫骨动脉。在Illumina HiSeq 4000平台上使用非链特异性ATAC-seq分析所有样品。这样的实验数据通过了ENCODE联盟建立的严格质量度量(中位数:9260万个读取;范围:7680-10300万个读取)。
我们使用本公开内容中开发的基于Tn5的生物信息学途径来分析ATAC-seq测序结果。表6显示了在不同组织中鉴定的eccDNA分子的数目。发现一些器官如脾脏的eccDNA分子相对丰富。这些结果显示了不同器官或组织中eccDNA有一定程度的变化。我们预测可以将这样的变化用于组织分型以及用于疾病的检测或监测。因为ATAC-seq可以在单细胞水平上进行(Chen等人,Nat Commun.2018;9:5345),所以使用本公开内容中发明的方法可以在单细胞水平上实现对eccDNA的分析。
表6:使用ATAC-seq数据集鉴定不同组织中的eccDNA。CPM是每百万映射的读取的环状DNA。
对于一个或多个细胞的组织分型,可以使用上述技术分析来自一个或多个细胞的DNA以对eccDNA分子的数目进行计数。根据每个细胞的计数,可以鉴定一种或多种组织类型。例如,每个细胞2,900个eccDNA的测量值可以表明组织类型是脾脏。然而,每个细胞787个eccDNA的测量值可以表明组织类型是乳腺上皮或横结肠。
如果一个或多个细胞的组织类型是已知的,则每个细胞的eccDNA的测量计数与正常参考值(例如,如上提供的)的显著偏差可以表明病症。可以通过测量健康细胞的每个细胞所测量的eccDNA的统计分布和患病细胞的每个细胞所测量的eccDNA的统计分布来确定病症与健康之间的这样的截止值,所述患病细胞可以具有不同的疾病。这样的检测方法可以基于细胞中eccDNA分子数目的测量值来检测细胞是否健康。例如,癌细胞将具有更多的eccDNA分子。
4.使用标签化进行甲基化分析
我们进一步描述了可以同时实现eccDNA的鉴定和甲基化分析的新方法。如以上所解释的,通过将核酸外切酶V(exoV)消化与限制性酶或Tn5转座酶处理结合,可以实现有效的eccDNA鉴定。为了同时使这样的方法领先于eccDNA的鉴定和甲基化分析,我们结合使用exo V和Tn5,然后将未甲基化的胞嘧啶酶促转化为尿嘧啶。
在该实施方案中,首先从人类血浆中提取血浆DNA。然后用exo V处理50ng DNA以大量消除样品中线性形式的血浆DNA。然后将剩余的DNA与内部构建的经修饰的Tn5转座体温育[用甲基化胞嘧啶(5-mC)取代适配子序列上的所有胞嘧啶碱基以保护适配子免于下游的胞嘧啶向尿嘧啶的转化]。在5-mC-Tn5处理后,切开环状DNA分子,适配子连接至片段末端。酶促转化和PCR扩增会将未甲基化的胞嘧啶(C)碱基转化为胸腺嘧啶(T)碱基,然后进行Illumina测序。开发生物信息学途径以鉴定eccDNA分子以及获得它们的序列、尺寸概况和甲基化状态的信息。
图12显示了根据本公开内容的实施方案通过酶促转化对eccDNA进行鉴定和甲基化分析的示例工作流程。提取血浆DNA,然后与exo V温育以消化样品中的线性DNA。然后用5-mC-Tn5处理剩余的DNA以开环并将测序适配子(所有C被5-mC取代)连接到片段末端。然后使用来自New England Biolabs的NEBNext Enzymatic Methy-seq试剂盒进行酶促转化和文库构建。根据测序结果开发了用于eccDNA分子的鉴定、尺寸分析和甲基化分析的生物信息学途径。
为了证明该方法能够有效地捕获eccDNA,我们也对仅用5-mC-Tn5处理的血浆DNA样品进行了平行试验(无exo V处理)。我们的结果显示,对于exoV+Tn5样品,鉴定的eccDNA分子以每百万可映射的读取(EPM)的eccDNA为单位的情况下为40,599,对于仅Tn5的样品为12,807。这些数据表明,我们产生的5-mC-Tn5转座体可以有效地使eccDNA分子线性化以用于下游测序分析,以及exo V处理可以显著增加被捕获的eccDNA的量。在其它实施方案中,也可以应用eccDNA线性化的替代措施,如限制性酶处理。
为了进一步证明该技术可以应用于eccDNA甲基化分析,我们比较了小(≤450bp)和大(>450bp)eccDNA分子之间的甲基化水平。由于根据图13A-13B所示的我们的尺寸分析数据,我们鉴定的大多数eccDNA分子小于450bp,因此应用了450bp的截止值。
图13A-13B显示了根据本公开内容的实施方案人类血浆中eccDNA的尺寸分析和累积频率。根据测序数据,我们鉴定了eccDNA分子并获得了它们的尺寸信息。eccDNA的尺寸在大约202bp和338bp处达到峰值,具有急剧的10bp周期性,这类似于本文的其它尺寸概况。大多数的eccDNA分子小于450bp。
在计算eccDNA甲基化水平的过程中,我们根据λDNA对照基因组中的C至T转化率应用以下公式来调整结果:
其中Madj是调整后的甲基化水平;M是调整前的甲基化水平并且被计算为:α是λDNA的掺入(spiked-in)对照基因组中的转化率。
λDNA的甲基化水平是内部对照。在处理基因组DNA时,我们将少量的λDNA加入样品中。这些加入的DNA将以与基因组DNA相同的实验流程进行处理。使用λDNA作为内部对照的原因是λ基因组理论上是完全未甲基化的。如果我们看到在λDNA中存在未转化为T的残留水平的C,这意味着λDNA和在此方面的基因组DNA的转化是不完全的。基因组DNA中未甲基化的C向T的不完全转化将导致甲基化水平的过高估计。通过考虑λDNA的转化率,上述公式可以用于调整这种过高估计的甲基化水平。
小eccDNA分子的甲基化水平(65.2%)相对高于大eccDNA分子的甲基化水平(61.7%)。我们的数据还显示,该样品中残余的线性DNA表现出比eccDNA分子(65%)更高的甲基化水平(68.2%)。
图14比较了不同染色体中线性和eccDNA分子的甲基化水平。在图14中,eccDNA的甲基化水平与线性DNA的甲基化水平相当。此外,通过观察不同染色体中的甲基化水平,我们可以看出,在大多数时间,eccDNA具有比线性DNA更低的甲基化水平。
我们还测试了亚硫酸氢盐处理是否还可以促进eccDNA的鉴定和甲基化分析。将exo V处理与亚硫酸氢盐处理结合以鉴定eccDNA。
图15显示了根据本公开内容的实施方案通过亚硫酸氢盐转化对eccDNA进行鉴定和甲基化分析的示例工作流程。从怀孕的对象中提取血浆DNA,然后将其与exo V温育以消化样品中的线性DNA。然后将剩余的DNA进行亚硫酸氢盐处理,以将未甲基化的胞嘧啶(C)转化为尿嘧啶,同时打开DNA环。然后进行单链DNA文库构建和Illumina测序,其中未甲基化的C转变的尿嘧啶将表示为T,保持甲基化的C碱基不变。开发了用于eccDNA分子的鉴定、尺寸分析和甲基化分析的生物信息学途径。
考虑到亚硫酸氢盐处理的苛刻性质及其导致的DNA损伤,我们假设单独的亚硫酸氢盐处理可能同时实现未甲基化的胞嘧啶向尿嘧啶的转化以及打开环状DNA分子。为了检验这一假设,我们首先研究了环状DNA种类如线粒体DNA(mtDNA)和质粒DNA是否可以通过亚硫酸氢盐处理线性化。在一个实验中,我们仅用exo V或用exo V+亚硫酸氢盐处理血浆DNA样品。在该实验中,对于exo V+亚硫酸氢盐样品,文库中mtDNA读取的百分比为0.139%,对于仅exo V的样品,为0.034%,两者相差3.1倍。在另一个实验中,我们在亚硫酸氢盐处理之前和之后向血浆DNA样品中加入相同量的pBR322质粒DNA。当在亚硫酸氢盐处理前加入pBR322时,文库中pBR322读取的百分比为31.4%;当在亚硫酸氢盐处理后加入时,该百分比降至0.43%,两者相差72倍。因此,亚硫酸氢盐处理可以使环状DNA种类线性化。我们的数据还表明,这样的方法可能发展成同时提供eccDNA分子的序列、尺寸和甲基化信息的方法。
我们开发的这些新方法可能被应用于组织和无细胞eccDNA。
5.使用转座酶的方法
因此,一种方法可以使用转座酶作为分析eccDNA的一部分。这样的技术可以与本文所述的其它方法组合使用,例如用于eccDNA以及mtDNA的分析。下游分析可以包括使用环状DNA的检测来测量样品的特性。
在步骤1中,可以接收有机体的生物样品。本文提供了生物样品的实例,如血浆和血清。生物样品包括多个染色体外环状DNA(eccDNA)分子。eccDNA可以来自任何数目的染色体,包括常染色体和/或性染色体。多个eccDNA分子中的每一个包括连接处,在该连接处,两个分开的基因组位置处的核苷酸彼此直接相邻。连接处1016是这样连接处的一个实例,其中区域1002和1006包括这样的两个分开的基因组位置,其彼此直接相邻。
在步骤2中,使用转座酶进行切割。在一些实施方式中,可以使用多于一种类型的转座酶。转座酶可以具有连接的两个适配子序列,例如,图10A中的1012和1014。
在步骤3中,转座酶用于将适配子序列连接到多个eccDNA分子中每一个的两个切割末端,从而形成一组线性化DNA分子,其各自包括连接处和适配子序列。
在步骤4中,对于线性化DNA分子中的每一个,可以对线性化DNA分子的至少两个末端进行测序以获得一个或多个序列读取。一个或多个序列读取可以包括或可以不包括连接处。如果读取不包括连接处,则仍然可以使用映射的方向性来鉴定eccDNA分子,如表1所述。在一些实施方案中,可以获得两个序列读取(每个末端一个)。在其它实施方案中,整个线性化DNA分子的单一序列读取可以包括两个末端,如本文所述。序列读取也可以包括适配子序列。
在获得序列读取之后,可以将序列读取映射到参考基因组,例如,以查看它们是否以反向方向映射。如果它们确实以反向方向映射(示例标准),则相应的线性化DNA分子可以被鉴定为最初是环状的。因此,对于线性化DNA分子中的每一个,可以从一个或多个序列读取中选择线性化DNA分子的一对末端序列。该对末端序列不包括连接处。这样的末端序列的实例是图1中的末端序列1046和末端序列1048。该对末端序列中的每一个末端序列的方向被反转以获得一对反向末端序列。这样的反向末端序列的实例是反向末端序列1056和反向末端序列1058。然后可以将该对反向末端序列映射到参考基因组。
可以分析映射的反向末端序列以测量生物样品的特性。本文提供了这样的测量的实例。这样的分析可以使用检测到的eccDNA的集合值(例如,计数、尺寸或甲基化)。因此,该方法还可以包括基于映射到参考基因组的一对反向末端序列,将线性化DNA分子鉴定(检测)为源自eccDNA分子(下表1中提供的其它标准),以及确定鉴定的eccDNA分子的集合值,其中分析映射的反向末端序列以测量使用该集合值的生物样品的特性。
E.用于分析eccDNA的方法
图16是说明根据本公开内容的实施方案的用于分析环状核DNA的方法1600的流程图。虽然方法1600包括物理步骤,但这样的步骤可以使用由计算机系统控制的机器(例如,机器人)来执行。在一些实施方式中,环状核DNA可以与线性核DNA同时分析。方法1600可以根据一个或多个标准鉴定环状核DNA,以及在测定样品的特性中使用这样的环状DNA。
在框1610,接收有机体的生物样品。生物样品包括多个染色体外环状DNA(eccDNA)分子。eccDNA可以来自任何数目的染色体,包括常染色体和/或性染色体。多个eccDNA分子中的每一个包括连接处,在该连接处,两个分开的基因组位置处的核苷酸彼此直接相邻,例如,如图1和10A所述。如果两个位置出现在序列读取中的连续位置,则它们是直接相邻的。在任何实施方案中,eccDNA可以是无细胞的,例如在血浆、血清和类似的样品中。
在框1620,切割多个eccDNA分子以形成一组线性化DNA分子,其各自包括连接处。作为实例,可以使用限制性酶或转座酶进行切割。在图1和10A中描述了示例过程。
在框1630,可以在线性化DNA分子的至少两个末端对线性化DNA分子中的每一个进行测序,以获得一个或多个序列读取。一个或多个序列读取可以包括或可以不包括连接处。如果这样做,当进行配对末端测序时,仅一个或两个读取可以包括连接处,而整个分子的单个读取将包括连接处。如果读取不包括连接处,则仍然可以使用映射的方向性来鉴定eccDNA分子,如表1所述。对于配对末端测序,可以在末端进行各种长度的测序。
在框1640,从一个或多个序列读取中选择线性化DNA分子的一对末端序列。一对末端序列可以选自整个DNA分子的单个序列读取。在一些实施方案中,该对末端序列不包括连接处。例如,该对末端序列可以对应于如上所述(例如,图2A和2B)的种子。末端序列的长度可以变化,并且可以选择多个末端序列并尝试随后的映射步骤。如果最初选择的序列读取不能被映射,则可以使用较小的末端序列。
在框1650,反转该对末端序列中的每一个的方向以获得一对反向末端序列。反转可以相对于参考基因组的一条链来完成,例如通过选择参考基因组的一条特定链来映射。针对图1和10A的不同情形描述了这样的反转,图1和10A中示出了一种情形。反转允许环状DNA的检测,这是由于在除连接处以外的位置处的切割而发生的。
在框1660,将该对反向末端序列映射到参考基因组。图2A和2B以及图1和10A提供了这样的映射的实例。如果该对反向末端序列确实被成功地映射,则DNA分子可以被鉴定为环状。其它标准可以用于鉴定环状DNA,例如如表1所示。切割标签的存在(可能在DNA片段的两个末端)可以用作单独的或另外的标准。
作为映射的一部分或在映射之后,可以检测连接处,例如,对于要确定环状DNA分子尺寸的实施方案。原始线性片段的末端可以基于连接处任一端的核苷酸来鉴定。分析映射的反向末端序列可以包括将延伸超过映射的反向末端序列中的每一个的一个或多个序列读取中的碱基与参考基因组进行比较,直到鉴定出错配状况。图2B提供了错配状况的一个实例。形成eccDNA分子的线性DNA片段的末端位置可以基于参考基因组中错配状况的位置来鉴定。末端位置可以用于使用末端位置确定线性DNA片段的尺寸。
在框1670,分析映射的反向末端序列以测量生物样品的特性。可以分析映射的反向末端序列以测量生物样品的特性。本文提供了这样的测量的实例。这样的分析可以使用检测到的eccDNA的集合值(例如,计数、尺寸或甲基化)。因此,该方法还可以包括基于映射到参考基因组的一对反向末端序列将线性化DNA分子鉴定为源自eccDNA分子(表1中提供的其它标准),以及确定鉴定的eccDNA分子的集合值,其中分析所述映射的反向末端序列以测量使用所述集合值的生物样品的特性。
因此,可以基于映射到参考基因组的一对反向末端序列来检测多个eccDNA分子。可以确定检测到的eccDNA分子的集合值,其中分析映射的反向末端序列以测量使用该集合值的生物样品的特性。集合值的实例包括使用检测到的eccDNA分子确定的计数(例如,与特定区域对齐)、尺寸或甲基化水平。
关于尺寸的使用,可以确定针对多个eccDNA分子测量的尺寸的尺寸分布,并将其用于测量生物样品的特性。例如,如果样品来自怀孕女性或来自患有癌症的对象,则对于在区域具有拷贝数畸变的该区域而言,尺寸分布将改变,因为胎儿和肿瘤片段在统计学上比来自母体/健康细胞的片段的DNA短。这样的尺寸分析的实例提供在I.C.1部分中。
关于计数的使用,分析映射的反向末端序列可以包括对映射到染色体区域的多个eccDNA分子的数目进行计数,其中生物样品的特性是染色体区域的特性。然后该数目可以用于测量染色体区域的特性。在这样的实例中,特性可以是染色体区域中的拷贝数畸变,例如,如上文I.C部分中所述。
分析映射的反向末端序列可以包括使用生物样品中的DNA分子测量染色体区域中的甲基化水平。甲基化水平可以使用线性DNA分子(即,最初线性的)和/或环状DNA分子(即,变为线性化的)来测量。在各种实施方式中,可以通过与截止值比较来确定甲基化水平表现出高甲基化。拷贝数畸变和甲基化密度可以用于检测有机体的病况。作为实例,所述病况可以是脆性X综合征或三联体重复扩增。
作为实例,特性是性别或区域的基因型信息。这样的基因型信息可以是人类白细胞抗原状态或血型。因此,可以分析片段以检测标志物(例如Y染色体、基因型的等位基因等)。可以认为这样的实例是区域携带关于生物样品特性的信息。作为其它实例,特性是包括生物样品中的序列改变、翻倍、扩展、缺失或扩增的畸变。
生物样品可以获自被筛查癌症的对象。有机体中的癌症水平可以基于具有畸变的染色体区域或至少特定数目(阈值)的畸变区域来确定。如上所述,在测定中包括eccDNA可以提高检测准确性,例如,因为染色体可以在释放eccDNA后修复自身,使得染色体拷贝不显示畸变,但总的遗传物质将会显示畸变。
生物样品可以获自怀有胎儿的女性。可以检测胎儿中的畸变或序列失衡。例如,可以使用eccDNA检测扩增/缺失的区域。作为另一个实例,可以通过鉴定线性DNA(核或线粒体)中发生的变异来检测基因型信息。
当限制性酶用于切割特定序列时,可以在切割标签,例如图1的实例中的CCGC处鉴定跨越至少一部分线性化DNA分子的一对末端序列的特定序列。当使用转座酶时,特定的适配子序列可以用作切割标签。
样品可以包括第一组织类型(例如,母体/健康的)和第二组织类型(例如,胎儿/肿瘤)。第一组织类型对于基因座处的第一等位基因可以是纯合的,第二组织类型对于基因座处的第一等位基因和第二等位基因可以是杂合的。可以确定在基因座处具有第一等位基因的映射的反向末端序列(环状DNA的代用品(proxy))的第一数目。可以确定在基因座处具有第二等位基因的映射的反向末端序列的第二数目。来自第二组织类型的eccDNA分子的分数浓度可以使用第一数目和第二数目来确定。也可以测定无细胞线性DNA的数目,并且可以测定两者的集合浓度。
作为框1670中的分析的另一个实例,可以在eccDNA中鉴定相对于参考基因组(或相对于对象的构成基因组、健康细胞的共有序列)的序列变体。可以在映射的反向末端序列中确定相对于参考的多个序列变体。可以使用具有序列变体的片段的数目,例如,通过将数目与阈值进行比较,来确定癌症的水平。在将特定数目的序列变体的贡献加入到具有序列变体的总数目的eccDNA之前,在任何给定的基因座可能需要所述特定数目的序列变体。此外,eccDNA可以对肿瘤细胞具有特异性(例如,相对于参考基因组或构成基因组具有变体)或优先从肿瘤细胞释放(例如,来自扩增区域)。在使用例如exo V耗尽线性DNA后,肿瘤eccDNA将极大地富集并提高检测灵敏度。
II.循环线性和环状线粒体DNA的同时剖析(dissection)
Chiu等人揭示了使用实时定量PCR(qPCR)和用不同孔径的过滤,在血浆中存在颗粒缔合的(例如,经由物理过滤步骤鉴定的,包括完整线粒体)和游离的线粒体DNA(mtDNA)(例如,包括在DNA提取中释放的DNA)(Chiu等人,Clin Chem.2003;49:719-26)。然而,Chiu等人的方法不能准确地定量关于无细胞mtDNA的线性形式与环状形式的相对比值,因为qPCR将扩增带有引物退火位点的线性和环状DNA。最近,Newell等人报道了通过使用两个长的重叠扩增子(分别为9,239bp和11,216bp)在无细胞的人类血浆中存在全长mtDNA(Newell等人,Mol Genet Metab.2018;doi:10.1016/j.ymgme.2018.10.002)。由于在血浆中颗粒缔合的和游离的线粒体DNA的共存的先验知识,看到可以扩增较大的扩增子并不令人惊讶(Chiu等人,Clin Chem.2003;49:719-26)。然而,靶向几千个千碱基的扩增子的这样的PCR测定法不能扩增短的无细胞mtDNA分子,例如<600bp。因此,基于PCR的测定法缺乏同时推断血浆DNA中线粒体DNA形式(环状与线性)的能力。
在本公开内容中,一些实施方案可以提供用于同时分析短的线性和环状mtDNA分子的新方法。本公开内容允许(1)定量血浆DNA库中的无细胞mtDNA分子的线性与环状形式之间的相对量,例如,以确定疾病水平;以及(2)推断血浆DNA库中线性和环状mtDNA分子的组织来源,例如,作为确定非造血组织或造血组织是否具有序列变体的一部分。
A.技术原理
线性和环状无细胞mtDNA共存于血浆DNA分子中。为了使环状无细胞mtDNA能够被测序,我们使这样的分子的环状形式线性化。有多种方式进行环状无细胞mtDNA分子的线性化,例如但不限于超声处理和酶介导的切割,例如如上文所述。在一个实例中,酶介导的切割涉及限制性酶。在另一个实例中,所述酶是除限制性酶之外的核酸酶(例如DNASE1L3或DNASE1)。在另一个实例中,酶介导的切割涉及转座酶。
图17显示了根据本公开内容的实施方案的用于区分血浆中无细胞环状来源的和线性来源的mtDNA分子的示例技术。血浆DNA分子包括短的线性DNA和环状DNA的混合物。如图所示,血浆DNA1700包括核DNA 1702、短的线性mtDNA 1704和环状mtDNA 1706。
在步骤1710,进行酶促切割。剪刀1712(红色)代表限制性酶切割位点。通常,血浆中的环状DNA不能,例如使用Illumina测序平台直接测序。为了使血浆中的环状DNA能够被有效地测序,我们在环状DNA中产生了切口。在人工切割环状DNA分子(经由限制性酶、其它核酸酶、转座酶或物理方法如超声处理)的基础上,我们可以使那些环状DNA分子线性化以形成相对短的线性DNA片段。
因此,如图17所示,为了区分短的线性DNA和环状mtDNA,使用酶促切割。因为预期大多数短的线性mtDNA小于200bp(Lo等人,Sci Transl Med.2010;2:61ra91;Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)以及预期环状mtDNA大约为16.5kb,所以有意选择的限制性酶将允许使大多数切割事件优先发生在环状mtDNA中。例如,如果我们选择4-bp切割者(例如,在特定的4碱基序列处切割的限制性酶),则具有<200bp的每个片段平均将具有少于一个这样的酶促切割位点。这是因为预期这样的4碱基识别位点在每256bp(其中256为44)中出现一次。由于随机机会而具有两个切割位点的概率仅为1/65536,这比完整环状mtDNA被切割的概率低得多。因此,如果DNA片段具有对应于限制性酶的4碱基序列的两个切割标签,则该DNA片段可以被鉴定为源自环状mtDNA。可以选择特定的切割标签以在参考线粒体基因组的切割位点之间以至少指定的间隔出现。
由于我们知道线粒体基因组的序列,因此可以选择在提出的环状mtDNA分子中具有足够数目的切割位点的限制性酶(例如BfaI)。在我们选择使用限制性酶时,我们还考虑了线粒体基因组中限制性酶位点的分布,使得大多数切割的片段具有适合所使用的测序平台的长度。这样的测序平台包括但不限于Illumina合成测序平台、Pacific Biosciences单分子实时(SMRT)系统、纳米孔测序和半导体测序(例如Ion Proton and the GenapSys Gene Electronic Nano-Integrated Ultra-Sensitive(GENIUS))等。
因此,所得的短的线性DNA分子然后可以通过各种测序平台进行分析。测序1720(例如,大规模平行测序)可以为线性来源的mtDNA分子1724和环状来源的mtDNA分子1726提供序列读取。如果使用限制性酶切割环状DNA,则与自发产生的短的线性DNA 1714相比,较大的环状DNA 1716(例如尺寸为约16.5kb的完整环状mtDNA)将具有更多的切割位点。因此,通过用限制性酶处理血浆DNA,我们可以利用这样的原理:当与没有切割末端或具有一个切割末端的那些分子(由没有红色末端或具有单个红色末端的黑色线条表示)相比时,携带两个切割末端的血浆DNA分子(由具有对应于切割标签的两个红色末端1728的黑色线条表示)将具有高得多的可能性是人工来源于环状DNA分子。
在一些实施方式中,在对环状mtDNA进行限制性酶处理后,来源于这样的酶促切割的所得线性DNA分子中的每一个都必须具有两个酶切割的末端。这样的末端特征可以允许将这样的人工产生的分子与血浆中自发产生的线性mtDNA区分开。总之,预期环状来源的mtDNA将具有两个切割末端,而预期自发产生的线性来源的mtDNA将不具有切割末端或偶尔具有一个切割末端。我们将这种新技术称为线粒体DNA的拓扑分析(TOPM)。
基于该分析,可以同时确定线性和环状DNA形式的相对量。在这种基于切割的测定法中,不能完全排除存在“超长”的无细胞线性DNA(>2000bp),其可以具有产生携带两个切割末端的片段的相当大的可能性。然而,根据无细胞血浆DNA的先验知识,具有这样的“超长”的无细胞线性DNA的概率非常低,因为线性形式的主要无细胞DNA分子被报道为<200bp(Jiang和Lo.Trends Genet 2016;32:360-371)。
在一些实施方案中,可以选择限制性酶以满足以下标准的一项或多项:
1)限制性酶识别位点应为至少4bp;
2)无星号活性(星号活性是限制性酶介导的DNA切割的特异性的松弛或改变,其可以在显著不同于酶的最佳条件的反应条件下发生);
3)甲基化不敏感的;
4)环状mtDNA中的两个切割者之间的距离的至少70%应在特定范围内,例如50至600bp、100bp至600bp、150bp至600bp、200bp至600bp、300bp至1000bp、500bp至2000bp、100bp至4000bp或者例如适于测序的其它组合;
5)线粒体基因组的预期测序覆盖率将大于80%。换句话说,在限制性酶消化和测序步骤之后,甚至在对序列读取的长度有限制的情况下,80%的环状线粒体基因组可以被覆盖至少一次。
“甲基化不敏感的”意指酶可以切割甲基化的和未甲基化的DNA。许多限制性酶对DNA甲基化状态敏感。当识别位点甲基化时,可以阻断切割。因此,甲基化不敏感的酶可能是优选的。
图18说明了BfaI限制性酶证明多种原理的用途。BfaI可以切割在序列内具有CTAG基序的DNA。切割位点是C^TA G和G AT^C。图18显示了用于选择限制性酶的电脑模拟(in silico)分析的实例。x轴表示在使用BfaI处理环状线粒体基因组后的DNA分子的电脑模拟预测的长度。y轴表示特定片段长度的频率。DNA分子的长度取决于切割标签存在于线粒体基因组中的位置,长度是两个切割标签之间的距离。这种模拟是针对通过在酶识别位点对mtDNA基因组进行电脑模拟切割的完整环状mtDNA。
B.酶促切割的和未经处理的血浆DNA之间的mtDNA的百分比
为了说明检测环状DNA的能力以及为了显示环状mtDNA以可观的量存在,我们分析了酶促处理的和未经处理的样品。我们还显示了确定环状与线性DNA之间的比值来代表环状mtDNA的丰度以用于进一步应用(如组织来源的推断和疾病的诊断)的能力。
1.妊娠
对于样品收集和血浆DNA制备,我们从15名孕妇收集了15个血浆DNA样品。将每个血浆DNA样品分成两个等分试样,用于在具有和没有限制性酶消化的情况下的实验测定。经书面知情同意和机构伦理委员会批准,从香港威尔斯亲王医院的妇产科招募单胎妊娠的妇女。将母体外周血收集在含有EDTA的管中,随后将其在4℃下以1,600g离心10分钟。将血浆部分在4℃下以16,000g再离心10分钟,以获得无细胞血浆,将其储存在-80℃下直至进一步分析。使用QIAamp DSP DNA血液微型试剂盒(Qiagen)从4至10mL血浆中提取血浆DNA。用SpeedVac浓缩器(Savant DNA120;Thermo Scientific)将血浆DNA浓缩成每个样品75μL的终体积。尽管以下分析使用妊娠样品,但该分析同样适用于来自非妊娠对象的样品。
对于测序和比对,我们使用大规模平行配对末端测序用于具有和没有限制性酶消化情况下的两种测定。使用SOAP2(Li等人,Bioinformatics.2009;25:1966-7),将测序的配对末端读取与包括所有常染色体(chr1,chr2,...和chr22)、性染色体以及线粒体基因组的参考基因组数据库进行比对。可以使用各种比对技术。这样的包括两种基因组的编译参考数据库可以减少核基因组与线粒体基因组之间存在的同源区域的影响。例如,一些实施方式只能保留独特映射的结果。可以丢弃与多个区域或者核基因组和线粒体基因组对齐的具有相同映射质量的那些读取。在一个实施方式中,尽管可以使用其它数目的错配,但对于每个读取,我们允许多达两个核苷酸的错配。作为进一步的示例标准,仅配对末端读取用于下游分析,所述配对末端读取的两个末端以正确的方向与同一染色体对齐,跨越不超过指定尺寸(例如,600bp)的插入片段尺寸。在比对后,可以确定染色体起源以及每个测序片段的长度。
我们对15个没有用限制性酶(BfaI)处理的妊娠样品进行了测序。我们使用大规模平行测序(Illumina)获得了中位数为2600万(范围:1800-4000万)的独特映射的配对末端读取。中位数映射率为82%(范围:67-83%)。测序的mtDNA片段的中位数为660个/样品(范围:320-1477)。
对于处理的样品,在测序之前,我们使用限制性酶(BfaI)来消化15个匹配的血浆DNA样品。在以下条件下用BfaI(New England Biolabs)消化血浆DNA:在50μl反应体积中,10单位BfaI(1μl),1X CutSmart缓冲液(5μl)和DNA。将反应物在37℃下温育2小时,然后在80℃下热灭活20分钟。对酶促切割的血浆DNA样品进行末端修复,A加尾和测序适配子连接。然后使用Illumina平台对适配子连接的血浆DNA样品进行测序。本领域技术人员将理解可以使用的各种测序平台和制备技术。
图19A和19B显示了根据本公开内容的实施方案,在具有和没有限制性酶(BfaI)消化的情况下血浆DNA的血浆mtDNA度量的比较。线条表示从同一样品获得的不同部分(处理的和未经处理的)的测量。
图19A显示了mtDNA片段在总血浆DNA分子中的比例。总血浆DNA分子包括mtDNA分子和核DNA分子。在没有处理的情况下,所有样品提供了约相同百分比的mtDNA,其接近零。但是,在经历酶促切割的处理样品中的mtDNA的百分比显著增加,不同的样品具有不同百分比的mtDNA片段。该结果显示血浆样品中的大部分mtDNA是环状mtDNA,并且酶促切割使得能够检测这样的环状mtDNA分子。
图19B显示了具有两个酶促切割末端的mtDNA片段在总血浆mtDNA分子中的比例。横轴显示:模拟:对血浆DNA的电脑模拟切割;未处理:在未经酶促切割情况下的血浆DNA;酶促切割:在具有酶促切割情况下的血浆DNA。
对于用BfaI处理的血浆DNA样品的组别,我们获得了中位数为2400万(范围:1400-3000万)的独特映射的配对末端片段。中位数映射率为79%(范围:73-81%)。测序的mtDNA片段的中位数为9,777(范围:1,725-37,650)。用BfaI处理的血浆DNA样品中的总血浆DNA分子中mtDNA片段的比例平均比未经BfaI处理的血浆DNA样品中的mtDNA片段的比例高17倍(图11A)。所有mtDNA中具有两个切割末端的mtDNA片段的比例均在80%以上,远高于没有限制性酶处理的样品(<1%)和使用计算机程序的电脑模拟切割的预测(<20%)。这些结果表明,具有两个切割末端的片段最可能源自完整的环状mtDNA分子,其在未经限制性酶处理的血浆DNA样品中不能被测序。
图20显示了在不同处理下测序的mtDNA片段的尺寸概况。未处理2010(黑色)对应于未经限制性酶处理的血浆DNA。酶促切割2020(红色)对应于用限制性酶处理的血浆DNA。图20显示了与未经限制性酶处理的血浆DNA相比,通过酶促切割处理的血浆DNA中有更长的mtDNA片段。图20还提供了具有两个切割末端的片段来源于完整的环状mtDNA分子的证据,所述完整的环状mtDNA分子在未经限制性酶处理的血浆DNA样品中不能被测序。
图21A和21B显示了包括常染色体DNA和所有mtDNA中mtDNA>200bp的比例。线条表示从同一样品获得的不同部分(处理的和未经处理的)。图21A显示了在酶促切割的情况下血浆DNA样品中长的mtDNA(>200bp)在所有DNA中的比例(中位数:36.49%);范围:33.17-42.58)比未经限制性酶处理的血浆样品中的比例(中位数:6.21%;范围:1.76-18.44)高5.9倍。这种增加是基于那些切割标签相距超过200bp而预期的。而且,所有mtDNA中长的mtDNA(>200bp)的比例也增加,这再次显示了检测到了来自环状mtDNA的切割中的DNA片段。
图22显示了针对图20中的酶促切割2020和图18中的模拟结果的具有两个切割末端的mtDNA片段的尺寸概况。酶促切割2020的测量结果与图18中通过电脑模拟切割环状线粒体基因组所预测的片段的尺寸概况很好地相关。因此,具有两个切割末端的mtDNA片段的尺寸概况与通过电脑模拟切割环状线粒体基因组所预测的片段的尺寸概况相关。
理论上存在“超长”线性mtDNA(例如>2000bp)的可能性,如果存在,其可能将切割的分子贡献给具有两个限制性酶相关的切割末端的mtDNA片段群。然而,基于下面列出的许多证据,这样的情形的可能性相对较低:
1)未经限制性酶处理的血浆mtDNA分子的尺寸分布没有明显的长尾分布(图20)。
2)在使用Pacific Biosciences SMRT技术对血浆DNA进行测序的测序实验中,我们获得了大约850,977个血浆DNA序列。本实验选择这种测序技术是因为它可以产生比由诸如来自Illumina的合成测序技术的技术所产生的序列读取长得多的序列读取。在Pacific Biosciences读取中,我们鉴定了24种mtDNA片段。然而,这些当中没有一个长于1000bp(图23)。
图23显示了通过Pacific Biosciences SMRT测序平台测序的未经限制性酶处理的血浆DNA中的mtDNA片段。如上所述,鉴定了24种mtDNA片段。每个DNA片段的长度提供在图23中。由于线性mtDNA片段的长度是有限的,因此长的线性mtDNA不会显著有助于具有两个限制性酶相关切割末端的mtDNA片段群。
图24A显示了根据本公开内容的实施方案,在具有或没有酶促切割处理的情况下血浆中mtDNA的比例之间的相关性。为了获得图上包含单点的两个数据点,我们在进行测定之前将样品各自分成至少两个等分试样。对不同的等分试样进行处理和不进行处理,从而提供不同的测量。纵轴对应于处理样品的所有DNA(核和线粒体)的mtDNA的比例,横轴对应于未处理的所有DNA(核和线粒体)的mtDNA的比例。这种相关性显示线性mtDNA的量仍然可以反映在用酶促消化的新测定法中。
图24B显示了在用酶促处理的血浆DNA的所有DNA(核和线粒体)中的线性来源的mtDNA的比例与没有处理的所有血浆DNA(核和线粒体)中的所有mtDNA的比例的相关性。尽管处理样品的比例高得多,但处理样品中较高的比例导致相应的未经处理的样品可能具有较高的比例。这些结果表明,用限制性酶处理的血浆DNA样品中自发产生的线性mtDNA片段(即,天然或自发存在的,并且不是通过人工酶消化产生的片段)的剂量仍然允许监测血液循环中存在的原始mtDNA的相对量。
在以上描述中,我们已经使用BfaI作为可以使用的限制性酶的实例。限制性酶的其它实例包括BsaJI、BseDI、BssECI、SecI、Aci、AluI、MaeI和XspI。在其它实施方案中,可以使用不是4碱基切割者的限制性酶,例如6碱基切割者。在其它实施方案中,可以使用限制性酶的组合。在其它实施方案中,可以使用除了限制性核酸内切酶之外的核酸酶,例如DNASE1L3(Serpas等人,Proc Natl Acad Sci USA 2019;116:641-649)。在其它实施方案中,也可以使用转座酶,如Tn5、Mu、Tn7或Ty1。在其它实施方案中,可以使用非酶促方法打开环状线粒体DNA,例如物理方法如超声处理、反复冻融、反复加热/冷却循环等。
2.癌症分析(例如,HCC)
我们以前报道了与健康对照、HBV携带者和患有肝硬化的对象相比,无细胞mtDNA分子的增加与肝细胞癌(HCC)患者相关(Jiang等人,Proc Natl Acad Sci USA.2015;112:E1317-E1325)。因此,我们推断TopM将在患有肝细胞癌(HCC)的患者的情况下发现其效用。
我们对来自5名HBV携带者和5名HCC患者的血浆样品进行了测序。我们为每个病例分别制备了血浆DNA的三个等分试样,以进行三种类型的测定:(1)在没有用限制性酶处理情况下的测序;(2)在测序之前超声处理(超声处理);以及(3)在测序之前进行限制性酶消化(酶促切割)。对于涉及超声处理的测定,用聚焦超声发生器(Covaris S220)剪切血浆DNA(60μl)。使用以下设置:峰值入射功率175W,占空因数10%,每个脉冲串(burst)200个周期,以及120秒的处理时间,尽管也可以使用其它设置。
图25A和25B显示了在具有和没有限制性酶消化的情况下,HBV和HCC样品的血浆DNA的血浆mtDNA度量的比较。图25A显示了mtDNA片段在总血浆DNA分子中的比例。总血浆DNA分子包括mtDNA分子和核DNA分子。不同的列对应于相同样品的不同等分试样,其中左列对应于在测序之前进行血浆DNA的基于超声处理的剪切的等分试样(超声处理),中心列对应于在没有酶促切割的情况下的血浆DNA(未处理),以及右列对应于进行限制性酶处理的血浆DNA(酶促切割)。线条连接三个等分试样的数据点。
图25B显示了具有两个酶促切割末端的mtDNA片段在总血浆mtDNA分子中的比例。左列对应于对血浆DNA进行电脑模拟切割的模拟。其它列类似于图25A。通过在血浆样品中的BfaI酶识别位点处电脑模拟切割mtDNA来进行模拟。这种模拟保留了线性DNA,因此模拟了例如用核酸外切酶处理不会减少线性DNA的结果。酶促切割数据确实使用了这样的酶处理,从而提供了在血浆DNA中携带两个酶促切割末端的mtDNA的基线。换句话说,对线性血浆DNA进行进一步的电脑模拟切割以确定所得尺寸概况,说明携带一个酶位点的线性片段将如何影响尺寸概况。
与未经限制性酶处理的血浆DNA中的mtDNA的分数相比(中位数:2.5x10-3%;范围:7.4x10-4%至8.8x10-3%),发现在测序之前超声处理的血浆DNA样品的mtDNA分数(中位数:7.3x10-3%;范围:2.3x10-3%至0.017%)和用酶促切割处理的血浆DNA样品的mtDNA分数(中位数:9.8x10-3%;范围:7.8x10-4%至0.037%)显著增加(p值分别为0.02和0.03)(图25A)。在HBV和HCC对象中均观察到在剪切环状mtDNA分子后血浆DNA样品中mtDNA的这样的增加。
如图25B所示,与未经限制性酶处理的样品(中位数:0%;范围:0%-0.25%(p值:4.4×10-5)和模拟情况(中位数:14.0%;范围:11.6%-19.7%(p值:0.0003)相比,具有两个切割末端的mtDNA片段的比例在酶促切割的血浆DNA样品中极大地增加(中位数:75.1%;范围:2.3%-92.0%)。
另一方面,HBV具有环状基因组。实际上,与没有处理的情况相比,酶促或超声剪切使HBV片段在HBV感染阳性的HCC患者中更容易检测到(表7)。这些结果表明,血浆DNA的物理剪切或酶促切割将是评估血浆DNA样品中存在的环状DNA的贡献的通用工具,甚至对于患有癌症或具有病毒感染(其可能具有环状基因组)的对象亦如此。
表7:不同文库制备物中检测到的HBV DNA片段的数目。
3.标签化
如上所述,也可以使用转座酶代替限制性酶来进行环状DNA的切割。
图26A显示了在具有和没有Tn5标签化的情况下样品之间的mtDNA的百分比。图26A显示了与没有Tn5标签化的那些(平均值:0.0012%;范围:0.001-0.002%(P值=0.003)相比,在具有Tn5标签化的情况下样品中mtDNA的百分比(平均值:16.1%;范围:13.5%-18.9%)显著升高。该数据与限制性酶数据一致,说明可以以类似的方式使用标签化。
图26B显示了在具有和没有Tn5标签化的情况下样品之间的mtDNA片段的尺寸概况。图26B显示了在Tn5处理的情况下mtDNA分子的尺寸概况的峰在没有Tn5处理的情况下mtDNA分子的尺寸概况的峰的右边,表明在Tn5处理的情况下在mtDNA分子中存在更多长的mtDNA分子。总之,在Tn5标签化的情况下样品中mtDNA的数量增加以及mtDNA的变长可能表明Tn5打开了环状mtDNA,并使得那些线性化mtDNA分子能够被测序。
C.用于血浆mtDNA分析的靶向捕获测定和分子条形码策略
尽管血浆DNA的人工剪切可以增加血浆DNA库中mtDNA片段的比例,但与核基因组相比,由于线粒体基因组的尺寸小得多,因此在总测序读取中mtDNA读取仍然是少数。当线粒体基因组中的无细胞mtDNA的核苷酸变体(包括单核苷酸变体、小的插入/缺失、结构变异如重排)的分数浓度极低时,检测这样的核苷酸变体(即变体分析)将是次优的。
显著提高测序结果中mtDNA数目的一个实施方案是使用靶标捕获富集。因此,我们设计了靶向线粒体基因组的一组杂交探针。
图27显示了根据本公开内容的实施方案的基于靶向捕获的TopM分析。短的线性核DNA 2702、短的线性mtDNA 2704和环状mtDNA经历酶促切割。剪刀2701(红色)代表限制性酶切割位点。
在步骤2710,适配子和独特的分子标识符(UMI)可以连接到DNA分子。适配子可以连接到两个末端以进行配对末端测序。UMI可以仅加入到其中一端,并且可以是适配子的一部分。因此,UMI可以是能够将不同分子彼此区分开的指定数目的碱基的独特序列。
在步骤2720,可以例如使用mtDNA的杂交探针进行靶标捕获富集。在一些实施方式中,在探针与mtDNA杂交后,可以例如使用探针或其它引物扩增mtDNA。使用PCR或其它合适的扩增程序进行扩增。在其它实施方式中,探针可以仅用于捕获mtDNA,从而增加样品中的mtDNA浓度。如图所示,相对于核DNA分子的量,mtDNA分子的数目增加。
在步骤2730,进行测序。使用具有相同UMI的读取可以确定每个模板DNA分子的共有序列,从而表明读取源自相同的模板分子。UMI可以用于去除扩增(例如,PCR)重复,校正扩增的后期循环中的错误以及校正测序错误。共有序列可以提供这样的校正。
如图27所示,在测序前引入靶标捕获的额外步骤,使得测序文库中的mtDNA丰度将极大地增加。通过扩增无细胞DNA中的线粒体DNA,mtDNA分子相对于核DNA分子的比例从而增加。携带两个切割末端的DNA分子的数目以及长的DNA分子的数目(例如大于200个碱基)也增加。
捕获设计的另一个特征是掺入独特的分子标识符(UMI)。捕获前的每个DNA分子将被具有UMI的适配子标记。在测序结果中,具有相同UMI的测序片段被认为是PCR重复。将携带相同UMI的所有测序片段折叠形成单一共有序列以代表血浆DNA库中存在的原始分子。该过程将允许我们去除PCR偏倚并使测序错误以及在后期循环中引入的PCR错误最小化。因此,这种方法将提高TopM分析的准确性,并使其适于以极低的突变分数调用变体。
因此,实施方案可以将分子标识符连接到线性化线粒体DNA分子和多个线性线粒体DNA分子上。可以确定具有相同分子识别符的一组线粒体DNA分子的共有序列,并且该共有序列可以用作用于下游分析的单个序列读取,例如,如以下流程图中所述。
图28显示了根据本公开内容的实施方案,酶促切割和靶标富集改进了mtDNA片段的检测。如图28所示,基于靶标富集的TopM分析确实改进了mtDNA片段的检测能力(即,比非靶标形式多80倍的mtDNA)。
D.用于确定疾病水平的肝脏移植实例
使用性别不匹配的移植模型,Lo等人证明了在肾和肝脏移植受体的血浆中存在供体特异性DNA(Lo等人,Lancet.1998;2:1329-30)。肝脏移植是通过利用包括单核苷酸多态性(SNP)差异在内的遗传特征来研究组织特异性无细胞DNA分子的生物学的有吸引力的模型。我们将基于靶向捕获的TopM分析应用于接受肝脏移植的患者的血浆DNA中。
图29显示了根据本公开内容的实施方案,使用用于分析线性和环状mtDNA的肝脏移植模型所说明的示例技术。供体特异性等位基因可以与某些测量一起使用以确认结果,例如,环状mtDNA的存在和测量的准确性。然而,用于测量线性和环状mtDNA的技术可以在移植应用之外使用,如除了移植失败之外还用于其它疾病(例如癌症)。结果显示,与健康对照相比,由于增加的细胞死亡,具有病症/病况的器官(包括移植器官)的对象具有相对于线性mtDNA减少量的环状mtDNA。
对于核DNA和mtDNA,“A”和“B”代表两种不同的核苷酸变体。如图29所示,对于血浆核DNA分析,可以通过使用信息SNP位点推断血浆中的肝脏DNA分数,对于该SNP位点,受体是纯合的(AA),供体是杂合的(AB),如情形2902所示,而不是情形2904所示。在情形2902中,肝脏DNA分数可以定义为具有供体特异性等位基因(B)的血浆核DNA的比例乘以常数因子2。
对于血浆mtDNA分析,我们利用线粒体基因组中的基因组位点,其中受体和供体似乎是同质的(即,似乎通常是相同的),但它们在这样的基因组位点具有不同的核苷酸。显示供体特异性和受体特异性变体的位点,被称为线粒体信息变体,其将是特别感兴趣和重要的。基于覆盖这些线粒体信息变体的血浆mtDNA片段,可以将血浆mtDNA片段分成供体特异性mtDNA片段2914和受体特异性mtDNA片段2912。供体特异性mtDNA片段2914进一步分类为环状来源的mtDNA 2946和线性来源的2944(即,自发出现的线性DNA)mtDNA,这是根据这样的片段是否携带两个酶促切割的末端。类似地,受体特异性mtDNA 2912片段进一步分类为环状来源的mtDNA 2926和线性来源的mtDNA 2924,这是根据这样的片段是否携带两个酶促切割的末端。
在此项分析中,我们尝试解决以下几点:
a)来自肝脏组织和非肝脏组织(主要是造血来源)的mtDNA的相对贡献。
b)肝脏来源的DNA分子和造血来源的DNA分子的线性来源的(没有切割末端或单个切割末端的片段)和环状来源(两个切割末端)的相对量。
c)线性和环状形式的血浆mtDNA突变的使用可以用作癌症检测的生物标志物。
在(c)的一些实施方式中,线性mtDNA可以主要来源于肝脏,例如,如果肝脏具有肿瘤。肿瘤细胞不成比例地经历凋亡,这可导致环状mtDNA变成线性的,从而用肿瘤来源的DNA分子富集线性DNA。环状mtDNA可能主要来源于血细胞(也许与衰老有关)。
作为另一个实例,当样品是血浆或血清时,可以使用环状mtDNA突变校正背景噪声。例如,从环状mtDNA鉴定的变体更可能与血液谱系细胞相关。因此,我们可以使用来自环状mtDNA的这些变体作为基线突变。与那些基线突变不重叠的任何突变将增加源自其它器官(例如,具有肿瘤的器官,如在本实例中的肝脏)的可能性。作为另一个实例,我们可以使用环状mtDNA来过滤潜在的假阳性(来源于造血细胞的突变)或集中于那些仅存在于线性mtDNA中而不存在于环状mtDNA中的突变。(c)的这样的实施方式不需要移植器官用于分析。
作为测试该模型的实例,我们使用中位数为22600万的配对末端读取(范围:13000-26700万)对来自两名肝脏移植对象的血浆DNA样品进行了测序。在捕获设计中,我们还设计了靶向常染色体上的1000个SNP的杂交探针,用于估计受体的血浆DNA中供体DNA的贡献。我们从每名肝脏移植对象制备了血浆DNA的两个等分试样。血浆DNA的一个等分试样用于mtDNA的靶标捕获富集(在捕获之前没有限制性酶处理)。血浆DNA的另一个等分试样用于酶促切割处理,然后是mtDNA的靶标捕获富集。从供体存档的福尔马林固定的石蜡包埋的(FFPE)肝脏组织和受体的白细胞中提取的DNA样品也进行酶促切割处理,然后进行mtDNA的靶标捕获富集。通过对供体和受体的白细胞进行测序,我们获得了核DNA中的基因型,并且也鉴定了线粒体信息变体。对于肝脏移植病例TBR1453和TBR1574,分别有563个和297个信息SNP(核DNA)。对于肝脏移植病例TBR1453和TBR1574,分别有41个和29个线粒体信息变体。
图30显示了说明根据本公开内容的实施方案的肝脏移植病例的统计的表3000。捕获仅表明mtDNA的靶标捕获富集。Ez+捕获表明酶促切割处理,然后是mtDNA的靶标捕获富集。
对于肝脏移植病例TBR1453和TBR1574,发现肝脏DNA分数(核DNA)分别为38.9%和15.8%。值得注意的是,对于仅用mtDNA的靶标捕获富集处理的血浆DNA样品(标记为“捕获”),发现94.5%和87.47%的mtDNA片段源自供体。由于该过程不涉及酶促切割,结果表明肝脏是自发线性化mtDNA片段散落到血浆的主要来源。肿瘤细胞将类似地被预期是自发线性化mtDNA片段散落到血浆中的主要来源。另一方面,因为环状mtDNA分子不可能通过Illumina测序方案进行测序,所以我们在该分析中没有呈现环状形式的线粒体DNA的数据(表3000中的“NA”)。
对于用酶促切割,然后是mtDNA的靶标捕获富集处理的血浆DNA样品,发现总血浆DNA分子中mtDNA的比例对于TBR1453为3.63%,对于TBR1574为4.57%。这些数字高于未经酶促切割处理的匹配血浆DNA样品(即TBR1453:1.52%以及TBR1574:0.49%)。通过酶促切割TBR1453的血浆DNA,受体的mtDNA贡献从未经限制性酶处理的匹配样品中的5.5%的水平显著增加至高达51.03%。这些结果表明,相当大比例的环状mtDNA是造血来源的。在肝脏移植病例TBR1574中也观察到类似的模式。受体的mtDNA贡献从未经限制性酶处理的匹配样品中的0.49%的水平增加至高达80.50%。总之,我们得出结论,大多数造血来源的mtDNA分子是环状构型,而血浆中大多数自发出现的线性mtDNA片段来源于肝脏。
根据图29所示的原理,我们可以利用酶促切割末端的存在进一步分析受体的mtDNA和供体的mtDNA的线性形式和环状形式的相对量。
图31显示了根据本公开内容的实施方案,对肝脏移植病例的血浆中线性和环状mtDNA分子的分析。对于病例TBR1453的受体mtDNA,线性和环状mtDNA分数分别为10.0%和41.03%。对于病例TBR1453的供体mtDNA,线性和环状mtDNA分数分别为47.54%和1.43%。这些结果表明,大多数造血来源的mtDNA会是环状的,而大多数肝脏来源的mtDNA会是线性的。同样,在肝脏移植病例TBR1574中观察到线性和环状mtDNA的量的类似分布。对于肝脏移植病例TBR1574的受体mtDNA,线性和环状mtDNA分数分别为29.37%和51.13%。对于肝脏移植病例TBR1574的供体mtDNA,线性和环状mtDNA分数分别为19.0%和0.5%。
基于这些结果,我们假设常规的全基因组随机测序将主要定量线性mtDNA,并且预期mtDNA分数将与肝脏DNA分数相关。我们用浅测序深度分析了来自14个肝脏移植病例的血浆DNA样品(中位数:2100万配对末端读取;范围:1600-2600万)。经由液滴数字PCR(ddPCR)测定通过肝脏特异性甲基化标志物定量x轴中的肝脏贡献(Gai等人,Clin Chem.2018;64:1239-1249)。
图32显示了根据本公开内容的实施方案,mtDNA分数(在没有酶处理的情况下通过测序确定的)与肝脏DNA分数(通过使用ddPCR的甲基化分析确定的)的相关性。纵轴上的mtDNA分数是所有DNA(即线性mtDNA和线性核DNA)的百分比。使用在线性核DNA片段中的肝脏特异性甲基化标志物测量横轴上的肝脏DNA分数(Gai等人,Clin Chem.2018;64:1239-1249)。在一个实施方案中,肝脏移植患者中的肝脏DNA分数将通过供体特异性等位基因来确定,例如,如针对图29所解释的。实际上,mtDNA分数与肝脏DNA贡献相关(图32,r=0.7,p-值=0.005)。因此,线性mtDNA丰度可以用于以无创性方式反映肝脏(或其它移植或患病器官)DNA对血浆DNA库的贡献。
由于细胞死亡现象(例如凋亡和坏死)已经被假定为释放血浆DNA的关键机制,因此血浆中线性mtDNA的浓度(相对或绝对浓度)将代表用于监测肝细胞死亡的快速方法,其将与多种病症相关,所述病症例如癌症(如肝细胞癌或源自其它部位的癌症的肝脏转移)、炎症(例如由于病毒(如HBV或丙型肝炎病毒)或非病毒(如酒精相关的或脂肪肝疾病或自身免疫或药物相关的(如对乙酰氨基酚)原因)引起的肝炎或肝硬化)。血浆DNA中线性mtDNA的量越高,肝细胞死亡的严重程度越高,环状mtDNA的量越低。虽然本文所示的数据以百分比表示,但可以以各种方式提供线性和环状mtDNA的量。例如,可以通过乘以血浆DNA的总浓度将这样的百分比值转化为绝对浓度(例如ng/ml)。确定疾病/病况/病症的水平的线性mtDNA和环状mtDNA之间相对丰度的这种分析也可以用于其它器官中的这样的检测,因为经历细胞死亡的这样的器官将具有类似的行为。
在一些实施方案中,环状mtDNA的比例将反映其它器官DNA损伤。因为环状mtDNA的比例主要来源于造血细胞,所以环状mtDNA的比例的降低将表明一些其它器官的DNA释放到血浆DNA中。
图33显示了根据本公开内容的实施方案,健康对照与肝脏移植患者之间线性和环状mtDNA的量的差异。如表3300所示,在肝脏移植患者中具有两个切割末端的mtDNA(即环状mtDNA)的百分比(52%)显示低于健康对照(73%)。另外,肝脏移植患者中的线性mtDNA高于健康对照。这些结果表明增加的肝脏DNA损伤,导致更多的肝脏来源的DNA释放到血液循环中。血浆DNA中线性和环状mtDNA分子的这样的动态追踪可允许我们评估患者的健康状态,包括器官排斥、炎症、代谢变化或病症、免疫相关损伤、肿瘤学等。
E.HCC患者和非HCC对象中mtDNA的线性和环状
我们测试了线性和环状mtDNA的相对丰度在区分HCC患者与非HCC对象中的诊断潜力。在这些示例实验中,我们使用酶促切割,然后是靶标富集方案,尽管也可以使用其它技术,例如非靶标富集或使用转座酶的切割或其它切割技术。我们对来自HCC患者的5个血浆DNA样品和来自HBV携带者的5个血浆DNA样品进行了测序,其中位数为2860万个测序片段(范围:1410-5710万)。线粒体基因组的中位数深度为2,690X(范围:1,018-5,336X),其平均比未经酶促切割的测序结果高5倍(中位数:512X;范围:243-3,022X)。没有酶促切割末端的血浆mtDNA分子被认为是线性mtDNA,而具有两个酶促切割末端的血浆DNA分子被认为是环状mtDNA。那些具有一个切割末端的mtDNA也被认为是线性mtDNA,其来源于携带酶识别位点的片段或者偶然在DNA末端携带一个切割末端的那些。
图34显示了根据本公开内容的实施方案的所有mtDNA分子中线性和环状mtDNA分子的比例。纵轴是所有mtDNA分子中环状mtDNA分子(确定为两个酶促切割末端)的百分比。横轴是线性DNA(确定为无酶促切割的末端)的百分比。数据点对应于这两个值。以不同颜色标记对象的不同分类:健康对照3402为浅绿色,肝脏移植3406为深绿色,HBV携带者304为蓝色,以及HCC对象为红色。
如图34所示,发现HCC患者的血浆DNA中线性mtDNA的比例(平均值:27.49%;范围:10.64%-36.18%)显著高于(p值:0.03)非HCC患者(包括健康对照、肝脏移植病例和HBV携带者)的血浆DNA中线性mtDNA的比例(平均值13.53%;范围:3.28-41.52%)。相比之下,发现HCC患者的血浆DNA中环状mtDNA比例(平均值:47.99%;范围:28.46%-66.96%)低于非HCC患者(包括健康对照、肝脏移植病例和HBV携带者)的血浆DNA中环状mtDNA比例(平均值:64.33%;范围:36.89-79.02%)。如图34所示的环状和线性mtDNA的组合分析允许区分HCC与非HCC对象。如果我们将以下标准用于确定癌症,则灵敏度和特异性分别为80%和92%:
a.环状mtDNA%<50%(其中50%是截止值的实例);
b.线性mtDNA%>21%(其中21%是截止值的实例)。
图35A-35C显示了针对mtDNA在所有分子中的百分比(35A)、线性mtDNA在所有mtDNA分子中的百分比(35B)以及环状mtDNA在所有mtDNA分子中的百分比(35C),在HCC与非HCC对象之间的差异。切割技术(例如,使用限制性酶或转座酶)用于所有三幅图中。图35A显示了使用所有DNA分子中所有mtDNA的百分比在非HCC与HCC之间的差的区分。
然而,线性或环状mtDNA在mtDNA分子中的百分比提供了良好的区分。图35B显示了在非HCC和HCC对象的所有mtDNA(即,线性和环状)中线性mtDNA(确定为无酶促切割的末端)的百分比。这样的值使用环状DNA的测定,使得可以测定在所有mtDNA中的百分比。图35B显示了在非HCC和HCC对象的所有mtDNA(即线性和环状)中环状mtDNA(确定为无酶促切割的末端)的百分比。
F.妊娠
除了仅器官病症的实例之外,用于区分血浆中的线性来源的或环状来源的mtDNA分子的分析方法还可以应用于妊娠。为了说明所涉及的概念,我们使用了涉及一种特殊妊娠妊娠模型。所述特殊妊娠是一种辅助生殖治疗(ART)的形式,其中一名女性代表另一个人在其子宫内怀胎。如果获得卵子供体和受体母亲的白细胞,我们可以为卵子供体和受体母亲的核DNA和mtDNA进行基因分析。
图36显示了根据本公开内容的实施方案,使用妊娠模型分析线性和环状mtDNA的示例技术。供体特异性等位基因可以与某些测量一起使用以确认结果,例如,环状mtDNA的存在和测量的准确性。然而,用于测量线性和环状mtDNA的技术可以在移植应用之外使用,如用于胎儿疾病。例如,与健康对照相比,由于增加的细胞死亡,患有病症/病况的胎儿将具有相对于线性mtDNA减少量的环状mtDNA。
对于核DNA和mtDNA,“A”和“B”代表两种不同的核苷酸变体。如图36所示,使用这样的基因型信息,我们可以利用卵子供体和受体母亲的核血浆DNA和核DNA基因型信息推断胎儿DNA分数,如情形3602所示,但不是情形3604所示。另一方面,通过利用mtDNA中的卵子供体特异性变体,我们可以进一步检测携带这样的特异性变体的卵子供体相关的mtDNA分子3614,其代表胎盘/胎儿mtDNA,因为mtDNA是从生物学母亲遗传的。类似地,我们还可以使用覆盖mtDNA中的受体母亲特异性变体的那些mtDNA片段来进一步检测受体母亲特异性mtDNA分子3612。
根据mtDNA片段的两个末端是否携带限制性酶切割末端,可以鉴定环状来源的分子3626和2646以及线性来源的mtDNA分子3624和2644。TopM会允许我们揭示孕妇血浆DNA中mtDNA的形式,并推断出其相对比例,这是以前无法实现的。如果妊娠相关的病症将改变线性和环状mtDNA分子的相对比例,则这样的技术可用于监测这样的线粒体病症。我们将预测,来源于胎盘组织的自发出现的线性mtDNA(例如,由于细胞死亡)将添加到怀孕的受体女性对象的线性mtDNA(例如,来源于肝脏和其它器官)的群体中。与健康的怀孕相比,有问题的怀孕将具有相对高量的线性mtDNA(相对于环状mtDNA)。例如,可以将线性mtDNA与环状mtDNA的比值与区分健康妊娠和有问题妊娠的截止值进行比较。
以类似的方式,在孕妇的血浆中检测到胎儿线粒体DNA也可用于监测线粒体基因疗法或线粒体替代疗法的成功(Zhang等人,Reprod Biomed Online 2017;34:361-368)。线性mtDNA相对于环状mtDNA的水平升高可以反映此类疗法中的问题。由于母体血浆中胎儿来源的mtDNA主要是线性的,因此可以监测线性mtDNA以反映胎儿mtDNA状态。这可以作为突变加载的一部分来完成,这将在下面描述。
在各种实施方案中,使用线性mtDNA与环状mtDNA的比值作为代用品,线性mtDNA分子与环状mtDNA分子的比值可以用于检测胎儿线粒体DNA的量的变化、监测所述特殊妊娠的成功(例如,如上所述)或者监测线粒体基因疗法或线粒体替代疗法的成功。
G.变体分析
肝脏移植模型的mtDNA分析揭示了线性和环状mtDNA分子可以具有不同组织来源的标志物(例如供体特异性等位基因),并且线性和环状mtDNA分子更可能分别来自患病组织和健康组织。因此,线性mtDNA和环状mtDNA的mtDNA变体鉴定可以揭示与不同组织相关的变体。例如,从线性mtDNA鉴定的变体将更可能与肝脏细胞或其它患病细胞相关(例如,用于检测和/或监测肝癌,或者涉及肝细胞的病症),然而从环状mtDNA鉴定的变体将更可能与血液谱系细胞相关,所述血液谱系细胞在血浆或血清中占优势(例如,用于评估与衰老相关的克隆性造血(Greaves等人,PLoS Genet.2014;10:e1004620)。线性mtDNA中的特定变体(或变体的量)可以用于鉴定患病组织的存在。
图37显示了根据本公开内容的实施方案,针对线性mtDNA分子的突变负荷计算的实例。如图所示,在线粒体基因组3720中存在基因座3710,在这些基因座上,变体存在于线性来源的mtDNA 3704中,但在环状来源的mtDNA 3706中不存在。因此,与环状来源的mtDNA 3706相比,这些变体在线性来源的mtDNA 3704中以不同的比率出现。在其它情况下,变体可以以比线性来源的mtDNA 3704更高的比率存在于环状来源的mtDNA 3706中。
线性来源的mtDNA 3704中的变体比率可以反映来自患病组织(例如,在以上实例中的肝脏)的突变负荷,因为患病组织主要释放线性形式的mtDNA。在该实例中,突变负荷由携带变体的读取的总数除以被分析的线性mtDNA的总数来定义。如图37所示,通过分析在环状来源的mtDNA 3706中具有较低变体率的基因座,能够鉴定在线性mtDNA中存在但在环状来源的mtDNA中不存在的变体。在这个特定的实例中,变体率是零,即,在环状来源的mtDNA 3706中是纯合的(所有相同的等位基因)。因此,可以将突变负荷限制于环状来源的mtDNA 3706是纯合的基因座。但是,对于环状来源的mtDNA 3706,变体率不需要为零。
与环状mtDNA相比,线性mtDNA中存在的独特变体将反映mtDNA的从头合成变体或组织特异性单倍群(Grandhi等人,Hum Mol Genet.2017;26:2912-2922;Samuels等人,PLoS Genet.2013;9:e1003929)。术语“单倍型”可以指在一个mtDNA基因组中发生的突变。不同单倍型中的不同突变可以发生在相同的环状线粒体基因组中或不同的环状线粒体基因组中。环状线粒体基因组中突变的组合可以反映组织特异性。因此,实施方案通过能够鉴定来自患病组织的线性mtDNA片段中的突变,为基于无细胞mtDNA的分子诊断应用开辟了新的可能性。
线性mtDNA中的变体通常是非造血来源的,因为血浆中大多数自发出现的线性mtDNA片段来自非造血组织。如果变体出现在环状来源的mtDNA 3706中,则可以确定造血组织包括该变体。在任一种情况下,具有变体的基因座的数目或具有变体的序列读取的数目可以用于确定突变负荷。可以将突变负荷与阈值进行比较以确定是否存在疾病(例如癌症)。在一些实施方式中,仅具有多于N个(例如1个、2个、3个等)变体读取的基因座被用于确定突变负荷,例如以避免测序错误的情况。然后,线性或环状mtDNA是否具有变体可以用于确定该疾病是否具有非造血来源或造血来源。此外,生物样品中的组织特异性变体可以用于推断mtDNA来源。
在一些实施方案中,TopM分析将可用于监测线粒体移植的免疫或自身免疫反应(例如用于改善肌坏死的自体线粒体的移植(Masuzawa等人,Am J Physiol Heart Circ Physiol.2013;304:H966-82))。例如,肌坏死将从肌肉组织释放更多的mtDNA,导致血浆DNA中mtDNA的增加。具体模式是线性DNA的相对量将增加,环状DNA的相对量将减少。对于变体分析,肌肉特异性mtDNA变体将在血浆DNA中增加。这样的分析将应用于其它组织。
在研究无细胞分子的背景下,追踪关于线性与环状mtDNA分子之间的相对比值和线性和环状mtDNA分子中的突变概况以及线性与环状mtDNA分子之间的差异突变概况的动力学将会为线粒体相关疾病(包括但不限于癌症、自身免疫学、肌坏死,心脏保护、器官损伤和衰老)提供新的诊断途径。
H.使用环状mtDNA和线性mtDNA的方法
环状mtDNA和线性mtDNA的测量可以用于各种目的。例如,可以从线性mtDNA相对于环状mtDNA的量的增加来鉴定患病组织的存在。作为另一个实例,主要出现在线性mtDNA或环状mtDNA中的序列变体可以用于鉴定非造血组织或造血组织中的序列变体。可以使用各种制备方案,例如,如图17和图27所述。
1.确定疾病水平
环状mtDNA和线性mtDNA的相对量的测量可以用于各种目的,例如如上所述。例如,由于增加的细胞死亡,患病组织将释放较多的线性mtDNA,从而导致包括线性mtDNA与环状mtDNA的比值在内的参数相对于不具有患病组织的对象增加/降低(取决于参数的表达方式(formulation))。相比之下,环状mtDNA通常由血细胞产生,因此会以相对恒定的背景率出现。这样的患病组织可以包括,例如,移植器官、癌症和炎症以及本文所述的其它组织。在一些实施方案中,如果环状DNA的量增加,则血细胞可以被鉴定为患病的。
图3800是说明根据本公开内容的实施方案,用于分析环状线粒体DNA(mtDNA)和线性mtDNA的方法3800的流程图。方法3800可以根据分析确定疾病水平。与其它方法一样,可以使用由计算机系统控制的机器(例如,机器人)来执行物理步骤。在一些实施方式中,可以同时分析环状mtDNA与线性mtDNA。方法3800可以根据一个或多个标准鉴定环状核DNA,并在确定疾病水平时使用环状DNA相对于线性mtDNA的相对丰度。
在框3810,接收有机体的生物样品。生物样品包括无细胞DNA,其包括线性线粒体DNA和环状线粒体DNA。生物样品可以被纯化,例如,以分离出主要无细胞的部分,如血浆。也可以进行其它预处理步骤。
在框3820,切割多个环状线粒体DNA分子以形成在末端具有预定序列的一组线性化线粒体DNA分子。环状线粒体DNA分子可以是完整的,因此包括整个线粒体基因组。在其它情况下,环状线粒体DNA分子可以仅是线粒体基因组的一部分,因此具有连接处,例如,如在I部分中针对核DNA所述。
如本文所述,切割可以以各种方式进行,例如使用限制性酶或转座酶与适配子序列的组合。限制性酶可以优选在特定基序处切割DNA,产生在末端具有预定序列的线性化DNA分子。当使用转座酶时,在切割多个eccDNA分子后,适配子序列可以连接到多个eccDNA分子的每一个的两个切割末端,从而形成在末端具有预定序列(适配子序列)的一组线性化DNA分子。
在框3830,对该组线性化DNA分子和多个线性线粒体DNA分子的至少两个末端进行测序以获得序列读取。对于配对末端测序,可以获得两个读取:一个用于DNA分子的每个末端。对于单分子测序,序列读取可以针对整个DNA分子。可以通过鉴定预定序列(例如切割标签)是否在DNA分子的末端来确定哪些分子是线性的或线性化的(即,初始环形的)之间的区别。
对应于mtDNA的序列读取可以通过与参考线粒体基因组比对来鉴定,例如以便与核DNA区分。该比对可以分阶段进行(例如,最初鉴定与参考线粒体基因组对齐的那些),然后确定该子集是否与参考核基因组对齐。如上所述,可以丢弃与多个区域或核基因组和线粒体基因组对齐的具有相同映射质量的那些读取。
在框3840,鉴定在末端具有零个或一个预定序列的序列读取的第一数目。在一些实施方案中,可以使用在末端具有零个或一个预定序列的标准中的任一个。例如,可以对仅在末端具有零个预定序列的序列读取的数目进行计数以确定第一数目。作为另一个实例,可以对仅在末端具有一个预定序列的序列读取的数目进行计数以确定第一数目。在又一个实例中,可以将两个数目相加,以获得与任一标准匹配的序列读取的总数。这样的序列读取可以被鉴定为对应于线性mtDNA。
在框3850,鉴定在两个末端具有预定序列的序列读取的第二数目。如图27、29和36所述,线性化DNA分子将在两个末端具有预定序列(例如,由于限制性酶或转座酶的结果)。因此,第二数目的序列读取可以被鉴定为对应于环状mtDNA。
在框3860,确定第一数目与第二数目之间的分离值(例如,比值)。可以使用各种分离值,例如来自线性mtDNA分子的mtDNA片段的百分比或来自环状mtDNA的百分比。作为进一步的实例,分离值可以是第一数目除以第二数目,或者第二数目除以第一数目。因此,分离比值可以包括第一数木和第二数目的比值。
在框3870,基于该比值确定与有机体相关的疾病水平。该水平可以被认为是如本文所述的分类。疾病水平可以是癌症的水平,例如,在筛查有机体的癌症的情况下。疾病水平可以是特定器官,例如肝脏的疾病水平。例如,肝脏疾病的水平被确定为癌症、HBV或无疾病。在另一个实例中,疾病水平是移植器官是否被排斥。
在另一个实例中,有机体是怀有胎儿的女性,其中疾病水平是胎儿的或妊娠的。如果胎儿患有疾病,则胎儿中增加的细胞死亡将增加线性mtDNA分子的数目。一个示例疾病是Kearns Sayre综合征,其是罕见的先天性代谢障碍,特征在于进行性眼外肌麻痹(PEO)、色素性视网膜炎和20岁前的发病。常见的另外的特征包括耳聋、小脑共济失调和心脏传导阻滞。另一个实例是母系遗传性糖尿病伴耳聋(MIDD)。这样的疾病主要由线粒体基因组中的突变引起。
确定疾病水平可以包括将该比值与参考值进行比较以及基于该比较确定疾病水平。可以基于具有已知患病水平的对象的群组来确定参考值,例如,如图34和35所示。可以选择参考值(例如,截止值)以优化预测疾病水平的特异性和灵敏度。因此,可以使用全部患有疾病,不患有疾病或两者的组合的样品的训练集来确定参考值。因此,可以基于从具有已知疾病水平的对象的样品确定的参考分离值来确定参考值。
除了第一数目与第二数目之间的分离值之外,还可以使用其它特征来进行框3870。例如,可以使用多个分离值。如上所述,第一数目可以以各种方式来定义,例如,取决于在末端的预定序列的数目。可以确定一个分离值,其中使用零个预定序列来定义第一数目。可以确定第二分离值,其中使用零个预定序列来定义第三数目,其中确定第二数目与第一数目之间的分离值。该特征可以用于训练机器学习模型。
2.检测来自非造血组织的mtDNA中的突变
环状mtDNA和线性mtDNA中序列变体的测量可以用于各种目的,例如如上所述。例如,主要出现在线性mtDNA或环状mtDNA中的序列变体可以分别用于鉴定非造血组织或造血组织中的序列变体。这样的信息可以以各种方式使用。例如,非造血肿瘤中线性mtDNA的突变可能比健康细胞中发生的多,并且相对于环状mtDNA,这样的非造血肿瘤将主要为血浆贡献线性mtDNA。因此,如果线性mtDNA中的序列变体的数目高于阈值(例如,指示癌症),则可以将肿瘤鉴定为非造血组织。并且,如果环状mtDNA中的序列变体的数目高于阈值,则可以确定肿瘤是造血来源的。
图39是说明根据本公开内容的实施方案的用于分析环状线粒体DNA的方法3900的流程图。方法3900可以使用在II.G部分中描述的技术。方法3900可以确定线粒体DNA中序列变体的组织来源。
在框3910,接收有机体的生物样品。生物样品包括无细胞DNA,其包括线性线粒体DNA和环状线粒体DNA。框3910可以以与图38的框3810类似的方式进行。
在框3920,切割多个环状线粒体DNA分子以形成在末端具有预定序列的一组线性化线粒体DNA分子。框3920可以以与图38的框3820类似的方式进行。
在框3930,对该组线性化DNA分子和多个线性线粒体DNA分子的至少两个末端进行测序以获得序列读取。框3930可以以与图38的框3830类似的方式进行。
在框3940,鉴定在末端具有零个或一个预定序列的第一组序列读取。框3940可以以与图38的框3840类似的方式进行。
在框3950,鉴定在两个末端具有预定序列的第二组序列读取。框3950可以以与图38的框3850类似的方式进行。
在框3960,将第一组序列读取和第二组序列读取与参考线粒体基因组进行比较,以鉴定在一组中以与另一组不同的比率出现的序列变体。在一些实施方案中,可将第一组序列读取与参考线粒体基因组进行比较以鉴定第一组基因座处的第一组序列变体。可以将第二组序列读取与参考线粒体基因组进行比较,以确定第一组序列变体是否出现在第二组序列读取中。在一些实施方案中,参考线粒体基因组可以对应于对象,例如,如从健康细胞确定的。这样的参考线粒体基因组可以被称为构成线粒体基因组。
在框3970,基于不同的比率确定非造血组织或造血组织是否具有序列变体。例如,不同的比率可以是第一组序列读取(可能来自非造血组织)的第一比率(量)与第二组序列读取的第二比率(量)之间的百分比。非造血组织中的变体可以出现在移植组织中,例如,在上述的肝脏实例中或卵子供体中,使得非造血组织可以是胎儿的。
在一些实施方案中,可以基于具有序列变体的第一组序列读取(即,对于线性mtDNA)的第一量和具有序列变体的第二组序列读取(即,对于环状mtDNA)的第二量,例如,第一量大于第二量,来确定非造血组织是否具有序列变体。第二量可以是零,表明环状线粒体DNA在生物样品中是纯合的。其中环状线粒体DNA是纯合的基因座可以是鉴定在线性线粒体DNA中可能具有变体的基因座的标准。
为了确定非造血组织具有序列变体,可能需要第一量大于第一阈值并且第二量小于第二阈值(例如,如果需要纯合性,则需要一种)。第一阈值可以相同或不同,并且可以是序列读取的百分比。在各种实施方案中,需要覆盖至少但不限于5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000、2000、3000、4000、5000、10000个序列读取的被分析的基因组位点。在线性mtDNA分子中携带变体等位基因的序列读取的百分比可以是例如但不限于大于1%、2%、3%、4%、5%、10%、20%、30%、40%和50%,而在环状mtDNA分子中携带变体等位基因的序列读取的百分比可以是例如但不限于小于1%、2%、3%、4%、5%、10%、20%、30%、40%和50%。阈值可以用于确定变体在线性mtDNA中比在环状mtDNA中更普遍,例如,与仅第一量高于第二量相反。从线性mtDNA鉴定的变体将更可能与肝脏细胞相关(例如用于检测和/或监测肝癌或涉及肝细胞的病症),而从环状mtDNA鉴定的变体将更可能与血液谱系细胞相关。
在一些实施方案中,可以将突变的量与阈值进行比较以检测疾病(例如,癌症)。突变的量可以需要在线性mtDNA和/或环状mtDNA中。例如,可以基于第一量大于阈值(截止值)来确定非造血组织具有疾病(例如,癌症)。可以基于健康对象群组中的测量和/或基于患有疾病的对象群组中的测量来确定阈值。
在其它实施方案中,可以基于第二量大于第一量来确定造血组织具有序列变体。可以使用类似的阈值来要求第二量充分大于第一量,例如,以便获得期望的统计精度。在一些实施方案中,可以基于第二量大于阈值来确定造血组织是患病的(例如,造血癌症)。可以基于健康对象群组中的测量和/或基于患有疾病的对象群组中的测量来确定阈值。
I.疾病水平和治疗
一些实施方案还可以包括响应于对象患有病况的分类来治疗对象的疾病/病况,从而改善所述病况(例如,以去除所述病况或降低严重程度)。可以根据疾病/病症的确定水平、鉴定的变体和/或组织来源(例如,造血的或非造血的)提供治疗。例如,可以用特定的药物或化疗靶向鉴定的变体。组织来源可以用于指导外科手术或任何其它形式的治疗。并且,病症水平可以用于确定任何类型的治疗有多大进取性。
可以进行各种治疗。治疗可以包括任何合适的疗法,包括药物、化疗、放射、免疫疗法、激素疗法、干细胞移植或手术,包括本文提及的参考文献中所述的任何治疗。参考文献中关于治疗的信息通过引用并入本文。治疗可以是靶向的,例如,使用针对疾病的特定特性(例如,肿瘤的特定基因组成)定制的精确药物。基于所确定的病况水平,可以制定治疗计划以降低对对象的损害风险。方法还可以包括根据治疗计划治疗对象。
可以在不同的时间点获得生物样品,并且在那些时间点独立地分析,或者与在其它时间点的测量和分类相结合。这样的时间点的实例包括癌症治疗(例如靶向疗法、免疫疗法、化疗、手术)之前和之后,癌症诊断后的不同时间点,癌症进展之前和之后,转移发展之前和之后,疾病严重程度增加之前和之后,或者并发症发展之前和之后。
如上所述,机器学习模型可以用于确定疾病水平。示例模型可以包括但不限于线性回归、逻辑回归、神经网络如深度递归神经网络、贝叶斯分类器、隐马尔可夫模型(HMM)、线性判别分析(LDA)、k均值聚类、基于密度的带噪声的应用的空间聚类(DBSCAN)、决策树(例如,随机森林)和支持向量机(SVM)。
所述模型可以包括监督学习模型。监督学习模型可以包括不同的方法和算法,其包括分析学习,人工神经网络,反向传播,提升(元算法),贝叶斯统计,基于案例的推理,决策树学习,归纳逻辑编程,高斯过程回归,遗传编程,数据处理的分组方法,内核估计器,自动学习机,学习分类器系统,最小消息长度(决策树、决策图等),多线性子空间学习,朴素贝叶斯分类器,最大熵分类器,条件随机场,最近邻算法,概率近似正确学习(PAC)学习,涟波下降规则,知识获取方法,符号机器学习算法,子符号机器学习算法,支持向量机,最小复杂度机器(MCM),随机森林,分类器的集成,有序分类,数据预处理,处理不平衡数据集,统计关系学习或Proaftn(一种多准则分类算法)。
III.示例系统
图40说明了根据本公开内容的实施方案的测量系统4000。所示系统包括样品4005,如样品保持器4010内的无细胞DNA分子,其中样品4005可以与分析器4008接触以提供物理特征4015的信号。样品保持器的实例可以是流动池,其包括分析器的探针和/或引物或液滴通过其移动的管(液滴包括于分析器中)。通过检测器4020检测来自样品的物理特征4015(如荧光强度、电压或电流)。检测器4020可以间隔地(例如,周期性间隔)进行测量以获得组成数据信号的数据点。在一个实施方案中,模数转换器多次将来自检测器的模拟信号转换成数字形式。样品保持器4010和检测器4220可以形成测定装置,例如,根据本文所述的实施方案进行测序的测序装置。数据信号4025从检测器4020发送到逻辑系统4030。数据信号4025可以存储在局部存储器4035、外部存储器4040或存储装置4045中。
逻辑系统4030可以是或可以包括计算机系统、ASIC、微处理器等。其还可以包括显示器(例如监测器、LED显示器等)和用户输入装置(例如鼠标、键盘、按钮等)或与其耦接。逻辑系统4030和其它组件可以是独立或网络连接的计算机系统的一部分,或者其可以直接连接或整合在包括检测器4020和/或样本保持器4010的装置(例如,测序装置)中。逻辑系统4030还可以包括在处理器4050中执行的软件。逻辑系统4030可以包括存储用于控制系统4000执行本文所述的任何方法的指令的计算机可读介质。例如,逻辑系统4030可以向包括样本保持器4010的系统提供命令,从而执行测序或其它物理操作。这样的物理操作可以以特定的顺序进行,例如,以特定的顺序加入和除去试剂。这种物理操作可以由机器人系统执行,例如,包括机器人臂,其可以用于获得样品和执行分析。
本文中提及的任何计算机系统都可以利用任何合适数目的子系统。这类子系统的实例显示于计算机系统10中的图41中。在一些实施方案中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的组件。在其它实施方案中,计算机系统可以包括具有内部组件的多个计算机设备,每个计算机设备是子系统。计算机系统可以包括桌面计算机和膝上型计算机、平板计算机、移动电话和其它移动装置。
图41中显示的子系统经由系统总线75互连。显示另外的子系统,如打印机74、键盘78、存储装置79、与显示适配子82耦接的监测器76(例如,显示屏,如LED)等。耦接到I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域中已知的任何数目的装置,如输入/输出(I/O)端口77(例如USB、)连接到计算机系统。举例来说,I/O端口77或外部接口81(例如以太网、Wi-Fi等)可以用于将计算机系统10连接到广域网,如因特网、鼠标输入装置或扫描仪。经由系统总线75的互连允许中央处理器73与每个子系统通信并且控制来自系统存储器72或存储装置79(例如固定磁盘,如硬盘驱动器或光盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储装置79可以体现为计算机可读介质。另一种子系统是数据收集装置85,如相机、麦克风、加速计等。本文中提及的任何数据可以从一个组件输出到另一个组件且可以输出到用户。
计算机系统可以包括例如通过外部接口81、通过内部接口或经由可移动存储装置(其可从一个组件连接到另一个组件并从其移除)连接在一起的多个相同组件或子系统。在一些实施方案中,计算机系统、子系统或设备可以通过网络进行通信。在这类情况下,一个计算机可以视为客户端且另一个计算机视为服务器,其中每一个可以是同一个计算机系统的一部分。客户端和服务器可以各自包含多个系统、子系统或组件。
实施方案的各方面可以按使用硬件电路的控制逻辑(例如专用集成电路或现场可编程门阵列)形式实施,和/或借助于通用可编程处理器使用计算机软件以模块或集成的方式实施。如本文中所用的,处理器可以包括单核处理器、在同一集成芯片上的多核处理器,或在单个电路板上或网络化的多个处理单元以及专用硬件。基于本文中提供的公开和教导,本领域技术人员将知晓和理解使用硬件以及硬件和软件的组合实施本公开内容的实施方案的其它方式和/或方法。
本申请中描述的任何软件组件或功能可以实施为使用任何合适的计算机语言(例如Java、C、C++、C#、Objective-C、Swift)或脚本语言(如Perl或Python),使用例如传统或面向对象技术由处理器执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。合适的非暂时性计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘等磁性媒体或者如光盘(CD)或DVD(数字通用光盘)或蓝光光盘的光学介质、闪存等。计算机可读介质可以是这类存储或传输装置的任何组合。
这类程序还可以使用适合于通过符合多种协议的有线、光学和/或无线网络(包括因特网)传送的载波信号来编码和传输。因此,计算机可读介质可以使用以这类程序编码的数据信号产生。以程序代码编码的计算机可读介质可以与兼容装置一起封装或与其它装置分开提供(例如,通过因特网下载)。任何这类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器,CD或整个计算机系统)之上或之内,并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括监视器、打印机,或用于向用户提供本文中提及的任何结果的其它适合的显示器。
本文中所描述的任何方法可以完全或部分用计算机系统执行,所述计算机系统包括一个或多个处理器,所述处理器可以经配置以执行所述步骤。因此,实施方案可以涉及经配置以执行本文中所描述的任何方法的步骤的计算机系统,所述计算机系统可能具有用于执行各步骤或各步骤组的不同组件。尽管以编号的步骤呈现,但本文中的方法的步骤可以同时或不同时或按不同的顺序执行。此外,一部分这些步骤可以与其它方法的一部分其它步骤一起使用。并且,所有或一部分步骤可以是任选的。此外,任何方法中的任何步骤可以借助于用于执行这些步骤的模块、单元、电路或其它方法执行。
在不脱离本公开内容实施方案的精神和范围的情况下,特定实施方案的具体细节可以以任何合适的方式组合。然而,本公开内容的其它实施方案可涉及与每个单独方面或这些单独方面的具体组合相关的具体实施方案。
为了说明和描述的目的,已经呈现了本公开内容的示例实施方案的上述描述。并不是要穷举或将本公开内容限制于所描述的精确形式,并且根据以上教导,许多修改和变化是可能的。
除非特别指出相反,否则“一个/一种(a)”、“一个/一种(an)”或“所述”的表述旨在表示“一个或多个/一种或多种”。除非特别指出相反,否则“或”的使用旨在表示“逻辑或”,而不是“互斥或”。提及“第一”部件不一定要求提供第二部件。此外,除非明确说明,否则提及“第一”或“第二”组件并不将所提及的组件限制到特定位置。术语“基于”旨在表示“至少部分基于”。
本文提及的所有专利、专利申请、出版物和描述通过引用并入用于所有目的。任一个均未被认为是现有技术。