首页 > 化学装置 专利正文
CRISPR-Cas效应子多肽及其使用方法与流程

时间:2022-02-17 阅读: 作者:专利查询

CRISPR-Cas效应子多肽及其使用方法与流程
crispr-cas效应子多肽及其使用方法
1.交叉引用
2.本技术要求2019年3月7日提交的美国临时专利申请号62/815,179的权益,所述申请以引用方式整体并入本文。
3.引言
4.crispr-cas系统包括cas蛋白和一种或多种指导rna,所述cas蛋白参与外源dna或rna的获取、靶向和切割,所述一种或多种指导rna包括结合cas蛋白的区段和结合靶核酸的区段。例如,2类crispr-cas系统包含与指导rna结合的单个cas蛋白,其中cas蛋白结合并切割所靶向核酸。这些系统的可编程性质有利于它们用作一种用于靶核酸修饰中的多功能技术。


技术实现要素:

5.本公开提供rna指导的crispr-cas效应子蛋白、编码所述rna指导的crispr-cas效应子蛋白的核酸,以及包含所述rna指导的crispr-cas效应子蛋白或所述核酸的组合物。本公开提供核糖核蛋白复合物,所述核糖核蛋白复合物包含:本公开的rna指导的crispr-cas效应子蛋白;和指导rna。本公开提供使用本公开的rna指导的crispr-cas效应子蛋白和指导rna修饰靶核酸的方法。
附图说明
6.图1a示出本研究中的完整噬菌体基因组、最近从相同样品的一个子组中报告的lak噬菌体和参考来源(来自refseq v92的所有dsdna基因组和来自(paez-espino等人(2016)nature 536:425)的》200kb的非人工组件)的大小分布。
7.图1b示出本研究中基因组》200kb的噬菌体、lak和参考基因组的基因组大小分布的直方图。每个基因组的trna计数作为基因组大小的函数的盒须图。
8.图2示出使用来自本研究的巨大噬菌体基因组的末端酶序列和相关数据库序列构建的系统发育树。树的彩色区域指示噬菌体的大型进化枝,所有这些进化枝都具有巨大的基因组。
9.图3示出说明噬菌体编码的能力如何重定向宿主的翻译系统以产生噬菌体蛋白的模型。没有巨大噬菌体具有所有这些基因,但许多噬菌体具有trna(三叶草形状)和trna合成酶(aars)。具有多达6个核糖体蛋白s1结构域的噬菌体蛋白出现在少数基因组中。s1与mrna结合,将其带入核糖体上其被解码的位点。核糖体蛋白s21(s21)可能选择性地启动噬菌体mrna的翻译,并且许多序列具有可能参与结合rna的n末端延伸(核糖体插入物中的虚线,它基于pdb代码6bu8和pmid:29247757,用于核糖体和s1结构模型)。一些噬菌体具有起始因子(if)和延伸因子g(ef g),一些噬菌体具有rpl7/l12,可介导高效核糖体结合。缩写:rna pol,rna聚合酶。
10.图4a示出涉及crispr靶向的细菌-噬菌体相互作用(细胞图)。
11.图4b示出相互作用网络,显示靶向细菌(从上到下:seq id no:49-50)和噬菌体编
码(从上到下:seq id no:49-50)的crispr间隔序列。
12.图5示出噬菌体和一些具有》200kbp基因组的质粒的生态系统,按采样点类型分组。每个框代表一个噬菌体基因组,框按基因组大小递减的顺序排列;每个采样点类型的大小范围列在右边。彩色指示基于基因组系统发育图谱的推定宿主门,经crispr靶向(x)或信息系统基因系统发育分析(t)确认。
13.图6a至图6bb提供本公开的crispr-cas效应子多肽的实例的氨基酸序列(从上到下:seq id no:51-97)。
14.图7a至图7d提供crispr-cas效应子指导rna的恒定区部分的核苷酸序列(从上到下:seq id no:98-116)。
15.图8提供crispr-cas效应子多肽的氨基酸序列比对(从上到下:seq id no:117-187)。
16.图9提供crispr-cas效应子多肽的氨基酸序列(seq id no:188)。
17.图10提供显示各种crispr-cas效应子蛋白家族的树状图。
18.定义
19.在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,此术语包括但不限于单链、双链或多链dna或rna、基因组dna、cdna、dna-rna杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。
[0020]“可杂交的”或“互补的”或“基本上互补的”意指核酸(例如rna、dna)包含这样的核苷酸序列,所述核苷酸序列使所述核酸能够在适当的体外和/或体内温度和溶液离子强度条件下,与另一核酸以序列特异性、反向平行方式(即,核酸特异性地结合互补核酸)非共价结合(即,形成沃森-克里克(watson-crick)碱基对和/或g/u碱基对)、“退火”或“杂交”。标准watson-crick碱基配对包括:腺嘌呤(a)与胸苷(t)配对,腺嘌呤(a)与尿嘧啶(u)配对,以及鸟嘌呤(g)与胞嘧啶(c)配对[dna,rna]。此外,对于两个rna分子(例如,dsrna)之间的杂交,以及对于dna分子与rna分子的杂交(例如,当dna靶核酸碱基与指导rna配对时,等):鸟嘌呤(g)也可与尿嘧啶(u)配对。例如,在trna反密码子与mrna中的密码子进行碱基配对的情形下,g/u碱基配对至少部分地负责遗传密码的简并性(即,冗余)。因此,在本公开的上下文中,鸟嘌呤(g)(例如,指导rna分子的dsrna双链体的g;与靶核酸碱基配对的指导rna的g,等)被认为是与尿嘧啶(u)和腺嘌呤(a)两者互补。例如,当可以在指导rna分子的dsrna双链体的给定核苷酸位置处制备g/u碱基对时,该位置不被认为是不互补的,而是替代地被认为是互补的。
[0021]
杂交和洗涤条件是众所周知的,并在sambrook,j.,fritsch,e.f.and maniatis,t.molecular cloning:a laboratory manual,第二版,cold spring harbor laboratory press,cold spring harbor(1989)中,特别是该参考文献中的第11章和表11.1中;和sambrook,j.和russell,w.,molecular cloning:a laboratory manual,第三版,cold spring harbor laboratory press,cold spring harbor(2001)中例示。温度和离子强度的条件决定了杂交的“严格性”。
[0022]
杂交需要两个核酸含有互补序列,但是碱基之间的错配是可能的。适合于两个核酸之间杂交的条件取决于核酸的长度和互补程度,核酸的长度和互补程度是本领域中众所
周知的变量。两个核苷酸序列之间的互补程度越大,则具有这些序列的核酸的杂交体的解链温度(tm)值越大。对于具有短链互补性(例如35个或更少个、30个或更少个、25个或更少个、22个或更少个、20个或更少个或18个或更少个核苷酸的互补性)的核酸之间的杂交,错配位置可能变得重要(参见sambrook等人,出处同上,11.7-11.8)。通常,可杂交核酸的长度为8个核苷酸或更多个(例如,10个核苷酸或更多个、12个核苷酸或更多个、15个核苷酸或更多个、20个核苷酸或更多个、22个核苷酸或更多个、25个核苷酸或更多个或30个核苷酸或更多个)。可根据诸如互补区域的长度和互补程度之类的因素,而根据需要调节温度、洗涤溶液盐浓度和其他条件。
[0023]
应当理解,多核苷酸的序列不需要与其可特异性杂交或可杂交的靶核酸的序列100%互补。此外,多核苷酸可以在一个或多个区段上杂交,使得插入或相邻区段不参与杂交事件(例如,凸起、环结构或发夹结构等)。多核苷酸可包含与其将杂交的靶核酸序列内的靶区域60%或更多、65%或更多、70%或更多、75%或更多、80%或更多、85%或更多、90%或更多、95%或更多、98%或更多、99%或更多、99.5%或更多或100%的序列互补性。例如,这样的反义核酸将代表百分之90的互补性,在所述反义核酸中,反义化合物的20个核苷酸中的18个与靶区域互补并因此与靶区域特异性杂交。在该实例中,剩余的非互补核苷酸可以与互补核苷酸成簇或散布,并且不需要彼此邻接或与互补核苷酸邻接。可使用任何方便的方法确定核酸内的特定核酸序列段之间的互补百分比。示例性方法包括blast程序(基本局部比对搜索工具)和powerblast程序(altschul等人,j.mol.biol.,1990,215,403-410;zhang和madden,genome res.,1997,7,649-656);例如使用默认设置的gap程序(wisconsin序列分析包,version 8for unix,genetics computer group,university research park,madiso n wis.),所述程序使用smith和waterman算法(adv.appl.math.,1981,2,482-489);等等。
[0024]
术语“肽”、“多肽”和“蛋白质”在本文中可互换使用,并且是指具有任何长度的氨基酸的聚合形式,其可包括编码和非编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸,以及具有修饰的肽骨架的多肽。
[0025]
如本文所用的“结合”(例如,参照多肽的rna结合结构域、与靶核酸结合等)是指大分子之间的非共价相互作用(例如,蛋白质与核酸之间的非共价相互作用;在crispr-cas效应子多肽/指导rna复合物和靶核酸之间的非共价相互作用;等等)。当处于非共价相互作用状态时,大分子被称为“缔合的”或“相互作用”或“结合”(例如,当分子x被称为与分子y相互作用时,则意味着分子x以非共价方式与分子y结合)。并非结合相互作用的所有组分都需要是序列特异性的(例如,与dna骨架中的磷酸残基接触),但结合相互作用的一些部分可以是序列特异性的。结合相互作用的特征通常在于解离常数(kd)小于10-6
m、小于10-7
m、小于10-8
m、小于10-9
m、小于10-10
m、小于10-11
m、小于10-12
m、小于10-13
m、小于10-14
m,或小于10-15
m。“亲和力”是指结合强度,增加的结合亲和力与较低的kd相关。
[0026]“结合结构域”是指能够与另一分子非共价结合的蛋白结构域。结合结构域可以与例如dna分子(dna结合结构域)、rna分子(rna结合结构域)和/或蛋白分子(蛋白结合结构域)结合。在具有蛋白结合结构域的蛋白的情况下,所述蛋白在一些情况下可以与其自身结合(以形成同源二聚体、同源三聚体等)和/或所述蛋白可以与一个或多个不同蛋白的一个或多个区域结合。
[0027]
术语“保守氨基酸取代”是指蛋白质中具有相似侧链的氨基酸残基的的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;具有酸性侧链的一组氨基酸由谷氨酸和天冬氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸-甘氨酸和天冬酰胺-谷氨酰胺。
[0028]
多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时所述碱基或氨基酸处于相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性,可使用各种方便方法和计算机程序(例如,blast、t-coffee、muscle、maff t等)比对序列,所述方法和计算机程序可通过万维网在包括ncbi.nl m.nili.gov/blast、ebi.ac.uk/tools/msa/tcoffee/、ebi.ac.uk/tools/msa/muscle/、mafft.cbrc.jp/alignment/software/的网站处获得。参见例如alts chul等人(1990),j.mol.bioi.215:403-10。
[0029]“编码”特定rna的dna序列是转录成rna的dna核苷酸序列。dna多核苷酸可编码转化为蛋白质的rna(mrna)(因此dna和mrna两者均编码蛋白质),或者dna多核苷酸可编码未翻译成蛋白质的rna(例如trna、rrna、微小rna(mirna)、“非编码”rna(ncrna)、指导rna等)。
[0030]“蛋白质编码序列”或编码特定蛋白质或多肽的序列是当置于适当调控序列的控制下时转录成mrna(在dna的情况下)并且在体外或体内翻译(在mrna的情况下)成多肽的核苷酸序列。
[0031]
在本文中可互换使用的术语“dna调控序列”、“控制元件”和“调控元件”是指转录和翻译控制序列,诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等,所述转录和翻译控制序列提供和/或调节非编码序列(例如,指导rna)或编码序列(例如,rna指导的核酸内切酶、geocas9多肽、geocas9融合多肽等)的转录,和/或调节所编码多肽的翻译。
[0032]
如本文所用,“启动子”或“启动子序列”是能够结合rna聚合酶并启动下游(3'方向)编码或非编码序列的转录的dna调控区。出于本公开的目的,启动子序列在其3'末端处由转录起始位点结合并向上游(5'方向)延伸,以包含以高于背景的可检测水平起始转录所必需的最少数量的碱基或元件。在启动子序列内将发现转录起始位点,以及负责结合rna聚合酶的蛋白结合结构域。真核启动子通常将(但不总是)包含“tata”盒和“cat”盒。包括诱导型启动子在内的各种启动子可用于驱动本公开的各种载体的表达。
[0033]
如本文所用,应用于核酸、多肽、细胞或生物体的术语“天然存在的”或“未修饰的”或“野生型”是指存在于自然界中的核酸、多肽、细胞或生物体。例如,存在于生物体中的可从自然界中的来源分离的多肽或多核苷酸序列是天然存在的。
[0034]
如本文所用,应用于核酸或多肽的术语“融合”是指由衍生自不同来源的结构限定的两种组分。例如,当在融合多肽(例如,融合crispr-cas效应子蛋白)的情形下使用“融合”时,融合多肽包括衍生自不同多肽的氨基酸序列。融合多肽可包含修饰的或天然存在的多肽序列(例如,来自修饰或未修饰的crispr-cas效应子蛋白的第一氨基酸序列;和来自除
crispr-cas效应子蛋白之外的修饰或未修饰的蛋白质的第二氨基酸序列等)。类似地,在编码融合多肽的多核苷酸的情形下的“融合”包括衍生自不同编码区的核苷酸序列(例如,编码修饰或未修饰的crispr-cas效应子蛋白的第一核苷酸序列;和编码除crispr-cas效应子蛋白之外的多肽的第二核苷酸序列)。
[0035]
术语“融合多肽”是指通常通过人干预,通过组合(即,“融合”)氨基酸序列的两个另外分开的区段而制得的多肽。
[0036]
如本文所用,“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,在一些情况下,在本公开的变体crispr-cas效应子蛋白中,天然存在的crispr-cas效应子多肽(或其变体)的一部分可与异源多肽(即,来自除crispr-cas效应子多肽之外的蛋白质的氨基酸序列或来自另一种生物体的氨基酸序列)融合。作为另一个实例,融合crispr-cas效应子多肽可包含与异源多肽(即,来自除crispr-cas效应子多肽之外的蛋白质的多肽或来自另一种生物体的多肽)融合的天然存在的crispr-cas效应子多肽(或其变体)的全部或一部分。异源多肽可表现出也将由变体crispr-cas效应子蛋白或融合crispr-cas效应子蛋白表现出的活性(例如,酶活性)(例如,生物素连接酶活性;核定位等)。异源核酸序列可与天然存在的核酸序列(或其变体)连接(例如,通过基因工程化)以产生编码融合多肽(融合蛋白)的核苷酸序列。
[0037]
如本文所用,“重组”意指特定核酸(dna或rna)是克隆、限制、聚合酶链式反应(pcr)和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。编码多肽的dna序列可由cdna片段或由一系列合成寡核苷酸组装,以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组dna还可用于重组基因或转录单元的形成中。非翻译dna的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操纵或表达,并且实际上可通过各种机制起到调节所需产物的产生的作用(参见“dna调控序列”)。或者,编码未翻译的rna(例如,指导rna)的dna序列也可被认为是重组的。因此,例如术语“重组”核酸是指非天然存在的多核苷酸或核酸,例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。通常进行这种操作以用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子替换密码子。可替代地,执行这种操作以将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。当重组多核苷酸编码多肽时,所编码的多肽的序列可以是天然存在的(“野生型”)或者可以是天然存在的序列的变体(例如,突变体)。这种情况的一个实例是编码野生型蛋白的dna(重组体),其中dna序列经密码子优化以在所述蛋白以非天然形式所在的细胞(例如,真核细胞)中表达所述蛋白(例如,在真核细胞中表达crispr/cas rna指导的多肽诸如crispr-cas效应子(例如,野生型crispr-cas效应子;变体crispr-cas效应子;融合crispr-cas效应子;等))。因此,密码子优化的dna可以是重组的和非天然存在的,而由dna编码的蛋白质可能具有野生型氨基酸序列。
[0038]
因此,术语“重组”多肽未必是指其氨基酸序列不是天然存在的多肽。相反,“重组”多肽由重组的非天然存在的dna序列编码,但多肽的氨基酸序列可以是天然存在的(“野生
型”)或非天然存在的(例如,变体、突变体等)。因此,“重组”多肽是人工干预的结果,但可具有天然存在的氨基酸序列。
[0039]“载体”或“表达载体”是复制子,诸如质粒、噬菌体、病毒、人工染色体或粘粒,另一dna区段(即“插入物”)可附接至所述复制子以便引起所附接区段在细胞中的复制。
[0040]“表达盒”包含与启动子可操作地连接的dna编码序列。“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如,如果启动子影响编码序列的转录或表达,则启动子与编码序列可操作地连接(或者编码序列也可被称为与启动子可操作地连接)。
[0041]
术语“重组表达载体”或“dna构建体”在本文中可互换使用,以指代包含载体和插入物的dna分子。通常产生重组表达载体以用于表达和/或增殖一个或多个插入物的目的,或用于构建其他重组核苷酸序列的目的。所述一个或多个插入物可以或可以不与启动子序列可操作地连接,并且可以或可以不与dna调控序列可操作地连接。
[0042]
当这种dna引入到细胞内部时,细胞被外源dna或外源rna例如重组表达载体“遗传修饰”或“转化”或“转染”。外源dna的存在导致永久或瞬时的遗传变化。转化dna可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中,转化dna可维持在游离元件诸如质粒上。相对于真核细胞,稳定转化的细胞为其中转化dna逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化dna的子细胞群的细胞系或克隆的能力来展示。“克隆”是通过有丝分裂衍生自单个细胞或共同祖先的一群细胞。“细胞系”是能够在体外稳定生长许多代的原代细胞的克隆。
[0043]
遗传修饰(也称为“转化”)的合适方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,panyam等人adv drug deliv rev.2012年9月13日.pii:s0169-409x(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0044]
遗传修饰方法的选择一般取决于待转化的细胞类型和发生转化所在的环境(例如,体外、离体或体内)。这些方法的一般讨论可见于ausubel等人,short protocols in molecular biology,第3版,wiley&sons,1995中。
[0045]
如本文所用,“靶核酸”是包括由rna指导的核酸内切酶多肽(例如,野生型crispr-cas效应子;变体crispr-cas效应子;融合crispr-cas效应子;等)靶向的位点(“靶位点”或“靶序列”)的多核苷酸(例如,dna诸如基因组dna)。靶序列是主题crispr-cas效应子指导rna(例如,双crispr-cas效应子指导rna或单分子crispr-cas效应子指导rna)的指导序列将与之杂交的序列。例如,靶核酸内的靶位点(或靶序列)5'-gagcauauc-3'被序列5
’‑
gauaugcuc-3’靶向(或被其结合,或与其杂交或互补)。合适的杂交条件包括正常存在于细胞中的生理条件。对于双链靶核酸,与指导rna互补并杂交的靶核酸的链被称为“互补链”或“靶链”;而与“靶链”互补(并因此不与指导rna互补)的靶核酸的链被称为“非靶链”或“非互补链”。
[0046]“切割”意指靶核酸分子(例如,rna、dna)的共价骨架的断裂。可通过多种方法来开始切割,所述方法包括但不限于磷酸二酯键的酶水解或化学水解。单链切割和双链切割均
是可能的,并且双链切割可由于两个相异单链切割事件而发生。
[0047]“核酸酶”和“核酸内切酶”在本文中可互换使用,意指具有用于核酸切割的催化活性的酶(例如,核糖核酸酶活性(核糖核酸切割)、脱氧核糖核酸酶活性(脱氧核糖核酸切割)等)。
[0048]
核酸酶的“切割结构域”或“活性结构域”或“核酸酶结构域”意指具有用于核酸切割的催化活性的核酸酶内的多肽序列或结构域。切割结构域可包含在单个多肽链中或切割活性可由两个(或更多个)多肽的缔合引起。单个核酸酶结构域可由给定多肽内的多于一个分离的氨基酸段组成。
[0049]
术语“干细胞”在本文中用于指代具有自我更新和产生分化的细胞类型的能力的细胞(例如,植物干细胞、脊椎动物干细胞)(参见morrison等人(1997)cell 88:287-298)。在细胞个体发育的情形下,形容词“被分化的”或“分化的”为相对术语。“分化的细胞”是比与其比较的细胞在发育途径上更进一步向下发展的细胞。因此,多能干细胞(以下所述)可分化成谱系限制的祖细胞(例如,中胚层干细胞),所述祖细胞又可分化成进一步限制的细胞(例如,神经元祖细胞),所述细胞可分化成末期细胞(即,终止分化的细胞,例如神经元、心肌细胞等),所述末期细胞在某些组织类型中起特征性作用,并且可以或可以不保持进一步增殖的能力。干细胞的特征可在于存在特异性标志物(例如,蛋白质、rna等)和不存在特异性标志物。干细胞还可通过体外和体内的功能测定,具体地与干细胞产生多个分化子代的能力相关的测定来鉴定。
[0050]
目标干细胞包括多能干细胞(psc)。术语“多能干细胞”或“psc”在本文中用于意指能够产生生物体的所有细胞类型的干细胞。因此,psc可产生生物体的所有生殖层(例如,脊椎动物的内胚层、中胚层和外胚层)的细胞。多能细胞能够形成畸胎瘤并且对活生物体中的外胚层、中胚层或内胚层组织有影响。植物的多能干细胞能够产生植物的所有细胞类型(例如,根、茎、叶等的细胞)。
[0051]
可以许多不同方式得到动物的psc。例如,胚胎干细胞(esc)衍生自胚胎的内细胞团(thomson等人,science.1998年11月6日;282(5391):1145-7),而诱导型多能干细胞(ipsc)衍生自体细胞(takahashi等人,cell.2007年11月30日;131(5):861-72;takahashi等人,nat protoc.2007;2(12):3081-9;yu等人,science.2007年12月21日;318(5858):1917-20.epub 2007年11月20日)。因为术语psc是指无论其来源的多能干细胞,所以术语psc涵盖术语esc和ipsc以及术语胚胎生殖干细胞(egsc),所述胚胎生殖干细胞是psc的另一个实例。psc可以建立的细胞系形式存在,它们可直接从原代胚胎组织获得或者它们可衍生自体细胞。psc可以是本文所述方法的靶细胞。
[0052]“胚胎干细胞”(esc)意指从胚胎,通常从胚泡的内细胞群分离的psc。esc系列于nih human embryonic stem cell registry中,例如hesbgn-01、hesbgn-02、hesbgn-03、hesbgn-04(bresagen,inc.);hes-1、hes-2、hes-3、hes-4、hes-5、hes-6(es cell international);miz-hes1(mizmedi hospital-seoul national university);hsf-1、hsf-6(university of california,san francisco)以及h1、h7、h9、h13、h14(wisconsin alumni research foundation(wicell research institute))。目标干细胞还包括来自其他灵长类动物的胚胎干细胞,诸如恒河猴干细胞和狨猴干细胞。干细胞可获自任何哺乳动物种类,诸如人、马、牛、猪、犬、猫、啮齿动物(例如,小鼠、大鼠、仓鼠)、灵长类动物等。
(thomson等人(1998)science 282:1145;thomson等人(1995)proc.natl.acad.sci usa 92:7844;thomson等人(1996)biol.reprod.55:254;shamblott等人,proc.natl.acad.sci.usa 95:13726,1998)。在培养中,esc通常呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。此外,esc表达ssea-3、ssea-4、tra-1-60、tra-1-81和碱性磷酸酶,但不表达ssea-1。产生和表征esc的方法的实例可见于例如美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806中,所述专利的公开内容以引用方式并入本文。用于以未分化的形式增殖hesc的方法描述于wo99/20741、wo 01/51616和wo 03/020920中。
[0053]“胚胎生殖干细胞(egsc)”或“胚胎生殖细胞”或“eg细胞”意指衍生自生殖细胞和/或生殖细胞祖细胞(例如原生殖细胞,即将变为精子和卵子的原生殖细胞)的psc。认为胚胎生殖细胞(eg细胞)具有类似于如上所述的胚胎干细胞的性质。产生和表征eg细胞的方法的实例可见于例如美国专利号7,153,684;matsui,y.等人,(1992)cell 70:841;shamblott,m.等人(2001)proc.natl.acad.sci.usa 98:113;shamblott,m.等人(1998)proc.natl.acad.sci.usa,95:13726;以及koshimizu,u.等人(1996)development,122:1235中,所述参考文献的公开内容以引用方式并入本文。
[0054]“诱导型多能干细胞”或“ipsc”意指衍生自不是psc的细胞(即,衍生自相对于psc分化的细胞)的psc。ipsc可衍生自多种不同细胞类型,包括终止分化的细胞。ipsc具有es细胞样形态,呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。另外,ipsc表达本领域普通技术人员已知的一种或多种主要多能标志物,包括但不限于碱性磷酸酶、ssea3、ssea4、sox2、oct3/4、nanog、tra160、tra181、tdgf 1、dnmt3b、foxd3、gdf3、cyp26a1、tert和zfp42。产生和表征ipsc的方法的实例可见于例如美国专利公布号us20090047263、us20090068742、us20090191159、us20090227032、us20090246875和us20090304646中,所述专利的公开内容以引用方式并入本文。通常,为了产生ipsc,向体细胞提供本领域中已知的重新编程因子(例如oct4、sox2、klf4、myc、nanog、lin28等)以将体细胞重新编程变为多能干细胞。
[0055]“体细胞”意指生物体中的任何细胞,所述细胞在不存在实验操纵的情况下通常不产生生物体中的所有类型的细胞。换句话讲,体细胞是已足够分化的细胞,它们将不天然地产生身体的所有三个生殖层(即外胚层、中胚层和内胚层)的细胞。例如,体细胞将包括神经元和神经祖细胞,后者神经祖细胞可能够天然产生中枢神经系统的所有或一些细胞类型但不能产生中胚层或内胚层谱系的细胞。
[0056]“有丝分裂细胞”意指经历有丝分裂的细胞。有丝分裂是真核细胞将其细胞核中的染色体分到两个分开细胞核中的两个相同集合中的过程。通常紧接着是胞质分裂,胞质分裂将细胞核、细胞质、细胞器官和细胞膜分到含有粗略相等共有这些细胞组分的两个细胞中。
[0057]“有丝分裂后细胞”意指退出有丝分裂的细胞,即其为“静止的”,即它不再经历分裂。这种静止状态可为瞬时的,即可逆的,或其可为永久的。
[0058]“减数分裂细胞”意指经历减数分裂的细胞。减数分裂是细胞出于产生配子或孢子的目的分配其核物质的过程。不像有丝分裂,在减数分裂中,染色体经历在染色体之间混乱遗传物质的重组步骤。另外,与由有丝分裂产生的两个(遗传相同的)二倍体细胞相比,减数
分裂的结果是四个(遗传独特的)单倍体细胞。
[0059]
在一些情况下,组分(例如,核酸组分(例如,crispr-cas效应子指导rna);蛋白质组分(例如,野生型crispr-cas效应子多肽;变体crispr-cas效应子多肽;融合crispr-cas效应子多肽等);等等)包括标记部分。如本文所用,术语“标记”、“可检测标记”或“标记部分”是指提供信号检测的任何部分,并且可根据测定的特定性质而广泛变化。目标标记部分包括可直接检测的标记(直接标记;例如荧光标记)和间接可检测的标记(间接标记;例如结合对成员)。荧光标记可以是任何荧光标记(例如,荧光染料(例如,荧光素、德克萨斯红、罗丹明、标记等)、荧光蛋白(例如,绿色荧光蛋白(gfp)、增强型gfp(egfp)、黄色荧光蛋白(yfp)、红色荧光蛋白(rfp)、青色荧光蛋白(cfp)、樱桃、番茄、橘子以及它们的任何荧光衍生物)等)。用于所述方法中的合适的可检测(直接或间接)标记部分包括可通过光谱、光化学、生物化学、免疫化学、电学、光学、化学或其他方式检测的任何部分。例如,合适的间接标记包括生物素(结合对成员),其可被链霉抗生物素蛋白(其本身可被直接或间接标记)结合。标记还可包括:放射性标记(直接标记)(例如,3h、
125
i、
35
s、
14
c或
32
p);酶(间接标记)(例如,过氧化物酶、碱性磷酸酶、半乳糖苷酶、荧光素酶、葡萄糖氧化酶等);荧光蛋白(直接标记)(例如,绿色荧光蛋白、红色荧光蛋白、黄色荧光蛋白以及它们的任何适宜衍生物);金属标记(直接标记);比色标记;结合对成员;等等。“结合对配偶体”或“结合对成员”是指第一部分和第二部分中的一者,其中第一部分和第二部分彼此具有特异性结合亲和力。合适的结合对包括但不限于:抗原/抗体(例如,地高辛/抗地高辛、二硝基苯基(dnp)/抗-dnp、丹酰-x-抗丹酰、荧光素/抗荧光素、荧光素黄/抗荧光素黄,以及罗丹明抗罗丹明)、生物素/抗生物素蛋白(或生物素/链霉抗生物素蛋白)和钙调素结合蛋白(cbp)/钙调素。任何结合对成员都适合用作可间接检测的标记部分。
[0060]
任何给定的部件或部件组合可以是未标记的,或者可用标记部分可检测地标记。在一些情况下,当标记两种或更多种组分时,它们可用彼此可区分的标记部分标记。
[0061]
一般的分子和细胞生物化学方法可在标准教科书中找到,所述标准教科书为诸如molecular cloning:a laboratory manual,第3版(sambrook等人,harbor laboratory press 2001);short protocols in molecular biology,第4版(ausubel等人编,john wiley&sons 1999);protein methods(bollag等人,john wiley&sons 1996);nonviral vectors for gene therapy(wagner等人编,academic press 1999);viral vectors(kaplift和loewy编,academic press 1995);immunology methods manual(i.lefkovits编,academic press 1997);以及cell and tissue culture:laboratory procedures in biotechnology(doyle和griffiths,john wiley&sons 1998),这些参考文献的公开内容以引用方式并入本文。
[0062]
如本文所用,术语“治疗(treatment)、治疗(treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”涵盖对哺乳动物(例如,人)的疾病的任何治疗,并且包括:(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;(b)抑制疾病,即阻止其发展;以及(c)缓解疾病,即引起疾病消退。
[0063]
在本文中可互换使用的术语“个体”、“受试者”、“宿主”和“患者”是指个体生物体,
例如哺乳动物,包括但不限于鼠类、猿、人、非人灵长类动物、有蹄类动物、猫科动物、犬科动物、牛、绵羊、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。
[0064]
在进一步描述本发明之前,应理解本发明不限于所述的具体实施方案,因此,当然也可有所变化。还应理解,本文所用的术语仅出于描述具体实施方案的目的,并且不意图具有限制性,因为本发明的范围将仅受所附权利要求限制。
[0065]
在提供值的范围的情况下,应理解此范围的上限与下限之间的各介入值(除非上下文另外清楚地指出,否则准确到下限的单位的十分之一),以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内,并且也涵盖在本发明内,从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下,排除那些所包括的限值中的任一个或两个的范围也包括在本发明内。
[0066]
除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中,但是现在描述优选的方法和材料。本文提及的所有出版物以引用方式并入本文,以结合所引用的出版物公开并描述方法和/或材料。
[0067]
必须指出,如在本文和所附权利要求中所用,单数形式“一个(a)/一种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指出。因此,例如,提及“crispr-cas效应子crispr-cas效应子多肽”包括多个此类多肽,并且提及“指导rna”包括提及本领域的技术人员已知的一种或多种指导rna及其等效物,等。还应注意,权利要求可拟订成排除任何任选的要素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。
[0068]
应理解,出于清晰目的而在单独的实施方案的上下文中描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简明而在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地且明确地公开一样。另外,各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地且明确地在本文中公开一样。
[0069]
本文中讨论的出版物仅仅提供它们在本技术的提交日期之前的公开内容。本文中的任何内容均不应解释为承认本发明无权借助在先发明而先于此类出版物。此外,所提供的出版日可能不同于可能需要独立确认的实际出版日期。
具体实施方式
[0070]
本公开提供rna指导的crispr-cas效应子蛋白(在本文中不同地称为“cas14i”多肽、“cas14j”多肽、“cas 14k”多肽等)、编码所述rna指导的crispr-cas效应子蛋白的核酸,以及所述包含rna指导的crispr-cas效应子蛋白和所述核酸的组合物。本公开提供核糖核蛋白复合物,所述核糖核蛋白复合物包含:本公开的crispr-cas效应子多肽;和指导rna。本公开提供使用本公开的crispr-cas效应子多肽和指导rna修饰靶核酸的方法。
[0071]
本公开提供与本公开的crispr-cas效应子蛋白结合并为其提供序列特异性的指导rna(在本文中称为“crispr-cas效应子指导rna”);编码所述crispr-cas效应子指导rna
的核酸;以及包含crispr-cas效应子指导rna和/或编码所述crispr-cas效应子指导rna的核酸的修饰宿主细胞。crispr-cas效应子指导rna可用于多种应用,本文提供了这些应用。
[0072]
组合物
[0073]
crispr/c
as
效应子蛋白和指导rna
[0074]
本公开的crispr-cas效应子多肽(例如,本公开的cas14i多肽;本公开的cas14j多肽;等)与对应的指导rna(例如,crispr-cas效应子指导rna)相互作用(结合)以形成核糖核蛋白(rnp)复合物,所述复合物通过指导rna与靶核酸分子内的靶序列之间的碱基配对被靶向至靶核酸中的特定位点。指导rna包括与靶核酸的序列(靶位点)互补的核苷酸序列(指导序列)。因此,本公开的crispr-cas效应子蛋白与crispr-cas效应子指导rna形成复合物,并且指导rna通过指导序列为rnp复合物提供序列特异性。复合物的crispr-cas效应子蛋白提供位点特异性活性。换句话讲,crispr-cas效应子蛋白由于其与指导rna的缔合而被导向至靶核酸序列(例如染色体序列或染色体外序列,例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如,稳定在靶位点)。
[0075]
本公开提供组合物,所述组合物包含crispr-cas效应子多肽(和/或包含编码crispr-cas效应子多肽的核苷酸序列的核酸)(例如,其中crispr-cas效应子多肽可以是天然存在的蛋白质、切口酶crispr-cas效应子蛋白、无催化活性的(“死的”crispr-cas效应子蛋白;在本文中也称为“dcrispr-cas效应子蛋白”);融合crispr-cas效应子蛋白等)。本公开提供组合物,所述组合物包含crispr-cas效应子指导rna(和/或包含编码crispr-cas效应子指导rna的核苷酸序列的核酸)。本公开提供组合物,所述组合物包含(a)crispr-cas效应子多肽(和/或编码crispr-cas效应子多肽的核酸)(例如,其中crispr-cas效应子多肽可以是天然存在的蛋白质、切口酶crispr-cas效应子蛋白、dcrispr-cas效应子蛋白、融合crispr-cas效应子蛋白等);和(b)crispr-cas效应子指导rna(和/或编码crispr-cas效应子指导rna的核酸)。本公开提供一种核酸/蛋白质复合物(rnp复合物),其包含:(a)本公开的crispr-cas效应子多肽(例如,其中crispr-cas效应子多肽可以是天然存在的蛋白质、切口酶crispr-cas效应子蛋白、cdas12j蛋白、融合crispr-cas效应子蛋白等);和(b)crispr-cas效应子指导rna。
[0076]
crispr-cas效应子蛋白
[0077]
crispr-cas效应子多肽(此术语与术语“crispr-cas效应子蛋白”可互换使用)可以结合和/或修饰(例如,切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如,组蛋白尾的甲基化或乙酰化)(例如,在一些情况下,crispr-cas效应子蛋白包括具有活性的融合配偶体,并且在一些情况下,crispr-cas效应子蛋白提供核酸酶活性)。在一些情况下,crispr-cas效应子蛋白是天然存在的蛋白质(例如,天然存在于噬菌体中)。在其他情况下,crispr-cas效应子蛋白不是天然存在的多肽(例如,crispr-cas效应子蛋白是变体crispr-cas效应子蛋白、融合crispr-cas效应子蛋白等)。
[0078]
确定给定蛋白质是否与crispr-cas效应子指导rna相互作用的测定可以是用于测试蛋白质与核酸之间的结合的任何适宜的结合测定。合适的结合测定(例如,凝胶迁移测定)是本领域普通技术人员已知的(例如,包括向靶核酸添加crispr-cas效应子指导rna和蛋白质的测定)。确定蛋白质是否具有活性(例如,确定蛋白质是否具有切割靶核酸的核酸酶活性和/或某些异源活性)的测定可以是任何适宜的测定(例如,测试核酸切割的任何适
宜的核酸切割测定)。合适的测定(例如,切割测定)是本领域普通技术人员已知的。
[0079]
天然存在的crispr-cas效应子蛋白充当核酸内切酶,催化靶向双链dna(dsdna)中特定序列的双链断裂。序列特异性由相关联的指导rna提供,所述指导rna与靶dna内的靶序列杂交。天然存在的crispr-cas效应子指导rna是crrna,其中crrna包括(i)与靶dna中的靶序列杂交的指导序列和(ii)包含与crispr-cas效应子蛋白结合的茎环(发夹-dsrna双链体)的蛋白结合区段。
[0080]
在一些实施方案中,主题方法和/或组合物的crispr-cas效应子蛋白是(或衍生自)天然存在的(野生型)蛋白质。图6a至图6bb中描绘了天然存在的crispr-cas效应子蛋白的实例。
[0081]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6a中描绘的且命名为“噬菌体cas14j_k87_9374247_16”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6a中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6a中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6a中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6a中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6a中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6a中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0082]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6b中描绘的且命名为“噬菌体cas14j_lacpavin_0818_wc40_支架_407201_205”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6b中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6b中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas
效应子蛋白包含与图6b中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6b中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6b中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6b中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0083]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6c中描绘的且命名为“噬菌体cas14j_bml_08042016_6_5m_支架_18_prodigal-single_54”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6c中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6c中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6c中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crisp r-cas效应子蛋白包含具有图6c中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6c中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6c中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0084]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6d中描绘的且命名为“ga0194119_1000113823”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6d中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6d中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6d中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、
cas效应子蛋白包含具有图6f中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6f中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6f中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0087]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6g中描绘的且命名为“ga0268285_10062095”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6g中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6g中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6g中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6g中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6g中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6g中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0088]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6h中描绘的且命名为“ga0066868_100162752”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6h中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6h中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6h中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6h中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些
情况下,主题crispr-cas效应子蛋白包含具有图6h中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6h中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0089]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6i中描绘的且命名为“噬菌体cas14_sr-vp_2-4_支架_141_2548329_92”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6i中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6i中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6i中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6i中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6i中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6i中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0090]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6j中描绘的且命名为“噬菌体cas14_sr-vp_4-6_支架_141_3640689_5”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6j中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6j中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6j中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6j中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6j中描
绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6j中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0091]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6k中描绘的且命名为“噬菌体cas14_rifsed”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6k中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6k中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6k中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6k中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6k中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6k中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0092]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6l中描绘的且命名为“噬菌体cas14_16ft_4_支架_2_465_16ft_4_噬菌体_29_13”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6l中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6l中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6l中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6l中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6l中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降
低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6l中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0093]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6m中描绘的且命名为“ga0116179_10109322”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6m中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6m中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6m中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6m中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6m中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6m中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0094]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6n中描绘的且命名为“ga0116179_10465782”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6n中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6n中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6n中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6n中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6n中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定
区包含图6n中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0095]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6o中描绘的且命名为“ga0134101_10165752”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6o中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6o中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6o中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6o中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6o中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6o中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0096]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6p中描绘的且命名为“ga0066665_100815632”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6p中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6p中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6p中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6p中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6p中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6p中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包
括靶结合序列,这取决于靶核酸。
[0097]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6q中描绘的且命名为“ga0224523_10070512”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6q中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6q中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6q中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6q中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6q中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6q中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0098]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6r中描绘的且命名为“ga0247839_10583994”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6r中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6r中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6r中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6r中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6r中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6r中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0099]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6s中描绘的且命名为“cas14u9|噬菌体cas14|lacpavin_0818_wc55_支架_56344_prodigal-single_16”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6s中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6s中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6s中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6s中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6s中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6s中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0100]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6t中描绘的且命名为“cas14u10|ga0153798_100522201”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6t中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6t中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6t中描绘的crispr-c as效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6t中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6t中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6t中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0101]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6u中描绘的且命名为“cas14u_vu_u11|rifcsplowo2_12_支架_23_prodigal-single_23”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6u中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,cr ispr-cas效应子蛋白包含与图6u中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6u中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6u中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6u中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6u中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0102]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6v中描绘的且命名为“cas14u_vu_u12|sr-vp_4-6_支架_141_2630357_509”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6v中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6v中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6v中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6v中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6v中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6v中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0103]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图
6w中描绘的且命名为“cas14u_vu_u13|gwd1_支架_1554_3”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6w中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6w中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6w中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6w中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6w中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6w中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0104]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6x中描绘的且命名为“cas14u_vu_u14|pig_f100_支架_13388_4”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6x中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6x中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6x中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6x中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6x中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6x中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0105]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6y中描绘的且命名为“cas14u_vu_u15|pig_id_3640_f65_支架_73762_2”的crispr-cas效
应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6y中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6y中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6y中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6y中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6y中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6y中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0106]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6z中描绘的且命名为“cas14u_vu_u16|pig_id_1851_f40_2_支架_55126_1”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6z中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6z中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6z中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6z中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6z中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6z中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0107]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6aa中描绘的且命名为“cas14u_vu_u17|pig_id_3784_f96_支架_13509_10”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或
更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6aa中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6aa中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6aa中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-ca s效应子蛋白包含具有图6aa中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6aa中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导rna,所述恒定区包含图6aa中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0108]
在一些情况下,(主题组合物和/或方法的)主题crispr-cas效应子蛋白包含与图6bb中描绘的且命名为“cas14u_vu_u18|srr1747065_支架_28”的crispr-cas效应子氨基酸序列具有20%或更高的序列同一性(例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。例如,在一些情况下,crispr-cas效应子蛋白包含与图6bb中描绘的crispr-cas效应子氨基酸序列具有50%或更高的序列同一性(例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6bb中描绘的crispr-cas效应子氨基酸序列具有80%或更高的序列同一性(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含与图6bb中描绘的crispr-cas效应子氨基酸序列具有90%或更高的序列同一性(例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性)的氨基酸序列。在一些情况下,crispr-cas效应子蛋白包含具有图6bb中描绘的crispr-cas效应子蛋白序列的氨基酸序列。在一些情况下,主题crispr-cas效应子蛋白包含具有图6bb中描绘的crispr-cas效应子蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。crispr-cas效应子蛋白可结合包含恒定区的指导r na,所述恒定区包含图6bb中描绘的核苷酸序列(t被u取代)或其反向互补物,其中指导rna可根据需要包括靶结合序列,这取决于靶核酸。
[0109]
在一些情况下,本公开的crispr-cas效应子蛋白具有约350个氨基酸(aa)至约550个氨基酸的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约350aa至约375aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约375aa至约400aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约390aa至约410aa的长度。在一些情况
下,本公开的crispr-cas效应子蛋白具有约400aa至约410aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约400aa至约450aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约410aa至约425aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约425aa至约450aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约450aa至约500aa的长度。在一些情况下,本公开的crispr-cas效应子蛋白具有约450aa至约475aa的长度。
[0110]
crispr-cas效应子变体
[0111]
变体crispr-cas效应子蛋白的氨基酸序列当与对应的野生型crispr-cas效应子蛋白的氨基酸序列相比时,例如,当与图6a至图6bb中任一者中所描绘的crispr-cas效应子氨基酸序列相比时,相差至少一个氨基酸(例如,具有缺失、插入、取代、融合)。在一些情况下,crispr-cas效应子变体与图6a至图6bb中任一者中所描绘的crispr-cas效应子氨基酸序列相比包含1个氨基酸取代至10个氨基酸取代。在一些情况下,crispr-cas效应子变体与图6a至图6bb中任一者中所描绘的crispr-cas效应子氨基酸序列相比在ruvc结构域中包含1个氨基酸取代至10个氨基酸取代。
[0112]
变体

催化活性
[0113]
在一些情况下,crispr-cas效应子蛋白是变体crispr-cas效应子蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性(例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低,或30%或更低的切割活性)。在一些情况下,这种变体crispr-cas效应子蛋白是催化

死’蛋白(基本上没有切割活性)并且可被称为

dcrispr-cas效应子’。在一些情况下,变体crispr-cas效应子蛋白是切口酶(仅切割双链靶核酸(例如,双链靶dna)的一条链)。如本文更详细描述的,在一些情况下,crispr-cas效应子蛋白(在一些情况下,是具有野生型切割活性的crispr-cas效应子蛋白,并且在一些情况下,是具有降低的切割活性的变体crispr-cas效应子,例如dcrispr-cas效应子或切口酶crispr-cas效应子)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白(融合crispr-cas效应子蛋白)。
[0114]
导致结合但不切割靶核酸的crispr-cas效应子多肽的氨基酸取代包括例如在cas14i、cas14k、cas14j或cas14u ruvc-1结构域和/或ruvc-ii结构域和/或ruvc-iii结构域中保守的氨基酸取代。图8提供了cas14i、cas14k、cas14j和cas14u氨基酸序列的氨基酸序列比对。示出了保守氨基酸。在一些情况下,本公开的crispr-cas效应子多肽包含以下一项或多项的氨基酸取代:i)对应于图9中所描绘氨基酸序列第258位asp的asp;ii)对应于图9中所描绘氨基酸序列第356位glu的glu;和iii)对应于图9中所描绘氨基酸序列第435位asp的asp。实例包括:i)图8中所描绘序列第236位的asp(例如,图8中cas14i_ga0066868-100162752的vgid序列中的asp,或另一crispr-cas效应子多肽中的对应位置;ii)图8中所描绘序列第332位的glu(例如,图8中cas14i_ga0066868-100162752的vavenl序列中的glu,或另一crispr-cas效应子多肽中的对应位置;和iii)图8中所描绘序列第415位的asp(例如,图8中cas14i_ga0066868-100162752的nadvnaa序列中的asp,或另一crispr-cas效应子多肽中的对应位置。
[0115]
变体

融合crispr-cas效应子多肽
[0116]
如上所述,在一些情况下,crispr-cas效应子蛋白(在一些情况下,是具有野生型切割活性的crispr-cas效应子蛋白,并且在一些情况下,是具有降低的切割活性的变体crispr-cas效应子,例如dcrispr-cas效应子或切口酶crispr-cas效应子)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白。crispr-cas效应子蛋白可与之融合的异源多肽在本文中被称为

融合配偶体’。
[0117]
在一些情况下,融合配偶体可调节靶dna的转录(例如,抑制转录、增加转录)。例如,在一些情况下,融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如,转录阻遏物,一种通过转录抑制蛋白的募集、靶dna的修饰诸如甲基化、dna修饰物的募集、与靶dna相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。在一些情况下,融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如,转录激活因子,一种通过转录激活蛋白的募集、靶dna的修饰诸如甲基化、dna修饰物的募集、与靶dna相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。
[0118]
在一些情况下,融合crispr-cas效应子蛋白包括具有修饰靶核酸的酶活性(例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、dna修复活性、dna损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。
[0119]
在一些情况下,融合crispr-cas效应子蛋白包括具有修饰与靶核酸相关联的多肽(例如,组蛋白)的酶活性(例如,甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。
[0120]
可用于增加转录的蛋白质(或其片段)的实例包括但不限于:转录激活因子,诸如vp16、vp64、vp48、vp160、p65亚结构域(例如,来自nfkb)以及edll的激活结构域和/或tal激活结构域(例如,针对植物中的活性);组蛋白赖氨酸甲基转移酶,诸如set1a、set1b、mll1至5、ash1、symd2、nsd1等;组蛋白赖氨酸脱甲基酶,诸如jhdm2a/b、utx、jmjd3等;组蛋白乙酰转移酶,诸如gcn5、pcaf、cbp、p300、taf1、tip60/plip、moz/myst3、morf/myst4、src1、actr、p160、clock等;以及dna脱甲基酶,诸如10-11易位(tet)双加氧酶1(tet1cd)、tet1、dme、dml1、dml2、ros1等。
[0121]
可用于减少转录的蛋白质(或其片段)的实例包括但不限于:转录阻遏物,诸如kr
ü
ppel相关盒(krab或skd);kox1阻遏结构域;mad msin3相互作用结构域(sid);erf阻遏物结构域(erd)、srdx阻遏结构域(例如,针对植物中的阻遏)等;组蛋白赖氨酸甲基转移酶,诸如pr-set7/8、suv4-20h1、riz1等;组蛋白赖氨酸脱甲基酶,诸如jmjd2a/jhdm3a、jmjd2b、jmjd2c/gasc1、jmjd2d、jarid1a/rbp2、jarid1b/plu-1、jarid1c/smcx、jarid1d/smcy等;组蛋白赖氨酸脱乙酰酶,诸如hdac1、hdac2、hdac3、hdac8、hdac4、hdac5、hdac7、hdac9、sirt1、sirt2、hdac11等;dna甲基化酶,诸如hhai dna m5c-甲基转移酶(m.hhai)、dna甲基转移酶1(dnmt1)、dna甲基转移酶3a(dnmt3a)、dna甲基转移酶3b(dnmt3b)、meti、drm3(植物)、zmet2、cmt1、cmt2(植物)等;以及外周募集元件,诸如核纤层蛋白a、核纤层蛋白b等。
[0122]
在一些情况下,融合配偶体具有修饰靶核酸(例如,ssrna、dsrna、ssdna、dsdna)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于:核酸酶活性,诸如由限制性酶(例如,foki核酸酶)提供的活性;甲基转移酶活性,诸如由甲基转移酶(例如,hhai dna m5c-甲基转移酶(m.hhai)、dna甲基转移酶1(dnmt1)、dna甲基转移酶3a(dnmt3a)、dna甲基转移酶3b(dnmt3b)、meti、drm3(植物)、zmet2、cmt1、cmt2(植物)等)提供的活性;脱甲基酶活性,诸如由脱甲基酶(例如;10-11易位(tet)双加氧酶1(tet1cd)、tet1、dme、dml1、dml2、ros1等)提供的活性;dna修复活性;dna损伤活性;脱氨基活性,诸如由脱氨酶(例如,胞嘧啶脱氨酶,诸如大鼠apobec1)提供的活性;歧化酶活性;烷基化活性;脱嘌呤活性;氧化活性;嘧啶二聚体形成活性;整合酶活性,诸如由整合酶和/或解离酶(例如,gin转化酶诸如gin转化酶的过度活跃突变体ginh106y、人免疫缺陷病毒1型整合酶(in)、tn3解离酶等)提供的活性;转座酶活性;重组酶活性,诸如由重组酶(例如,gin重组酶的催化结构域)提供的活性;聚合酶活性;连接酶活性;解旋酶活性;光裂合酶活性和糖基化酶活性)。
[0123]
在一些情况下,融合配偶体具有修饰与靶核酸(例如,ssrna、dsrna、ssdna、dsdna)相关联的蛋白质(例如,组蛋白、rna结合蛋白、dna结合蛋白等)的酶活性。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(hmt)(例如,花斑抑制因子3-9同源物1(suv39h1,也称为kmt1a)、常染色体组蛋白赖氨酸甲基转移酶2(g9a,也称为kmt1c和ehmt2)、suv39h2、eset/setdb1等、set1a、set1b、mll1至5、ash1、symd2、nsd1、dot1l、pr-set7/8、suv4-20h1、ezh2、riz1)提供的活性;脱甲基酶活性,诸如由组蛋白脱甲基酶(例如,赖氨酸脱甲基酶1a(kdm1a,也称为lsd1)、jhdm2a/b、jmjd2a/jhdm3a、jmjd2b、jmjd2c/gasc1、jmjd2d、jarid1a/rbp2、jarid1b/plu-1、jarid1c/smcx、jarid1d/smcy、utx、jmjd3等)提供的活性;乙酰转移酶活性,诸如由组蛋白乙酰转移酶(例如,人乙酰转移酶p300、gcn5、pcaf、cbp、taf1、tip60/plip、moz/myst3、morf/myst4、hbo1/myst2、hmof/myst1、src1、actr、p160、clock等的催化核心/片段)提供的活性;脱乙酰酶活性,诸如由组蛋白脱乙酰酶(例如,hdac1、hdac2、hdac3、hdac8、hdac4、hdac5、hdac7、hdac9、sirt1、sirt2、hdac11等)提供的活性;激酶活性;磷酸酶活性;泛素连接酶活性;去泛素化活性;腺苷酸化活性;脱腺苷酸化活性;sumo化活性;脱sumo化活性;核糖基化活性;脱核糖基化活性;豆蔻酰化活性和脱豆蔻酰化活性。
[0124]
合适的融合配偶体的另外的实例是二氢叶酸还原酶(dhfr)去稳定化结构域(例如,以产生化学可控的融合crispr-cas效应子蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:
[0125]
masmisssavttvsrasrgqsaamapfgglksmtgfpvrkvntditsitsnggrvkcmqvwppigkkkfetlsylppltrdsra(seq id no:1);masmisssavttvsrasrgqsaamapfgglksmtgfpvrkvntditsitsnggrvks(seq id no:2);massmlssatmvaspaqatmvapfnglkssaafpatrkannditsitsnggrvncmqvwppiekkkfetlsylpdltdsggrvnc(seq id no:3);maqvsricngvqnpslisnlskssqrksplsvslktqqhpraypissswglkksgmtligselrplkvmssvstac(seq id no:4);maqvsricngvwnpslisnlskssqrksplsvslktqqhpraypissswglkksgmtligselrplkvmssvstac(seq id no:5);maqinnmaqgiqtlnpnsnfhkpqvpksssflvfgskklknsansmlvlkkdsifmqlfcsfrisasvatac(seq id no:6);maalvtsqlatsgtvlsvtdrfrrpgfqglrprnpadaalgmrtvgasaapkqsrkphrfdrrclsmvv(seq id no:7);maalttsqlatsatgfgiadrsapssllrhgfqglkprspaggdatslsvttsaratpkq
qrsvqrgsrrfpsvvvc(seq id no:8);massvlssaavatrsnvaqanmvapftglksaasfpvsrkqnlditsiasnggrvqc(seq id no:9);meslaatsvfapsrvavpaaralvragtvvptrrtsstsgtsgvkcsaavtpqaspvisrsaaaa(seq id no:10);和mgaaatsmqslkfsnrlvppsrrlspvpnnvtcnnlpksaapvrtvkccasswnstingaaattngasaass(seq id no:11)。
[0126]
在一些情况下,本公开的crispr-cas效应子融合多肽包含:a)本公开的crispr-cas效应子多肽;和b)叶绿体转运肽。因此,例如,crispr-cas效应子多肽/指导rna复合物可被靶向至叶绿体。在一些情况下,这种靶向可通过n末端延伸的存在来实现,所述n末端延伸称为叶绿体转运肽(ctp)或质体转运肽。如果表达的多肽要在植物质体(例如,叶绿体)中区室化,则来自细菌来源的染色体转基因必须具有编码ctp序列的序列,所述ctp序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常1通过将编码ctp序列的多核苷酸序列与编码外源多肽的多核苷酸的5'区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除ctp。然而,加工效率可能受到ctp的氨基酸序列和肽的氨基末端(nh2末端)附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、wo 97/41228)、豌豆谷胱甘肽还原酶信号序列(wo 97/41228)和us2009029861中描述的ctp。
[0127]
在一些情况下,本公开的crispr-cas效应子融合多肽可包含:a)本公开的crispr-cas效应子多肽;和b)内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列glfxallxllxslwxlllxa(seq id no:12),其中每个x独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列glfhallhllhslwhlllha(seq id no:13)。
[0128]
对于在与cas9蛋白、锌指蛋白和/或tale蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰,例如组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例,参见例如:nomura等人,j am chem soc.2007年7月18日;129(28):8676-7;rivenbark等人,epigenetics.2012年4月;7(4):350-60;nucleic acids res.2016年7月8日;44(12):5615-28;gilbert等人,cell.2013年7月18日;154(2):442-51;kearns等人,nat methods.2015年5月;12(5):401-3;mendenhall等人,nat biotechnol.2013年12月;31(12):1133-6;hilton等人,nat biotechnol.2015年5月;33(5):510-7;gordley等人,proc natl acad sci u s a.2009年3月31日;106(13):5053-8;akopian等人,proc natl acad sci u s a.2003年7月22日;100(15):8688-91;tan等人,j virol.2006年2月;80(4):1939-48;tan等人,proc natl acad sci u s a.2003年10月14日;100(21):11997-2002;papworth等人,proc natl acad sci u s a.2003年2月18日;100(4):1621-6;sanjana等人,nat protoc.2012年1月5日;7(1):171-92;beerli等人,proc natl acad sci u s a.1998年12月8日;95(25):14628-33;snowden等人,curr biol.2002年12月23日;12(24):2159-66;xu等人,xu等人,cell discov.2016年5月3日;2:16009;komor等人,nature.2016年4月20日;533(7603):420-4;chaikind等人,nucleic acids res.2016年8月11日;choudhury等人,oncotarget.2016年6月23日;du等人,cold spring harb protoc.2016年1月4日;pham等人,methods mol biol.2016;1358:43-57;balboa等人,stem cell reports.2015年9月8日;5(3):448-59;hara等人,sci rep.2015年6月9日;5:11221;piatek等人,plant biotechnol j.2015年5月;13(4):578-89;hu等人,nucleic acids res.2014年4月;42(7):4375-90;cheng等人,cell res.2013年10月;23(10):1163-71;以及maeder等
人,nat methods.2013年10月;10(10):977-9。
[0129]
另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物响应性转录和/或翻译调控因子、翻译调控蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下,融合crispr-cas效应子多肽通过指导核酸(指导rna)被靶向靶核酸中的特定位置(即,序列)并且发挥基因座特异性调控的作用,诸如阻断rna聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下,变化是瞬时的(例如,转录阻遏或激活)。在一些情况下,变化是可遗传的(例如,在对靶核酸或与靶核酸相关联的蛋白质(例如,核小体组蛋白)进行表观遗传修饰时)。
[0130]
当靶向ssrna靶核酸时,使用的异源多肽的非限制性实例包括(但不限于):剪接因子(例如,rs结构域);蛋白质翻译组分(例如,翻译起始因子、延伸因子和/或释放因子;例如,eif4g);rna甲基化酶;rna编辑酶(例如,rna脱氨酶,例如作用于rna的腺苷脱氨酶(adar),包括a至i和/或c至u编辑酶);解旋酶;rna结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段(例如,功能结构域)。
[0131]
主题融合crispr-cas效应子多肽的异源多肽可以是能够与ssrna(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链rna双链体,诸如发夹、茎环等)相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶(例如rna酶iii、crr22 dyw结构域、来自诸如smg5和smg6的蛋白质的dicer和pin(pilt n末端)结构域);负责刺激rna切割的蛋白质和蛋白质结构域(例如cpsf、cstf、cfim和cfiim);外切核酸酶(例如xrn-1或外切核酸酶t);脱腺苷酶(例如hnt3);负责无义介导的rna衰变的蛋白质和蛋白质结构域(例如upf1、upf2、upf3、upf3b、rnp s1、y14、dek、ref2和srm160);负责稳定rna的蛋白质和蛋白质结构域(例如pabp);负责阻遏翻译的蛋白质和蛋白质结构域(例如ago2和ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如staufen);负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eif4g);负责rna的聚腺苷酸化的蛋白质和蛋白质结构域(例如pap1、gld-2和star-pap);负责rna的聚尿苷酸化的蛋白质和蛋白质结构域(例如cid1和末端尿苷酸转移酶);负责rna定位的蛋白质和蛋白质结构域(例如来自imp1、zbp1、she2p、she3p和bicaudal-d);负责rna的核保留的蛋白质和蛋白质结构域(例如rrp6);负责rna的核输出的蛋白质和蛋白质结构域(例如tap、nxf1、tho、trex、ref和aly);负责阻遏rna剪接的蛋白质和蛋白质结构域(例如ptb、sam68和hnrnp a1);负责刺激rna剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(sr)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如fus(tls));以及负责刺激转录的蛋白质和蛋白质结构域(例如cdk7和hiv tat)。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激rna切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的rna衰变活性的蛋白质和蛋白质结构域;能够稳定rna的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eif4g);能够进行
rna的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行rna的聚尿苷酸化的蛋白质和蛋白质结构域;具有rna定位活性的蛋白质和蛋白质结构域;能够进行rna的核保留的蛋白质和蛋白质结构域;具有rna核输出活性的蛋白质和蛋白质结构域;能够阻遏rna剪接的蛋白质和蛋白质结构域;能够刺激rna剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是puf rna结合结构域,其在wo2012068627中更详细地描述,所述文献以引用方式整体并入本文。
[0132]
可作为融合crispr-cas效应子多肽的异源多肽(整体或作为其片段)使用的一些rna剪接因子具有模块化结构,具有分开的序列特异性rna结合模块和剪接效应结构域。例如,富含丝氨酸/精氨酸(sr)的蛋白质家族的成员含有n末端rna识别基序(rrm),其结合前mrna和c末端rs结构域中的外显子剪接增强子(ese),所述外显子剪接增强子促进外显子包含。作为另一个实例,hnrnp蛋白hnrnp al通过其rrm结构域与外显子剪接沉默子(ess)结合,并通过c末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调控序列来调控剪接位点(ss)的替代使用。例如,asf/sf2可识别ese并有助于使用内含子近侧位点,而hnrnp al可结合ess并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的esf。例如,bcl-x前mrna产生两种剪接同种型,这两种剪接同种型具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型bcl-xl是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型bcl-xs是促凋亡同种型,并且在具有高周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即,两个替代5'剪接位点之间)中的多个元件调控。对于更多实例,参见wo2010075303,其特此以引用方式整体并入。
[0133]
另外的合适的融合配偶体包括但不限于作为边界元件(例如,ctcf)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白a、核纤层蛋白b等)、蛋白质对接元件(例如,fkbp/frb、pil1/aby1等)。
[0134]
用于主题融合crispr-cas效应子多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下申请中描述的那些(所述公布涉及其他crispr内切核酸酶(诸如cas9),但是描述的融合配偶体也可与crispr-cas效应子一起使用):pct专利申请:wo2010075303、wo2012068627和wo2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用方式整体并入。
[0135]
在一些情况下,异源多肽(融合配偶体)提供亚细胞定位,即异源多肽含有亚细胞
定位序列(例如,用于靶向细胞核的核定位信号(nls)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(nes))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、er保留信号等)。在一些实施方案中,crispr-cas效应子融合多肽不包含nls,使得蛋白质不靶向细胞核(这可能是有利的,例如,在靶核酸是存在于胞质溶胶中的rna时)。在一些实施方案中,异源多肽可提供便于追踪和/或纯化的标签(即,异源多肽是可检测标记)(例如,荧光蛋白,例如绿色荧光蛋白(gfp)、yfp、rfp、cfp、mcherry、tdtomato等;组氨酸标签,例如6xhis标签;血凝素(ha)标签;flag标签;myc标签等)。
[0136]
在一些情况下,crispr-cas效应子蛋白(例如,野生型crispr-cas效应子蛋白、变体crispr-cas效应子蛋白、融合crispr-cas效应子蛋白、dcrispr-cas效应子蛋白等)包含(融合至)核定位信号(nls)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)。因此,在一些情况下,crispr-cas效应子多肽包含一个或多个nls(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端和/或c末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在c末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端和c末端二者处或附近(例如,在50个氨基酸内)。在一些情况下,nls定位在n末端,并且nls定位在c末端。
[0137]
在一些情况下,crispr-cas效应子蛋白(例如,野生型crispr-cas效应子蛋白、变体crispr-cas效应子蛋白、融合crispr-cas效应子蛋白、dcrispr-cas效应子蛋白等)包含(融合至)1与10个之间的nls(例如,1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个、或2-5个nls)。在一些情况下,crispr-cas效应子蛋白(例如,野生型crispr-cas效应子蛋白、变体crispr-cas效应子蛋白、融合crispr-cas效应子蛋白、dcrispr-cas效应子蛋白等)包含(融合至)2与5个之间的nls(例如,2-4个或2-3个nls)。
[0138]
nls的非限制性实例包括衍生自以下的nls序列:sv40病毒大t抗原的nls,具有氨基酸序列pkkkrkv(seq id no:14);来自核质蛋白的nls(例如,具有序列krpaatkkagqakkkk(seq id no:15)的核质蛋白二分nls);c-myc nls,具有氨基酸序列paakrvkld(seq id no:16)或rqrrnelkrsp(seq id no:17);hrnpa1 m9 nls,具有序列nqssnfgpmkggnfggrssgpyggggqyfakprnqggy(seq id no:18);来自输入蛋白α的ibb结构域的序列rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv(seq id no:19);肌瘤t蛋白的序列vsrkrprp(seq id no:20)和ppkkared(seq id no:21);人p53的序列pqpkkkpl(seq id no:22);小鼠c-abl iv的序列salikkkkkmap(seq id no:23);流感病毒ns1的序列drlrr(seq id no:24)和pkqkkrk(seq id no:25);肝炎病毒δ抗原的序列rklkkkikkl(seq id no:26);小鼠mx1蛋白的序列rekkkflkrr(seq id no:27);人聚(adp-核糖)聚合酶的序列krkgdevdgvdevakkkskk(seq id no:28);以及类固醇激素受体(人)糖皮质激素的序列rkclqagmnlearktkk(seq id no:29)。一般来讲,nls(或多个nls)具有足够的强度来驱动crispr-cas效应子蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,
可检测标记物可与crispr-cas效应子蛋白融合,使得细胞内的位置可被可视化。也可从细胞中分离细胞核,然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析细胞核的内容物。也可间接确定细胞核中的积累。
[0139]
在一些情况下,crispr-cas效应子融合多肽包含“蛋白转导结构域”或ptd(又称为cpp

细胞穿透肽),其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的ptd促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,ptd与多肽的氨基末端共价连接(例如,与野生型crispr-cas效应子连接以生成融合蛋白,或与变体crispr-cas效应子蛋白(诸如dcrispr-cas效应子、切口酶crispr-cas效应子或融合crispr-cas效应子蛋白)连接以生成融合蛋白)。在一些实施方案中,ptd与多肽的羧基末端共价连接(例如,与野生型crispr-cas效应子连接以生成融合蛋白,或与变体crispr-cas效应子蛋白(诸如dcrispr-cas效应子、切口酶crispr-cas效应子或融合crispr-cas效应子蛋白)连接以生成融合蛋白)。在一些情况下,ptd在合适的插入位点处内插在crispr-cas效应子融合多肽中(即,不在crispr-cas效应子融合多肽的n末端或c末端)。在一些情况下,主题crispr-cas效应子融合多肽包含(缀合至、融合至)一个或多个ptd(例如,两个或更多个、三个或更多个、四个或更多个ptd)。在一些情况下,ptd包含核定位信号(nls)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)。因此,在一些情况下,crispr-cas效应子融合多肽包含一个或多个nls(例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)。在一些实施方案中,ptd与核酸(例如,crispr-cas效应子指导核酸、编码crispr-cas效应子指导核酸的多核苷酸、编码crispr-cas效应子融合多肽的多核苷酸、供体多核苷酸等)共价连接。ptd的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含ygrkkrrqrrr;seq id no:112的hiv-1tat的残基47-57);包含足以直接进入细胞中的数量的精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;vp22结构域(zender等人(2002)cancer gene ther.9(6):489-96);果蝇触角足基因(antennapedia)蛋白转导结构域(noguchi等人(2003)diabetes 52(7):1732-1737);截短的人降钙素肽(trehin等人(2004)pharm.research 21:1248-1256);聚赖氨酸(wender等人(2000)proc.natl.acad.sci.usa 97:13003-13008);rrqrrtsklmkr(seq id no:30);运输蛋白(transportan)gwtlnsagyllgkinlkalaalakkil(seq id no:31);kalaweaklakalakalakhlakalakalkcea(seq id no:32);和rqikiwfqnrrmkwkk(seq id no:33)。示例性ptd包括但不限于:ygrkkrrqrrr(seq id no:34);rkkrrqrrr(seq id no:35);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性ptd结构域氨基酸序列包括但不限于以下序列中的任一个:ygrkkrrqrrr(seq id no:34);rkkrrqrr(seq id no:36);yaraaarqara(seq id no:37);thrlprrrrrr(seq id no:38);和ggrrarrrrrr(seq id no:39)。在一些实施方案中,ptd是可激活的cpp(acpp)(aguilera等人(2009)integr biol(camb)6月;1(5-6):371-381)。acpp包括经由可切割接头连接至匹配聚阴离子(例如,glu9或“e9”)的聚阳离子cpp(例如,arg9或“r9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”acpp以横穿膜。
[0140]
接头(例如,用于融合配偶体)
[0141]
在一些实施方案中,主题crispr-cas效应子蛋白可经由接头多肽(例如,一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,间隔肽通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。
[0142]
接头多肽的实例包括甘氨酸聚合物(g)n、甘氨酸-丝氨酸聚合物(包括例如(gs)n、gsggsn(seq id no:40)、ggsggsn(seq id no:41)和gggsn(seq id no:42),其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,所述氨基酸序列包括但不限于ggsg(seq id no:43)、ggsgg(seq id no:44)、gsgsg(seq id no:45)、gsggg(seq id no:46)、gggsg(seq id no:47)、gsssg(seq id no:48)等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
[0143]
可检测标记
[0144]
在一些情况下,本公开的crispr-cas效应子多肽包含可检测标记。可提供可检测信号的合适的可检测标记和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
[0145]
合适的荧光蛋白包括但不限于绿色荧光蛋白(gfp)或其变体、gfp的蓝色荧光变体(bfp)、gfp的青色荧光变体(cfp)、gfp的黄色荧光变体(yfp)、增强型gfp(egfp)、增强型cfp(ecfp)、增强型yfp(eyfp)、gfps65t、emerald、topaz(tyfp)、venus、citrine、mcitrine、gfpuv、去稳定化egfp(degfp)、去稳定化ecfp(decfp)、去稳定化eyfp(deyfp)、mcfpm、cerulean、t-sapphire、cypet、ypet、mko、hcred、t-hcred、dsred、dsred2、dsred-单体、j-red、二聚体2、t-二聚体2(12)、mrfp1、pocilloporin、海肾gfp(renilla gfp)、monstergfp、pagfp、kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括b-藻红蛋白、r-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mhoneydew、mbanana、morange、dtomato、tdtomato、mtangerine、mstrawberry、mcherry、mgrape1、mraspberry、mgrape2、mplum(shaner等人(2005)nat.methods 2:905-909)等。如在例如matz等人(1999)nature biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。
[0146]
合适的酶包括但不限于辣根过氧化物酶(hrp)、碱性磷酸酶(ap)、β-半乳糖苷酶(gal)、葡萄糖-6-磷酸脱氢酶、β-n-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(go)等。
[0147]
crispr-cas效应子指导rna
[0148]
与crispr-cas效应子蛋白结合形成核糖核蛋白复合物(rnp)并将复合物靶向靶核酸(例如,靶dna)内的特定位置的核酸在本文中称为“crispr-cas效应子指导rna”或者简称
为“指导rna”。应理解,在一些情况下,可制备杂交体dna/rna,使得crispr-cas效应子指导rna除rna碱基外还包含dna碱基,但术语“crispr-cas效应子指导rna”仍然用于涵盖本文的这种分子。
[0149]
可以说crispr-cas效应子指导rna包含两个区段,即靶向区段和蛋白质结合区段。蛋白质结合区段在本文中也称为指导rna的“恒定区”。crispr-cas效应子指导rna的靶向区段包含与靶核酸(例如,靶dsdna、靶ssrna、靶ssdna、双链靶dna的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与crispr-cas效应子多肽相互作用(结合)。主题crispr-cas效应子指导rna的蛋白质结合区段可包含彼此杂交以形成双链rna双链体(dsrna双链体)的两段互补核苷酸。靶核酸(例如,基因组dna、ds dna、rna等)的位点特异性结合和/或切割可发生在由crispr-cas效应子指导rna(crispr-cas效应子指导rna的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如,靶基因座的靶序列)处。
[0150]
crispr-cas效应子指导rna和crispr-cas效应子蛋白(例如,野生型crispr-cas效应子蛋白;变体crispr-cas效应子蛋白;融合crispr-cas效应子多肽等)形成复合物(例如,通过非共价相互作用结合)。crispr-cas效应子指导rna通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含指导序列(与靶核酸序列互补的核苷酸序列)。复合物的crispr-cas效应子蛋白提供位点特异性活性(例如,由crispr-cas效应子蛋白提供的切割活性和/或在融合crispr-cas效应子蛋白的情况下由融合配偶体提供的活性)。换句话讲,crispr-cas效应子蛋白由于其与crispr-cas效应子指导rna的缔合而被导向至靶核酸序列(例如,靶序列)。
[0151]
可修饰“指导序列”,也称为crispr-cas效应子指导rna的“靶向序列”,使得crispr-cas效应子指导rna可将crispr-cas效应子蛋白(例如,天然存在的crispr-cas效应子蛋白、融合crispr-cas效应子多肽等)靶向任何所需的靶核酸的任何所需序列,除了(例如,如本文所述)可考虑pam序列之外。因此,例如,crispr-cas效应子指导rna可具有与真核细胞中的核酸中的序列互补(例如,可与其杂交)的指导序列,所述核酸例如是病毒核酸、真核核酸(例如,真核染色体、染色体序列、真核rna等)等。
[0152]
crispr-cas效应子指导rna的指导序列
[0153]
主题crispr-cas效应子指导rna包含指导序列(即,靶向序列),其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换句话讲,crispr-cas效应子指导rna的指导序列可通过杂交(即,碱基配对)以序列特异性方式与靶核酸(例如,双链dna(dsdna)、单链dna(ssdna)、单链rna(ssrna)或双链rna(dsrna))相互作用。crispr-cas效应子指导rna的指导序列可被修饰(例如,通过遗传工程)/设计成与靶核酸(例如,真核靶核酸,诸如基因组dna)内的任何所需靶序列杂交(例如,当考虑pam时,例如,当靶向dsdna靶时)。
[0154]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、
99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。
[0155]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100%。
[0156]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
[0157]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
[0158]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
[0159]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导
序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。
[0160]
在一些情况下,指导序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有19个或更多个nt(例如,20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。
[0161]
在一些情况下,指导序列(也称为“间隔序列”)的长度为15至50个核苷酸(例如,15个核苷酸(nt)至20个nt、20个nt至25个nt、25个nt至30个nt、30个nt至35个nt、35个nt至40个nt、40个nt至45个nt、或45个nt至50个nt)。
[0162]
crispr-cas效应子指导rna的蛋白质结合区段
[0163]
主题crispr-cas效应子指导rna的蛋白质结合区段(“恒定区”)与crispr-cas效应子蛋白相互作用。crispr-cas效应子指导rna通过上文提及的指导序列将结合的crispr-cas效应子蛋白导向至靶核酸内的特定核苷酸序列。crispr-cas效应子指导rna的蛋白质结合区段可包含两段核苷酸,它们彼此互补并杂交形成双链rna双链体(dsrna双链体)。因此,在一些情况下,蛋白质结合区段包含dsrna双链体。
[0164]
在一些情况下,dsrna双链体区包含5-25个碱基对(bp)的范围(例如,5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,dsrna双链体区包含6-15个碱基对(bp)的范围(例如,6-12个、6-10个或6-8个bp,例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,双链体区包含5个或更多个bp(例如,6个或更多个、7个或更多个或者8个或更多个bp)。在一些情况下,双链体区包含6个或更多个bp(例如,7个或更多个或者8个或更多个bp)。在一些情况下,并非双链体区的所有核苷酸都是配对的,并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),这段核苷酸对双链双链体没有贡献,但是在5'端和3'端被有贡献的核苷酸围绕,并且因此凸起被认为是双链体区的一部分。在一些情况下,dsrna包含1个或更多个凸起(例如,2个或更多
个、3个或更多个、4个或更多个凸起)。在一些情况下,dsrna双链体包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,dsrna双链体包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
[0165]
因此,在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
[0166]
换句话讲,在一些实施方案中,dsrna双链体包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsrna双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsrna双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
[0167]
相对于天然存在的双链体区,主题crispr-cas效应子指导rna的双链体区可包含一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的crispr-cas效应子指导rna的)天然存在的双链体区相比,主题crispr-cas效应子指导rna的双链体区包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或它们的任何方便的组合。
[0168]
各种cas9指导rna的实例可在本领域中找到,并且在一些情况下,与引入cas9指导rna中的那些相似的变型也可引入本公开的crispr-cas效应子指导rna中(例如,dsrna双链体区的突变、5'或3'末端的延伸以用于增加稳定性以提供与另一种蛋白质的相互作用,等)。例如,参见jinek等人,science.2012年8月17日;337(6096):816-21;chylinski等人,rna biol.2013年5月;10(5):726-37;ma等人,biomed res int.2013;2013:270805;hou等人,proc natl acad sci u s a.2013年9月24日;110(39):15644-9;jinek等人,elife.2013;2:e00471;pattanayak等人,nat biotechnol.2013年9月;31(9):839-43;qi等人,cell.2013年2月28日;152(5):1173-83;wang等人,cell.2013年5月9日;153(4):910-8;auer等人,genome res.2013年10月31日;chen等人,nucleic acids res.2013年11月1日;41(20):e19;cheng等人,cell res.2013年10月;23(10):1163-71;cho等人,genetics.2013年11月;195(3):1177-80;dicarlo等人,nucleic acids res.2013年4月;41(7):4336-43;dickinson等人,nat methods.2013年10月;10(10):1028-34;ebina等人,sci rep.2013;3:2510;fujii等人,nucleic acids res.2013年11月1日;41(20):e187;hu等人,cell res.2013年11月;23(11):1322-5;jiang等人,nucleic acids res.2013年11月1日;41(20):e188;larson等人,nat protoc.2013年11月;8(11):2180-96;mali等人,nat methods.2013年10月;10(10):957-63;nakayama等人,genesis.2013年12月;51(12):835-43;ran等人,nat protoc.2013年11月;8(11):2281-308;ran等人,cell.2013年9月12日;154(6):1380-9;upadhyay等人,g3(bethesda).2013年12月9日;3(12):2233-8;walsh等人,
proc natl acad sci u s a.2013年9月24日;110(39):15514-5;xie等人,mol plant.2013年10月9日;yang等人,cell.2013年9月12日;154(6):1370-9;briner等人,mol cell.2014年10月23日;56(2):333-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献全部特此以引用方式整体并入。
[0169]
图7中提供了适合包含在crispr-cas效应子指导rna中的恒定区的实例(例如,其中t被u取代)。与图7中描绘的任一核苷酸序列相比,crispr-cas效应子指导rna可包含具有1至5个核苷酸取代的恒定区。本公开的crispr-cas效应子指导rna可包含与图7中描绘的任一crrna核苷酸序列(例如,其中t被u取代)具有至少85%、至少85%、至少90%、至少95%、至少98%、至少99%或100%核苷酸序列同一性的恒定区。
[0170]
核苷酸序列(t被u取代)可与15至50个核苷酸(例如,长度为15个核苷酸(nt)至20个nt、20个nt至25个nt、25个nt至30个nt、30个nt至35个nt、35个nt至40个nt、40个nt至45个nt、或45个nt至50个nt)的所选间隔序列(其中所述间隔序列包含靶核酸结合序列(“指导序列”))结合。在一些情况下,间隔序列的长度为35-38个核苷酸。例如,图7中描绘的任一核苷酸序列(t被u取代)可包括在包含(n)n-恒定区的指导rna中,其中n是任何核苷酸并且n是15至50(例如,15至20、20至25、25至30、30至35、35至38、35至40、40至45、或45至50)的整数。
[0171]
crispr-c
as
效应子系统
[0172]
本公开提供一种crispr-cas效应子系统。本公开的crispr-cas效应子系统可包含:a)本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna;b)本公开的crispr-cas效应子多肽、crispr-cas效应子指导rna和供体模板核酸;c)本公开的crispr-cas效应子融合多肽和crispr-cas效应子指导rna;d)本公开的crispr-cas效应子融合多肽、crispr-cas效应子指导rna和供体模板核酸;e)编码本公开的crispr-cas效应子多肽的mrna;和crispr-cas效应子指导rna;f)编码本公开的crispr-cas效应子多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;g)编码本公开的crispr-cas效应子融合多肽的mrna;和crispr-cas效应子指导rna;h)编码本公开的crispr-cas效应子融合多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;i)包含编码本公开的crispr-cas效应子多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;j)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;l)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列、编码
crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码第一crispr-cas效应子指导rna的核苷酸序列和编码第二crispr-cas效应子指导rna的核苷酸序列的重组表达载体;或r)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列、编码第一crispr-cas效应子指导rna的核苷酸序列和编码第二crispr-cas效应子指导rna的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。
[0173]
核酸
[0174]
本公开提供一种或多种核酸,所述一种或多种核酸包含以下一项或多项:供体多核苷酸序列、编码crispr-cas效应子多肽(例如,野生型crispr-cas效应子蛋白、切口酶crispr-cas效应子蛋白、dcrispr-cas效应子蛋白、融合crispr-cas效应子蛋白等)的核苷酸序列、crispr-cas效应子指导rna和编码crispr-cas效应子指导rna的核苷酸序列。本公开提供包含编码crispr-cas效应子融合多肽的核苷酸序列的核酸。本公开提供包含编码crispr-cas效应子多肽的核苷酸序列的重组表达载体。本公开提供包含编码crispr-cas效应子融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体,所述重组表达载体包含:a)编码crispr-cas效应子多肽的核苷酸序列;和b)编码一个或多个crispr-cas效应子指导rna的核苷酸序列。本公开提供一种重组表达载体,所述重组表达载体包含:a)编码crispr-cas效应子融合多肽的核苷酸序列;和b)编码一个或多个crispr-cas效应子指导rna的核苷酸序列。在一些情况下,编码crispr-cas效应子蛋白的核苷酸序列和/或编码crispr-cas效应子指导rna的核苷酸序列可操作地连接至可在选择的细胞类型(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等)中操作的启动子。
[0175]
在一些情况下,编码本公开的crispr-cas效应子多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码crispr-cas效应子的核苷酸序列的突变以模拟预期的宿主生物体或细胞同时编码相同蛋白质时的密码子偏好。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码crispr-cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码crispr-cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码crispr-cas效应子的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码crispr-cas效应子的核苷酸序列。
[0176]
本公开提供一种或多种重组表达载体,其(在一些情况下在不同的重组表达载体
中,并且在一些情况下在相同的重组表达载体中)包括:(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);(ii)编码crispr-cas效应子指导rna的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子);和(iii)编码crispr-cas效应子蛋白的核苷酸序列(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。本公开提供一种或多种重组表达载体,其(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中)包括:(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);和(ii)编码crispr-cas效应子指导rna的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。本公开提供一种或多种重组表达载体,其包括(在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中):(i)编码crispr-cas效应子指导rna的核苷酸序列,其与靶基因组的靶基因座的靶序列杂交(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子);和(ii)编码crispr-cas效应子蛋白的核苷酸序列(例如,可操作地连接至可在靶细胞诸如真核细胞中操作的启动子)。
[0177]
合适的表达载体包括病毒表达载体(例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见例如li等人,invest opthalmol vis sci 35:2543 2549,1994;borras等人,gene ther 6:515 524,1999;li和davidson,pnas 92:7700 7704,1995;sakamoto等人,h gene ther 5:1088 1097,1999;wo 94/12649、wo 93/03769;wo 93/19191;wo 94/28938;wo 95/11984和wo 95/00655);腺相关病毒(aav)(参见例如ali等人,hum gene ther 9:81 86,1998;flannery等人,pnas 94:6916 6921,1997;bennett等人,invest opthalmol vis sci 38:2857 2863,1997;jomary等人,gene ther 4:683 690,1997;rolling等人,hum gene ther 10:641 648,1999;ali等人,hum mol genet 5:591 594,1996;srivastava的wo 93/09239;samulski等人,j.vir.(1989)63:3822-3828;mendelson等人,virol.(1988)166:154-165;以及flotte等人,pnas(1993)90:10613-10617);sv40;单纯疱疹病毒;人免疫缺陷病毒(参见例如,miyoshi等人,pnas 94:10319 23,1997;takahashi等人,j virol 73:7812 7816,1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒的逆转录病毒的载体)等。在一些情况下,本公开的重组表达载体是重组腺相关病毒(aav)载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。
[0178]
根据所用的宿主/载体系统,可在表达载体中使用多种合适的转录和翻译控制元件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。
[0179]
在一些实施方案中,编码crispr-cas效应子指导rna的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码crispr-cas效应子蛋白或crispr-cas效应子融合多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。
[0180]
转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调控启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启
动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在所靶向细胞类型或所靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞(例如,造血干细胞(例如,动员的外周血(mpb)cd34(+)细胞、骨髓(bm)cd34(+)细胞等))中可以是功能性的。
[0181]
真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括ef1α,来自巨细胞病毒(cmv)立即早期、单纯疱疹病毒(hsv)胸苷激酶、早期和晚期sv40、逆转录病毒的长末端重复序列(ltr)以及小鼠金属硫蛋白-i的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如,6xhis标签、血凝素标签、荧光蛋白等)的核苷酸序列,所述蛋白质标签可融合至crispr-cas效应子蛋白,从而产生融合crispr-cas效应子多肽。
[0182]
在一些实施方案中,编码crispr-cas效应子指导rna和/或crispr-cas效应子融合多肽的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中,编码crispr-cas效应子指导rna和/或crispr-cas效应子融合蛋白的核苷酸序列可操作地连接至组成型启动子。
[0183]
启动子可以是组成型活性启动子(即,组成性地处于活性/“on”状态的启动子),它可以是诱导型启动子(即,通过外界刺激例如特定温度、化合物或蛋白质的存在控制其状态(活性/“on”或非活性/“off”)的启动子),它可以是空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可以是时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程的特定阶段(例如,小鼠体内的毛囊周期)过程中处于“on”状态或“off”状态)。
[0184]
合适的启动子可衍生自病毒并且可因此称为病毒启动子,或者它们可衍生自任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何rna聚合酶(例如,pol i、pol ii、pol iii)驱动表达。示例性启动子包括但不限于sv40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(ltr)启动子;腺病毒主要晚期启动子(ad mlp);单纯疱疹病毒(hsv)启动子、巨细胞病毒(cmv)启动子诸如cmv立即早期启动子区(cmvie)、劳斯肉瘤病毒(rsv)启动子、人u6小核启动子(u6)(miyagishi等人,nature biotechnology 20,497-500(2002))、增强的u6启动子(例如,xia等人,nucleic acids res.2003年9月1日;31(17))、人h1启动子(h1)等。
[0185]
在一些情况下,编码crispr-cas效应子指导rna的核苷酸序列可操作地连接至(受控制于)在真核细胞中可操作的启动子(例如,u6启动子、增强的u6启动子、h1启动子等)。如本领域的普通技术人员所理解的,当使用u6启动子(例如,在真核细胞中)或另一种poliii启动子由核酸(例如,表达载体)表达rna(例如,指导rna)时,如果连续存在若干个t(在rna中编码u),则可能需要对rna进行突变。这是因为dna中的一串t(例如,5个t)可充当聚合酶iii(poliii)的终止子。因此,为了确保指导rna在真核细胞中的转录,有时可能需要修饰编码指导rna的序列以消除t的作用。在一些情况下,编码crispr-cas效应子蛋白(例如,野生型crispr-cas效应子蛋白、切口酶crispr-cas效应子蛋白、dcrispr-cas效应子蛋白、融合crispr-cas效应子蛋白等)的核苷酸序列可操作地连接至在真核细胞中可操作的启动子(例如,cmv启动子、ef1α启动子、雌激素受体调控的启动子等)。
[0186]
诱导型启动子的实例包括但不限于t7 rna聚合酶启动子、t3rna聚合酶启动子、异丙基-β-d-硫代半乳糖苷(iptg)调控的启动子、乳糖诱导的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此,诱导型启动子可通过分子调控,所述分子包括但不限于强力霉素;雌激素和/或雌激素类似物;iptg等。
[0187]
适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调控的启动子和物理调控的启动子,诸如醇调控的启动子、四环素调控的启动子(例如,无水四环素(atc)-响应性启动子和其他四环素响应性启动子系统,其包括四环素阻遏蛋白(tetr)、四环素操作序列(teto)和四环素反式激活因子融合蛋白(tta))、类固醇调控的启动子(例如,基于大鼠糖皮质激素受体、人雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调控的启动子(例如,衍生自来自酵母、小鼠和人的金属硫蛋白(结合并螯合金属离子的蛋白质)基因的启动子)、发病原调控的启动子(例如,由水杨酸、乙烯或苯并噻二唑(bth)诱导的启动子)、温度/热诱导型启动子(例如,热休克启动子)和光调控的启动子(例如,来自植物细胞的光响应性启动子)。
[0188]
在一些情况下,启动子是空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等),使得在多细胞生物体中,启动子在特定细胞子组中是活性的(即,“on”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞(例如,真核细胞;原核细胞)中是功能性的即可。
[0189]
在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,在本领域中是已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中是众所周知的。此类可逆启动子和基于此类可逆启动子但还包含另外的控制蛋白的系统包括但不限于醇调控的启动子(例如,醇脱氢酶i(alca)基因启动子、响应于醇反式激活因子蛋白(alcr)的启动子等)、四环素调控的启动子(例如,包括tet激活因子、teton、tetoff等的启动子系统)、类固醇调控的启动子(例如,大鼠糖皮质激素受体启动子系统、人雌激素受体启动子系统、类视黄醇启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调控的启动子(例如,金属硫蛋白启动子系统等)、发病原相关的调控启动子(例如,水杨酸调控的启动子、乙烯调控的启动子、苯并噻二唑调控的启动子等)、温度调控的启动子(例如,热休克诱导型启动子(例如,hsp-70、hsp-90、大豆热休克启动子等))、光调控的启动子、合成诱导型启动子等。
[0190]
将核酸(例如,包含供体多核苷酸序列的核酸、一种或多种编码crispr-cas效应子蛋白和/或crispr-cas效应子指导rna的核酸等)引入宿主细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。
[0191]
将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件
下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。
[0192]
在一些实施方案中,crispr-cas效应子蛋白可以rna形式提供。rna可通过直接化学合成提供,或者可在体外从dna(例如,编码crispr-cas效应子蛋白的dna)转录。一旦合成,可通过用于将核酸引入细胞中的任何众所周知的技术(例如,微注射、电穿孔、转染等)将rna引入细胞中。
[0193]
可使用开发良好的转染技术(参见例如angel和yanik(2010)plos one 5(7):e11756);以及可从qiagen商购获得的试剂、可从stemgent商购获得的stemfect
tm rna转染试剂盒和可从mirus bio llc商购获得的-mrna转染试剂盒向细胞提供核酸。还参见beumer等人(2008)pnas 105(50):19821-19826。
[0194]
可直接向靶宿主细胞提供载体。换句话讲,使细胞与包含主题核酸的载体(例如,具有供体模板序列并编码crispr-cas效应子指导rna的重组表达载体;编码crispr-cas效应子蛋白的重组表达载体等)接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)在本领域中是众所周知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。
[0195]
逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生生产性感染所需要的病毒蛋白质。而且载体的复制需要在包装细胞系中生长。为了生成包含目标核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同的包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性;对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法在本领域中是众所周知的。还可通过直接微注射引入核酸(例如,rna的注射)。
[0196]
用于向靶宿主细胞提供编码crispr-cas效应子指导rna和/或crispr-cas效应子多肽的核酸的载体可包括用于驱动目标核酸的表达(即,转录激活)的合适的启动子。换句话讲,在一些情况下,目标核酸将可操作地连接至启动子。所述启动子可包括遍在活化型启动子,例如cmv-β-肌动蛋白启动子;或诱导型启动子,诸如在特定细胞群中有活性或对药物(诸如四环素的)存在有响应的启动子。通过转录激活,预期转录将在靶细胞中与基础水平相比增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码crispr-cas效应子指导rna和/或crispr-cas效应子蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收crispr-cas效应子指导rna和/或crispr-cas效应子蛋白的细胞。
[0197]
包含编码crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列的核酸在一些情况下是rna。因此,可将crispr-cas效应子融合蛋白以rna的形式引入细胞中。将rna引入细胞中的方法在本领域中是已知的并且可包括例如直接注射、转染或用于引入dna的任何其他方法。crispr-cas效应子蛋白可替代地以多肽的形式向细胞提供。这种多肽可任选地融合至增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如,通过tev蛋白酶切割的tev序列)连接至多肽。接头还可包括一个或多个柔性序列,例
如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2m尿素存在下、在增加溶解度的多肽和/或多核苷酸的存在下等进行。目标结构域包括核内体溶解结构域,例如流感ha结构域;和有助于产生的其他多肽,例如if2结构域、gst结构域、grpe结构域等。多肽可配制用于改进的稳定性。例如,肽可以是peg化的,其中聚乙烯氧基提供在血流中的增加的寿命。
[0198]
另外或可替代地,本公开的crispr-cas效应子多肽可融合至多肽穿透结构域以促进被细胞吸收。许多穿透结构域在本领域中是已知的并且可用于本公开的非整合多肽,包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列rqikiwfqnrrmkwkk(seq id no:33)。作为另一个实例,穿透肽包含hiv-1tat碱性区氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如hiv-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如futaki等人(2003)curr protein pept sci.2003年4月;4(2):87-9和446;以及wender等人(2000)proc.natl.acad.sci.u.s.a 2000年11月21日;97(24):13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,在此以引用方式明确地并入易位肽和类肽的教导内容中)。九精氨酸(r9)序列是已表征的更有效的ptd之一(wender等人2000;uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。
[0199]
本公开的crispr-cas效应子多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工,并且可使用本领域已知的方法进一步再折叠。
[0200]
不改变一级序列的目标修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在多肽的合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
[0201]
还适合包括在本公开的实施方案中的是核酸(例如,编码crispr-cas效应子指导rna、编码crispr-cas效应子融合蛋白等的核酸)和蛋白质(例如,衍生自野生型蛋白质或变体蛋白质的crispr-cas效应子融合蛋白),所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性(例如,转录调节活性、酶活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的l-氨基酸之外的残基(例如,d-氨基酸或非天然存在的合成氨基酸)的那些多肽。d-氨基酸可取代一些或所有氨基酸残基。
[0202]
可使用如本领域已知的常规方法,通过体外合成制备本公开的crispr-cas效应子多肽。可使用各种商业合成装置,例如applied biosystems,inc.、beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。
[0203]
如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接至其他分子或表面。因此半胱氨酸可用来制备硫醚、组氨酸用于连接至金属离子络合物,羧基
用于形成酰胺或酯,氨基用于形成酰胺等。
[0204]
还可根据常规重组合成方法分离和纯化本公开的crispr-cas效应子多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法(hplc)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将占所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%或更多,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度(例如,不含污染物、非crispr-cas效应子蛋白质或其他大分子等)。
[0205]
为了诱导对靶核酸(例如,基因组dna)的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供crispr-cas效应子指导rna和/或本公开的crispr-cas效应子多肽和/或供体模板序列(无论它们作为核酸还是多肽引入)持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可一次或多次(例如一次、两次、三次或多于三次)向主题细胞提供一种或多种剂,并且在每次接触事件之后允许将细胞与所述一种或多种剂孵育持续一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
[0206]
在其中向细胞提供两种或更多种不同靶向复合物(例如,与相同或不同靶核酸内的不同序列互补的两种不同crispr-cas效应子指导rna)的情况下,可同时提供(例如,作为两种多肽和/或核酸)或同时递送所述复合物。可替代地,可连续提供复合物,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。
[0207]
为了改进dna载体向靶细胞的递送,可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护dna免受损伤,并且促进dna进入细胞中。因此,在一些情况下,本公开的核酸(例如,本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与dna复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的dna天然复合。同样由于它们的电荷,它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将dna释放到细胞质中。阳离子脂质还可防止细胞对dna的降解。
[0208]
聚合物与dna的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调控。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其dna负载释放到细胞质中,为此,必须发生与内体溶解剂(溶解内吞作用期间产生的内体)诸如灭活的腺病毒共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。
[0209]
树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物(即,具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如dna质粒)时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。树枝状聚合物-核酸复合物在到达其目的地时,可通
过内吞作用被吸收到细胞中。
[0210]
在一些情况下,本公开的核酸(例如,表达载体)包含目标指导序列的插入位点。例如,核酸可包含目标指导序列的插入位点,其中所述插入位点紧邻编码crispr-cas效应子指导rna的部分的核苷酸序列,当指导序列被改变而与所需靶序列(例如,有助于指导rna的crispr-cas效应子结合方面的序列,例如,有助于crispr-cas效应子指导rna的一个或多个dsrna双链体的序列-指导rna的这个部分也可称为指导rna的

支架’或

恒定区’)杂交时,所述crispr-cas效应子指导rna的所述部分不会改变。因此,在一些情况下,主题核酸(例如,表达载体)包含编码crispr-cas效应子指导rna的核苷酸序列,不同的是编码指导rna的指导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(mcs)(例如,包含一个或多个限制性酶识别序列的位点),用于不依赖于连接的克隆的位点,用于基于重组的克隆(例如,基于att位点的重组)的位点,由基于crispr/cas(例如cas9)的技术识别的核苷酸序列等。
[0211]
插入位点可以是任何期望的长度,并且可取决于插入位点的类型(例如,可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列),位点是否包括crispr/cas蛋白的靶位点等)。在一些情况下,主题核酸的插入位点的长度为3个或更多个核苷酸(nt)(例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下,主题核酸的插入位点的长度具有在2至50个核苷酸(nt)的范围内(例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下,主题核酸的插入位点的长度具有在5至40个nt的范围内的长度。
[0212]
核酸修饰
[0213]
在一些实施方案中,主题核酸(例如,crispr-cas效应子指导rna)具有一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接至核苷的糖部分的磷酸酯基团的核苷。对于包含戊呋喃糖的那些核苷,磷酸酯基团可连接至糖的2'、3'或5'羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常被称为形成寡核苷酸的核苷间骨架。rna和dna的正常键或骨架是3'到5'的磷酸二酯键。
[0214]
合适的核酸修饰包括但不限于:2'o甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(lna)修饰的核苷酸、肽核酸(pna)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7g))。下文描述另外的细节和另外的修饰。
[0215]
2'-o-甲基修饰的核苷酸(也称为2'-o-甲基rna)是在trna和其他小rna中发现的
天然存在的rna修饰,其作为转录后修饰而出现。可直接合成含有2'-o-甲基rna的寡核苷酸。这种修饰增加rna:rna双链体的tm,但仅导致rna:dna稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对dna酶的易感性通常是dna的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。
[0216]
2'氟修饰的核苷酸(例如,2'氟碱基)具有氟修饰的核糖,其增加结合亲和力(tm)并且与天然rna相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和sirna中以改进在血清或其他生物体液中的稳定性。
[0217]
lna碱基具有对核糖骨架的修饰,其将碱基锁定在c3'-内部位置,这有利于rna a型螺旋双链体几何结构。这种修饰显著增加tm并且还具有非常强的核酸酶抗性。可将多个lna插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到snp检测和等位基因特异性pcr的应用。由于lna赋予tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,并入单个寡核苷酸中的lna的数量是10个碱基或更少。
[0218]
硫代磷酸酯(ps)键(即,硫代磷酸酯键联)用硫原子取代核酸(例如,寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。在寡核苷酸内(例如,在整个寡核苷酸中)包含硫代磷酸酯键也可帮助减少内切核酸酶的攻击。
[0219]
在一些实施方案中,主题核酸具有一个或多个核苷酸,所述一个或多个核苷酸是2'-o-甲基修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有一个或多个2'氟修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有一个或多个lna碱基。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有通过硫代磷酸酯键连接的一个或多个核苷酸(即,主题核酸具有一个或多个硫代磷酸酯键联)。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有5'帽(例如,7-甲基鸟苷酸帽(m7g))。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸(例如,2'-o-甲基核苷酸和/或2'氟修饰的核苷酸和/或lna碱基和/或硫代磷酸酯键联)之外,主题核酸(例如,dsrna、sina等)可具有5'帽(例如,7-甲基鸟苷酸帽(m7g))。
[0220]
修饰的骨架和修饰的核苷间键联
[0221]
含有修饰的合适的核酸(例如,crispr-cas效应子指导rna)的实例包括含有修饰的骨架或非天然的核苷间键联的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。
[0222]
其中含有磷原子的合适的修饰的寡核苷酸骨架包括例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基磷酸酯(包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯)、次膦酸酯、氨基磷酸酯(包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯)、二氨基磷酸酯、硫羰氨基磷酸酯、硫羰烷基磷酸酯、硫羰烷基磷酸三酯,具有正常3'-5'键联的硒代磷酸酯和硼代磷酸酯、这些物质的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键联为3'至3'、5'至5'或2'至2'键联。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键联,即可为碱性(核碱基丢失或其被羟基替代)的单个反核苷残基。还包括各种盐(例如像钾或
钠)、混合盐和游离酸形式。
[0223]
在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键联,具体地是-ch
2-nh-o-ch
2-、-ch
2-n(ch3)-o-ch
2-(称为亚甲基(甲基亚氨基)或mmi骨架)、-ch
2-o-n(ch3)-ch
2-、-ch
2-n(ch3)-n(ch3)-ch
2-和-o-n(ch3)-ch
2-ch
2-(其中天然磷酸二酯核苷酸间键联表示为-o-p(=o)(oh)-o-ch
2-)。mmi型核苷间键联公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用方式整体并入本文。合适的酰胺核苷间键联公开于美国专利号5,602,240中,所述专利的公开内容以引用方式整体并入本文。
[0224]
还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些实施方案中,二氨基磷酸酯或其他非磷酸二酯核苷间键联替代磷酸二酯键联。
[0225]
其中不包含磷原子的合适的修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键联、混合杂原子和烷基或环烷基核苷间键联或一个或多个短链杂原子或杂环核苷间键联形成的骨架。这些包括:具有吗啉代键联(部分地由核苷的糖部分形成)的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的n、o、s和ch2组成部分的其他骨架。
[0226]
模拟物
[0227]
主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键联两者被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中也称为糖替代。维持杂环碱基部分或修饰的杂环碱基部分用于与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(pna)。在pna中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接键合至骨架的酰胺部分的氮杂氮原子。
[0228]
已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(pna)。pna化合物中的骨架是给予pna含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接键合至骨架的酰胺部分的氮杂氮原子。描述pna化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用方式整体并入本文。
[0229]
已研究的另一类多核苷酸模拟物基于具有连接至吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道连接吗啉代核酸中的吗啉代单体单元的许多连接基团。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(dwaine a.braasch和david r.corey,biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。
[0230]
另一类多核苷酸模拟物称为环己烯基核酸(cena)。通常存在于dna/rna分子中的呋喃糖环被环己烯基环替代。已制备了cena dmt保护的亚磷酰胺单体并且用于根据经典亚
磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的cena低聚化合物和具有用cena修饰的特异性位置的寡核苷酸(参见wang等人,j.am.chem.soc.,2000,122,8595-8602,其公开内容以引用方式整体并入本文)。一般来讲,cena单体并入dna链中增加了dna/rna杂交体的稳定性。cena寡腺苷酸与rna和dna互补序列形成具有与天然复合物相似的稳定性的复合物。通过nmr和圆二色性示出将cena结构并入天然核酸结构中的研究以继续进行简单的构象调整。
[0231]
另一种修饰包括锁核酸(lna),其中2'-羟基连接至糖环的4'碳原子从而形成2'-c、4'-c-氧基亚甲基键联,从而形成双环糖部分。所述键可以是亚甲基(-ch
2-),即桥接2’氧原子和4'碳原子的基团,其中n为1或2(singh等人,chem.commun.,1998,4,455-456,其公开内容以引用方式整体并入本文)。lna和lna类似物显现出与互补dna和rna具有非常高的双链体热稳定性(tm=+3℃至+10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有lna的有效且无毒的反义寡核苷酸(例如wahlestedt等人,proc.natl.acad.sci.u.s.a.,2000,97,5633-5638,其公开内容以引用方式整体并入本文)。
[0232]
已描述了lna单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如,koshkin等人,tetrahedron,1998,54,3607-3630,其公开内容以引用方式整体并入本文)。lna及其制备也描述于wo 98/39352和wo 99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用方式整体并入本文。
[0233]
修饰的糖部分
[0234]
主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:oh;f;o-、s-或n-烷基;o-、s-或n-烯基;o-、s-或n-炔基;或o-烷基-o-烷基,其中烷基、烯基和炔基可以是取代或未取代的c1至c
10
烷基或c2至c
10
烯基和炔基。特别合适的是:o((ch2)no)mch3、o(ch2)noch3、o(ch2)nnh2、o(ch2)nch3、o(ch2)nonh2和o(ch2)non((ch2)nch3)2,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:c1至c
10
低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、o-烷芳基或o-芳烷基、sh、sch3、ocn、cl、br、cn、cf3、ocf3、soch3、so2ch3、ono2、no2、n3、nh2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、rna切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团,以及其他具有相似特性的取代基。合适的修饰包括2'-甲氧基乙氧基(2'-o-ch
2 ch2och3,又称为2'-o-(2-甲氧基乙基)或2'-moe)(martin等人,helv.chim.acta,1995,78,486-504,其公开内容以引用方式整体并入本文),即烷氧基烷氧基。另外合适的修饰包括2'-二甲基氨基氧基乙氧基,即o(ch2)2on(ch3)2基团,又称为2'-dmaoe,如在下文的实施例中所述;和2'-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-o-二甲基-氨基-乙氧基-乙基或2'-dmaeoe),即2'-o-ch
2-o-ch
2-n(ch3)2。
[0235]
其他合适的糖取代基团包括甲氧基(-o-ch3)、氨基丙氧基(
‑‑
och2ch2ch2nh2)、烯丙基(-ch
2-ch=ch2)、-o-烯丙基(
‑‑o‑‑
ch2—ch=ch2)和氟(f)。2'-糖取代基团可处于阿拉伯糖(上)位或核糖(下)位。合适的2'-阿拉伯糖修饰是2'-f。还可在低聚化合物上的其他位置上做出相似的修饰,具体地在糖的3'末端核苷上或在2'-5'连接的寡核苷酸中的3'位置以
及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物,诸如环丁基部分。
[0236]
碱基修饰和取代
[0237]
主题核酸还可包括核碱基(在本领域中常常简称为“碱基”)修饰或取代。如本文所用,“未修饰的”或“天然”核碱基包括嘌呤碱基腺嘌呤(a)和鸟嘌呤(g)以及嘧啶碱基胸腺嘧啶(t)、胞嘧啶(c)和尿嘧啶(u)。修饰的核碱基包括其他合成和天然的核碱基,诸如5-甲基胞嘧啶(5-me-c)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基(-c=c-ch3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基(具体为5-溴代基)、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-f-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的修饰的核碱基包括三环嘧啶,诸如吩噁嗪胞苷(1h-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3h)-酮)、吩噻嗪胞苷(1h-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3h)-酮)、g-夹诸如取代的吩噁嗪胞苷(例如9-(2-氨基乙氧基)-h-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3h)-酮)、咔唑胞苷(2h-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(h-吡啶并(3',2':4,5)吡咯并(2,3-d)嘧啶-2-酮)。
[0238]
杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于the concise encyclopedia of polymer science and engineering,第858-859页,kroschwitz,j.i.编john wiley&sons,1990中的那些、由englisch等人,angewandte chemie,international edition,1991,30,613公开的那些以及由sanghvi,y.s.,第15章,antisense research and applications,第289-302页,crooke,s.t.和lebleu,b.编,crc press,1993公开的那些,这些文献的公开内容以引用方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶,6-氮杂嘧啶以及n-2、n-6和o-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃(sanghvi等人编antisense research and applications,crc press,boca raton,1993,第276-278页;其公开内容以引用方式整体并入本文)并且例如当与2'-o-甲氧基乙基糖修饰组合时是适合的碱基取代。
[0239]
缀合物
[0240]
主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接至多核苷酸。这些部分或缀合物可包括共价键合至诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报告分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物的药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药
物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。
[0241]
缀合物部分包括但不限于脂质部分,诸如胆固醇部分(letsinger等人,proc.natl.acad.sci.usa,1989,86,6553-6556)、胆酸(manoharan等人,bioorg.med.chem.let.,1994,4,1053-1060)、硫醚例如己基-s-三苯甲基硫醇(manoharan等人,ann.n.y.acad.sci.,1992,660,306-309;manoharan等人,bioorg.med.chem.let.,1993,3,2765-2770)、巯基胆固醇(oberhauser等人,nucl.acids res.,1992,20,533-538)、脂族链例如十二烷二醇或十一烷基残基(saison-behmoaras等人,embo j.,1991,10,1111-1118;kabanov等人,febs lett.,1990,259,327-330;svinarchuk等人,biochimie,1993,75,49-54)、磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-o-十六烷基-外消旋-甘油-3-h-磷酸酯(manoharan等人,tetrahedron lett.,1995,36,3651-3654;shea等人,nucl.acids res.,1990,18,3777-3783)、多胺或聚乙二醇链(manoharan等人,nucleosides&nucleotides,1995,14,969-973),或金刚烷乙酸(manoharan等人,tetrahedron lett.,1995,36,3651-3654),棕榈基部分(mishra等人,biochim.biophys.acta,1995,1264,229-237),或十八烷基胺或己基氨基-羰基-羟基胆固醇部分(crooke等人,j.pharmacol.exp.ther.,1996,277,923-937)。
[0242]
缀合物可包括“蛋白转导结构域”或ptd(又称为cpp

细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的ptd促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如,细胞核)内。在一些实施方案中,ptd与外源多核苷酸的3'末端共价连接。在一些实施方案中,ptd与外源多核苷酸的5'末端共价连接。示例性ptd包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含ygrkkrrqrrr;seq id no:34的hiv-1 tat的残基47-57);包含足以直接进入细胞中的数量的精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;vp22结构域(zender等人(2002)cancer gene ther.9(6):489-96);果蝇触角足基因蛋白转导结构域(noguchi等人(2003)diabetes 52(7):1732-1737);截短的人降钙素肽(trehin等人(2004)pharm.research 21:1248-1256);聚赖氨酸(wender等人(2000)proc.natl.acad.sci.usa 97:13003-13008);rrqrrtsklmkr seq id no:30);运输蛋白gwtlnsagyllgkinlkalaalakkil seq id no:31);kalaweaklakalakalakhlakalakalkcea seq id no:32);和rqikiwfqnrrmkwkk seq id no:33)。示例性ptd包括但不限于:ygrkkrrqrrr seq id no:34);rkkrrqrrr seq id no:35);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性ptd结构域氨基酸序列包括但不限于以下序列中的任一个:ygrkkrrqrrr seq id no:34);rkkrrqrr seq id no:36);yaraaarqara seq id no:37);thrlprrrrrr seq id no:38);和ggrrarrrrrr seq id no:39)。在一些实施方案中,ptd是可激活的cpp(acpp)(aguilera等人(2009)integr biol(camb)6月;1(5-6):371-381)。acpp包括经由可切割接头连接至匹配聚阴离子(例如,glu9或“e9”)的聚阳离子cpp(例如,arg9或“r9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”acpp以横穿膜。
[0243]
将组分引入靶细胞中
[0244]
crispr-cas效应子指导rna(或包含编码crispr-cas效应子指导rna的核苷酸序列的核酸)和/或crispr-cas效应子多肽(或包含编码crispr-cas效应子多肽的核苷酸序列的核酸)和/或本公开的crispr-cas效应子融合多肽(或包括编码本公开的crispr-cas效应子融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)可通过多种众所周知的方法的任一种方法引入宿主细胞中。
[0245]
可使用多种化合物和方法中的任一种化合物和方法将本公开的crispr-cas效应子系统递送至靶细胞(例如,其中crispr-cas效应子系统包含:a)本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna;b)本公开的crispr-cas效应子多肽、crispr-cas效应子指导rna和供体模板核酸;c)本公开的crispr-cas效应子融合多肽和crispr-cas效应子指导rna;d)本公开的crispr-cas效应子融合多肽、crispr-cas效应子指导rna和供体模板核酸;e)编码本公开的crispr-cas效应子多肽的mrna;和crispr-cas效应子指导rna;f)编码本公开的crispr-cas效应子多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;g)编码本公开的crispr-cas效应子融合多肽的mrna;和crispr-cas效应子指导rna;h)编码本公开的crispr-cas效应子融合多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;i)包含编码本公开的crispr-cas效应子多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;j)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;l)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码第一crispr-cas效应子指导rna的核苷酸序列和编码第二crispr-cas效应子指导rna的核苷酸序列的重组表达载体;或r)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列、编码第一crispr-cas效应子指导rna的核苷酸序列和编码第二crispr-cas效应子指导rna的核苷酸序列的重组表达载体;或(a)到(r)之一的一些变化。作为非限制性实例,本公开的crispr-cas效应子系统可与脂质组合。作为另一个非限制性实例,本公开的crispr-cas效应子系统可与颗粒组合或配制成颗粒。
[0246]
将核酸引入宿主细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将主题核酸(例如,表达构建体/载体)引入靶细胞(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。合适的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导
的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,panyam等人adv drug deliv rev.2012年9月13日.pii:s0169-409x(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0247]
在一些情况下,本公开的crispr-cas效应子多肽作为编码crispr-cas效应子多肽的核酸(例如,mrna、dna、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的crispr-cas效应子多肽直接作为蛋白质(例如,不与相关联的指导rna一起或与相关联的指导rna一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的crispr-cas效应子多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的crispr-cas效应子多肽直接注射到细胞中(例如,与或不与crispr-cas效应子指导rna或编码crispr-cas效应子指导rna的核酸一起,且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna的预先形成的复合物(rnp)引入细胞(例如,真核细胞)中(例如,通过注射、通过核转染;通过缀合至一种或多种组分的蛋白转导结构域(ptd),例如缀合至crispr-cas效应子蛋白、缀合至指导rna、缀合至本公开的crispr-cas效应子多肽和指导rna;等)。
[0248]
在一些情况下,本公开的crispr-cas效应子融合多肽(例如,与融合配偶体融合的dcrispr-cas效应子、与融合配偶体融合的切口酶crispr-cas效应子等)作为编码crispr-cas效应子多肽的核酸(例如,mrna、dna、质粒、表达载体、病毒载体等)提供。在一些情况下,本公开的crispr-cas效应子融合多肽直接作为蛋白质(例如,不与相关联的指导rna一起或与相关联的指导rna一起,即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本公开的crispr-cas效应子融合多肽引入细胞中(提供至细胞);此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的crispr-cas效应子融合多肽直接注射到细胞中(例如,与或不与编码crispr-cas效应子指导rna的核酸一起,且与或不与供体多核苷酸一起)。作为另一个实例,可将本公开的crispr-cas效应子融合多肽和crispr-cas效应子指导rna的预先形成的复合物(rnp)引入细胞中(例如,通过注射、通过核转染;通过缀合至一种或多种组分的蛋白转导结构域(ptd),例如缀合至crispr-cas效应子融合蛋白、缀合至指导rna、缀合至本公开的crispr-cas效应子融合多肽和指导rna;等)。
[0249]
在一些情况下,将颗粒中的或与颗粒缔合的核酸(例如,crispr-cas效应子指导rna;包含编码本公开的crispr-cas效应子多肽的核苷酸序列的核酸;等)和/或多肽(例如,crispr-cas效应子多肽;crispr-cas效应子融合多肽)递送至细胞(例如,靶宿主细胞)。在一些情况下,将颗粒中的或与颗粒缔合的本公开的crispr-cas效应子系统递送至细胞。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的crispr-cas效应子多肽和/或crispr-cas效应子指导rna的核苷酸序列的重组表达载体、包含编码本公开的crispr-cas效应子多肽的核苷酸序列的mrna以及指导rna可使用颗粒或脂质包膜同时递送;例如,crispr-cas效应子多肽和crispr-cas效应子指导rna,例如作为复合物(例如,核糖核蛋白(rnp)复合物)可通过颗粒递送,例如通过包含脂质或类脂质以及亲水性聚合物(例如,阳离子脂质和亲水聚合物)的递送颗粒递送,例如,其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(dotap)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(dmpc)并且/或者其中亲水性聚合物包括乙二醇或聚乙二醇(peg);并且/或者其中颗粒还包含胆固醇(例如,来自制剂1的颗粒=dotap 100、dmpc 0、peg 0、胆固醇0;制剂编号2=dotap 90、dmpc 0、peg 10、
胆固醇0;制剂编号3=dotap 90、dmpc 0、peg 5、胆固醇5)。例如,可使用多步骤方法形成颗粒,其中将crispr-cas效应子多肽和crispr-cas效应子指导rna例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(pbs)中混合在一起;并且将适用于制剂的dotap、dmpc、peg和胆固醇单独地溶于醇(例如,100%乙醇),并且将两种溶液混合在一起以形成含有复合物的颗粒)。
[0250]
本公开的crispr-cas效应子多肽(或包含编码本公开的crispr-cas效应子多肽的核苷酸序列的mrna;或包含编码本公开的crispr-cas效应子多肽的核苷酸序列的重组表达载体)和/或crispr-cas效应子指导rna(或核酸,诸如一种或多种编码crispr-cas效应子指导rna的表达载体)可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚(β-氨基酯)(pbae)核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒/纳米颗粒;此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送至脑。还考虑了其他实施方案,诸如疏水性药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可以单剂量或多剂量使用约5mg/kg的剂量,这取决于各种因素,例如靶组织。
[0251]
类脂质化合物(例如,如美国专利申请20110293703中所述)也可用于多核苷酸的施用,并且可用于递送本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统(例如,其中crispr-cas效应子系统包含:a)本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna;b)本公开的crispr-cas效应子多肽、crispr-cas效应子指导rna和供体模板核酸;c)本公开的crispr-cas效应子融合多肽和crispr-cas效应子指导rna;d)本公开的crispr-cas效应子融合多肽、crispr-cas效应子指导rna和供体模板核酸;e)编码本公开的crispr-cas效应子多肽的mrna;和crispr-cas效应子指导rna;f)编码本公开的crispr-cas效应子多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;g)编码本公开的crispr-cas效应子融合多肽的mrna;和crispr-cas效应子指导rna;h)编码本公开的crispr-cas效应子融合多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;i)包含编码本公开的crispr-cas效应子多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;j)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;l)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;m)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的crispr-cas效应子多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;o)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的第一重组表达载体,和包含编码crispr-cas效应子指导rna的核苷酸序列的第二重组表达载体;以及供体模板核酸;q)包含编码本公开的crispr-cas效应
1691;weintraub,nature 2013 495:s14-s16;choi等人,proc.natl.acad.sci.usa.2013 110(19):7625-7630;jensen等人,sci.transl.med.5,209ra152(2013)和mirkin,等人,small,10:186-192。
[0256]
具有rna的自组装纳米颗粒可用聚乙烯亚胺(pei)构建,所述聚乙烯亚胺(pei)用连接在聚乙二醇(peg)远端处的arg-gly-asp(rgd)肽配体peg化。
[0257]
一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞的纳米颗粒具有35nm至60nm的直径。
[0258]
适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒(例如,金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或它们的组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构(例如,核壳纳米颗粒)。如果由半导体材料制成的纳米颗粒足够小(通常低于10nm)以致发生电子能级的量子化,则也可将它们标记量子点。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。
[0259]
半固体和软纳米颗粒也适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞。具有半固体性质的原型纳米颗粒是脂质体。
[0260]
在一些情况下,使用外泌体将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞。外泌体是内源性纳米囊泡,其运输rna和蛋白质,并且可将rna递送至脑和其他靶器官。
[0261]
在一些情况下,使用脂质体将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内容物(inner cargo)
cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞。cpp通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸),或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。
[0268]
可使用可植入装置将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸(例如,crispr-cas效应子指导rna、编码crispr-cas效应子指导rna的核酸、编码crispr-cas效应子多肽的核酸、供体模板等)或本公开的crispr-cas效应子系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的crispr-cas效应子多肽、本公开的crispr-cas效应子融合多肽、本公开的rnp、本公开的核酸或本公开的crispr-cas效应子系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)的可植入装置可包括容器(例如,储库、基质等),所述容器包含crispr-cas效应子多肽、crispr-cas效应子融合多肽、rnp或crispr-cas效应子系统(或其组分,例如本公开的核酸)。
[0269]
合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质),并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物),以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放,其中待递送的多肽和/或核酸直接释放至靶位点,例如细胞外基质(ecm)、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送至腔(诸如腹腔)和/或其中药物递送系统未锚定或附接的任何其他类型的施用的装置,所述装置包括生物稳定的和/或可降解的和/或生物可吸收的聚合物基底,其可以例如任选地是基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀(bulk erosion)。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分用作膜并且其内部部分用作药物储库,实际上,所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征并且/或者可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。
[0270]
在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击而引起的降解。
[0271]
可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1)大脑退化位点,如在帕金森病或阿尔茨海默病中在基底神经节、白质和灰质处;2)脊柱,如就肌萎缩侧索硬化症(als)而言;3)子宫颈;4)活动性和慢性炎症关节;5)真皮,如就牛皮癣而言;7)交感神经和感觉神经位点,用于镇痛作用;7)骨;8)急性或慢性感染位点;9)阴道内;10)内耳-听觉系统、内耳迷路、前庭系统;11)气管内;12)心内;冠状动脉、心外膜;13)泌尿道或膀胱;14)胆系统;15)实质组织,包括但不限于肾、肝、脾;16)淋巴结;17)唾液腺;18)
牙龈;19)关节内(到关节中);20)眼内;21)脑组织;22)脑室;23)腔,包括腹腔(例如但不限于卵巢癌);24)食管内;和25)直肠内;和26)到脉管系统中。
[0272]
插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于近距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。
[0273]
修饰的宿主细胞
[0274]
本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的crispr-cas效应子多肽和/或包含编码本公开的crispr-cas效应子多肽的核苷酸序列的核酸。本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的crispr-cas效应子多肽,其中所述修饰的细胞是通常不包含本公开的crispr-cas效应子多肽的细胞。本公开提供一种修饰的细胞(例如,遗传修饰的细胞),所述修饰的细胞包含核酸,所述核酸包含编码本公开的crispr-cas效应子多肽的核苷酸序列。本公开提供一种用mrna遗传修饰的遗传修饰的细胞,所述mrna包含编码本公开的crispr-cas效应子多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含编码本公开的crispr-cas效应子多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含:a)编码本公开的crispr-cas效应子多肽的核苷酸序列;和b)编码本公开的crispr-cas效应子指导rna的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含:a)编码本公开的crispr-cas效应子多肽的核苷酸序列;b)编码本公开的crispr-cas效应子指导rna的核苷酸序列;和c)编码供体模板的核苷酸序列。
[0275]
用作本公开的crispr-cas效应子多肽和/或包含编码本公开的crispr-cas效应子多肽和/或本公开的crispr-cas效应子指导rna的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,这些细胞包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的crispr-cas效应子多肽和/或包含编码本公开的crispr-cas效应子多肽和/或本公开的crispr-cas效应子指导rna的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的crispr-cas效应子系统的受体。宿主细胞或靶细胞可以是本公开的crispr-cas效应子rnp的受体。宿主细胞或靶细胞可以是本公开的crispr-cas效应子系统的单一组分的受体。
[0276]
细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(botryococcus braunii)、莱茵衣藻(chlamydomonas reinhardtii)、海洋富油微拟球藻(nannochloropsis gaditana)、蛋白核小球藻(chlorella pyrenoidosa)、展枝马尾藻(sargassum patens)、羽藻(c.agardh)等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫
等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
[0277]
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
[0278]
合适的细胞包括干细胞(例如胚胎干(es)细胞、诱导多能干(ips)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
[0279]
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
[0280]
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是t细胞、b细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性t细胞。在一些情况下,免疫细胞是辅助性t细胞。在一些情况下,免疫细胞是调节性t细胞(treg)。
[0281]
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
[0282]
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
[0283]
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,
干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
[0284]
干细胞可表达一种或多种干细胞标记物,例如sox9、krt19、krt7、lgr5、ca9、fxyd2、cdh6、cldn18、tspan8、bpifb1、olfm4、cdh17和ppargc1a。
[0285]
在一些实施方案中,干细胞是造血干细胞(hsc)。hsc是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。hsc的特征在于cd34
+
和cd3-。hsc可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导hsc经历至少一些自我更新的细胞分裂,并且可诱导hsc分化成与体内所见相同的谱系。因此,可诱导hsc分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
[0286]
在其他实施方案中,干细胞是神经干细胞(nsc)。神经干细胞(nsc)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得nsc的方法在本领域中是已知的。
[0287]
在其他实施方案中,干细胞是间充质干细胞(msc)。msc最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离msc的方法在本领域中是已知的;并且可使用任何已知的方法来获得msc。参见例如美国专利号5,736,396,其描述了人msc的分离。
[0288]
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
[0289]
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrow root)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalem artichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lo bok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜
(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药(名称)、油菜(yu choy)、木薯(yuca)(木薯)等。
[0290]
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(chelicerata)、多足亚门(myriapodia)、hexipodia、蛛形纲(arachnida)、昆虫纲(insecta)、石蛃目(archaeognatha)、缨尾目(thysanura)、古翅下纲(palaeoptera)、蜉蝣目(ephemeroptera)、蜻蜓目(odonata)、差翅亚目(anisoptera)、束翅亚目(zygoptera)、新翅亚纲(neoptera)、外翅总目(exopterygota)、襀翅目(plecoptera)、纺足目(embioptera)、直翅目(orthoptera)、缺翅目(zoraptera)、革翅目(dermaptera)、网翅目(dictyoptera)、蛩蠊目(notoptera)、蛩蠊科(grylloblattidae)、螳科(mantophasmatidae)、竹节虫目(phasmatodea)、蜚蠊目(blattaria)、等翅目(isoptera)、螳螂目(mantodea)、parapneuroptera、啮虫目(psocoptera)、缨翅目(thysanoptera)、虱毛目(phthiraptera)、半翅目(hemiptera)、内翅类(endopterygota)或全变态类(holometabola)、膜翅目(hymenoptera)、鞘翅目(coleoptera)、捻翅目(strepsiptera)、蛇蛉目(raphidioptera)、广翅目(megaloptera)、脉翅目(neuroptera)、长翅目(mecoptera)、蚤目(siphonaptera)、双翅目(diptera)、毛翅目(trichoptera)或鳞翅目(lepidoptera)。
[0291]
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
[0292]
试剂盒
[0293]
本公开提供一种试剂盒,所述试剂盒包含本公开的crispr-cas效应子系统或本公开的crispr-cas效应子系统的组分。
[0294]
本公开的试剂盒可包含:a)本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna;b)本公开的crispr-cas效应子多肽、crispr-cas效应子指导rna和供体模板核酸;c)本公开的crispr-cas效应子融合多肽和crispr-cas效应子指导rna;d)本公开的crispr-cas效应子融合多肽、crispr-cas效应子指导rna和供体模板核酸;e)编码本公开的crispr-cas效应子多肽的mrna;和crispr-cas效应子指导rna;f)编码本公开的crispr-cas效应子多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;g)编码本公开的crispr-cas效应子融合多肽的mrna;和crispr-cas效应子指导rna;h)编码本公开的crispr-cas效应子融合多肽的mrna、crispr-cas效应子指导rna和供体模板核酸;i)包含编码本公开的crispr-cas效应子多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸序列的重组表达载体;j)包含编码本公开的crispr-cas效应子多肽的核苷酸序列、编码crispr-cas效应子指导rna的核苷酸序列和编码供体模板核酸的核苷酸序列的重组表达载体;k)包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列和编码crispr-cas效应子指导rna的核苷酸
cas效应子指导rna;和c)供体核酸(例如,供体模板)。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。
[0299]
因为使用crispr-cas效应子多肽的方法包括将crispr-cas效应子多肽与靶核酸中的特定区域结合(通过相关联的crispr-cas效应子指导rna靶向靶核酸中的特定区域),所述方法在本文中一般称为结合方法(例如,结合靶核酸的方法)。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果(例如,所述方法可导致靶核酸的修饰(例如,切割/甲基化等);从靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等)。
[0300]
对于合适方法的实例,参见,例如,jinek等人,science.2012年8月17日;337(6096):816-21;chylinski等人,rna biol.2013年5月;10(5):726-37;ma等人,biomed res int.2013;2013:270805;hou等人,proc natl acad sci u s a.2013年9月24日;110(39):15644-9;jinek等人,elife.2013;2:e00471;pattanayak等人,nat biotechnol.2013年9月;31(9):839-43;qi等人,cell.2013年2月28日;152(5):1173-83;wang等人,cell.2013年5月9日;153(4):910-8;auer等人,genome res.2013年10月31日;chen等人,nucleic acids res.2013年11月1日;41(20):e19;cheng等人,cell res.2013年10月;23(10):1163-71;cho等人,genetics.2013年11月;195(3):1177-80;dicarlo等人,nucleic acids res.2013年4月;41(7):4336-43;dickinson等人,nat methods.2013年10月;10(10):1028-34;ebina等人,sci rep.2013;3:2510;fujii等人,nucleic acids res.2013年11月1日;41(20):e187;hu等人,cell res.2013年11月;23(11):1322-5;jiang等人,nucleic acids res.2013年11月1日;41(20):e188;larson等人,nat protoc.2013年11月;8(11):2180-96;mali等人,nat methods.2013年10月;10(10):957-63;nakayama等人,genesis.2013年12月;51(12):835-43;ran等人,nat protoc.2013年11月;8(11):2281-308;ran等人,cell.2013年9月12日;154(6):1380-9;upadhyay等人,g3(bethesda).2013年12月9日;3(12):2233-8;walsh等人,proc natl acad sci u s a.2013年9月24日;110(39):15514-5;xie等人,mol plant.2013年10月9日;yang等人,cell.2013年9月12日;154(6):1370-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献各自特此以引用方式整体并入。
[0301]
例如,本公开提供(但不限于)切割靶核酸的方法;编辑靶核酸的方法;调节从靶核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。
[0302]
如本文所用,术语/短语“使靶核酸,例如,与crispr-cas效应子多肽或与crispr-cas效应子融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,可将crispr-cas效应子多肽作为蛋白质、rna(编码crispr-cas效应子多肽)或dna(编码crispr-cas效应子多肽)提供给细胞;而可将crispr-cas效应子指导rna作为指导rna或编码指导rna的核酸提供。因此,当例如在细胞中(例如,在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时,包括接触靶核酸的方法涵盖将处于活性/最终状态的任何或所有组分(例如,呈crispr-cas效应子多肽的一种或多种蛋白质形式;呈crispr-cas效应子融合多肽的蛋白质形式;在一些情况下呈指导rna的rna形式)引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸(例如,一种或多种包含编码crispr-cas效应子多肽或crispr-cas效应子融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导rna的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外在细胞外部执行,所以包括接触靶核酸的方法(除非另外指明)涵盖在体外在细胞外部、在体外在细胞内部、在体内在细胞内部、离体在细胞内部接触等。
[0303]
在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入crispr-cas效应子基因座,例如来自包含crispr-cas效应子基因座的细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含crispr-cas效应子基因座的细胞)的核酸,所述核酸包含编码crispr-cas效应子多肽的核苷酸序列以及长度为约1千碱基(kb)至5kb的在编码crispr-cas效应子的核苷酸序列周围的核苷酸序列,其中靶细胞通常(在天然状态下)不包含crispr-cas效应子基因座。然而,可以修饰一个或多个间隔序列,一个或多个编码crrna的编码指导序列,使得靶向一个或多个目标靶序列。因此,例如,在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入crispr-cas效应子基因座,例如,从源细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含crispr-cas效应子基因座的细胞)获得的核酸,其中核酸具有100个核苷酸(nt)至5kb(例如,100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb、或4kb至5kb)的长度并且包含编码crispr-cas效应子多肽的核苷酸序列。如上所述,在一些此类情况下,可以修饰一个或多个间隔序列,一个或多个编码crrna的编码指导序列,使得靶向一个或多个目标靶序列。在一些情况下,所述方法包括向靶细胞中引入:i)crispr-cas效应子基因座;和ii)供体dna模板。在一些情况下,靶核酸在体外无细胞组合物中。在一些情况下,靶核酸存在于靶细胞中。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是原核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是真核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是哺乳动物细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是植物细胞。
[0304]
在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的crispr-cas效应子多肽或本公开的crispr-cas效应子融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与crispr-cas效应子多肽和crispr-cas效应子指导rna接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与crispr-cas效应子多肽、第一crispr-cas效应子指导rna和第二crispr-cas效应子指导rna接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的crispr-cas效应子多肽和crispr-cas效应子指导rna和供体dna模板接触。
[0305]
目标靶核酸和靶细胞
[0306]
本公开的crispr-cas效应子多肽,或本公开的crispr-cas效应子融合多肽,当与crispr-cas效应子指导rna结合时,可与靶核酸结合,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,dna、rna),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组dna)、衍生自染色体、染色体dna、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要crispr-cas效应子指导rna包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。
[0307]
靶核酸可以是dna或rna。靶核酸可以是双链的(例如,dsdna、dsrna)或单链的(例如,ssrna、ssdna)。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链rna(ssrna)。在一些情况下,靶ssrna(例如,靶细胞ssrna、病毒ssrna等)选自:mrna、rrna、trna、非编码rna(ncrna)、长非编码rna(lncrna)和微小rna(mirna)。在一些情况下,靶核酸是单链dna(ssdna)(例如,病毒dna)。如上所指出,在一些情况下,靶核酸是单链的。
[0308]
靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸,诸如基因组dna)包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;昆虫(例如,蚊子;蜜蜂;农业害虫等)的细胞;蛛形纲动物(例如,蜘蛛;蜱等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞(例如,来自啮齿动物的细胞;来自人的细胞;非人哺乳动物的细胞;啮齿动物(例如,小鼠、大鼠)的细胞;兔形目动物(例如,兔)的细胞;有蹄类动物(例如,牛、马、骆驼、美洲驼、骆马、绵羊、山羊等)的细胞;海洋哺乳动物(例如,鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞,例如胚胎干(es)细胞、诱导多能干(ips)细胞、生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如,成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞(例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。
[0309]
细胞可来自已建立的细胞系或者它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即,分裂)的细胞和细胞培养物。例如,原代培养物是可能已传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞是原代细胞,它们可通过任何方便的方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织(诸如皮肤、肌肉、骨髓、脾、肝、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。
[0310]
在上述申请的一些申请中,主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如,用于可视化,用于采集和/或分析等)(例如,以破坏由靶向mrna编码的蛋白质的产生,以切割或以其他方式修饰靶dna,以遗传修饰靶细胞等)。因为指导rna通过与靶核酸杂交来提供特异性,所以在公开的方法中目标有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体
的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人的细胞等)。在一些情况下,可将主题crispr-cas效应子蛋白(和/或编码蛋白质的核酸,诸如dna和/或rna)和/或crispr-cas效应子指导rna(和/或编码指导rna的dna)和/或供体模板和/或rnp引入个体(即,靶细胞可在体内)(例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人等)中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。
[0311]
植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如生产杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。
[0312]
靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等)、海藻(例如巨藻)、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
[0313]
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
[0314]
合适的细胞包括干细胞(例如胚胎干(es)细胞、诱导多能干(ips)细胞;生殖细胞
(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
[0315]
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
[0316]
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是t细胞、b细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性t细胞。在一些情况下,免疫细胞是辅助性t细胞。在一些情况下,免疫细胞是调节性t细胞(treg)。
[0317]
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
[0318]
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
[0319]
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
[0320]
干细胞可表达一种或多种干细胞标记物,例如sox9、krt19、krt7、lgr5、ca9、fxyd2、cdh6、cldn18、tspan8、bpifb1、olfm4、cdh17和ppargc1a。
[0321]
在一些实施方案中,干细胞是造血干细胞(hsc)。hsc是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。hsc的特征在于cd34
+
和cd3-。hsc可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导hsc经历至少一些自我更新的细胞分裂,并且可诱导hsc分化成与体内所见相同的谱系。因此,可诱导hsc分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
[0322]
在其他实施方案中,干细胞是神经干细胞(nsc)。神经干细胞(nsc)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得nsc的方法在本领域中是已知的。
[0323]
在其他实施方案中,干细胞是间充质干细胞(msc)。msc最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离msc的方法在本
领域中是已知的;并且可使用任何已知的方法来获得msc。参见例如美国专利号5,736,396,其描述了人msc的分离。
[0324]
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
[0325]
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根、慈菇、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿)、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜、蒲公英嫩叶、芋头、dau mue、donqua(冬瓜)、茄子、菊苣、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡、嫩叶、汉诺威沙拉用绿叶、huauzontle、洋姜、豆薯、羽衣甘蓝嫩叶、大头菜、羊腿藜、生菜(贝比生菜)、生菜(波士顿生菜)、生菜(波士顿红生菜)、生菜(绿叶)、生菜(冰山生菜)、生菜(红毛菜)、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜)、生菜(红罗马生菜)、生菜(俄罗斯红芥末)、linkok、白萝卜、长豆、莲藕、野苣、龙舌兰(龙舌兰)叶、黄肉芋、混和生菜、京水菜、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜、菊苣、萝卜芽、萝卜、青芸苔、青芸苔、大黄、罗马生菜、芜菁甘蓝、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦)、红瓜、粘果酸浆、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁、荸荠、薯蓣、山药、油菜、木薯(木薯)等。
[0326]
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(chelicerata)、多足亚门(myriapodia)、hexipodia、蛛形纲(arachnida)、昆虫纲(insecta)、石蛃目(archaeognatha)、缨尾目(thysanura)、古翅下纲(palaeoptera)、蜉蝣目(ephemeroptera)、蜻蜓目(odonata)、差翅亚目(anisoptera)、束翅亚目(zygoptera)、新翅亚纲(neoptera)、外翅总目(exopterygota)、襀翅目(plecoptera)、纺足目(embioptera)、直翅目(orthoptera)、缺翅目(zoraptera)、革翅目(dermaptera)、网翅目(dictyoptera)、蛩蠊目(notoptera)、蛩蠊科(grylloblattidae)、螳科(mantophasmatidae)、竹节虫目(phasmatodea)、蜚蠊目(blattaria)、等翅目(isoptera)、螳螂目(mantodea)、parapneuroptera、啮虫目(psocoptera)、缨翅目(thysanoptera)、虱毛目(phthiraptera)、半翅目(hemiptera)、内翅类(endopterygota)或全变态类(holometabola)、膜翅目(hymenoptera)、鞘翅目(coleoptera)、捻翅目(strepsiptera)、蛇蛉目(raphidioptera)、广翅目(megaloptera)、脉翅目(neuroptera)、长翅目(mecoptera)、蚤目(siphonaptera)、双翅目(diptera)、毛翅目(trichoptera)或鳞翅目(lepidoptera)。
[0327]
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目
昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
[0328]
将组分引入靶细胞中
[0329]
crispr-cas效应子指导rna(或包含编码crispr-cas效应子指导rna的核苷酸序列的核酸)和/或crispr-cas效应子融合多肽(或包含编码crispr-cas效应子融合多肽的核苷酸序列的核酸)和/或供体多核苷酸可通过多种众所周知的方法的任一种方法引入宿主细胞中。
[0330]
将核酸引入细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入靶细胞(例如,真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法在本文中其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,panyam等人adv drug deliv rev.2012年9月13日.pii:s0169-409x(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可使用已知方法例如像核转染将任何或所有组分作为组合物(例如,包括crispr-cas效应子多肽、crispr-cas效应子指导rna、供体多核苷酸等的任何方便组合)引入细胞中。
[0331]
供体多核苷酸(供体模板)
[0332]
在crispr-cas效应子指导rna的指导下,crispr-cas效应子蛋白在一些情况下在双链dna(dsdna)靶核酸内生成位点特异性双链断裂(dsb)或单链断裂(ssb)(例如,当crispr-cas效应子蛋白是切口酶变体时),这些断裂通过非同源末端连接(nhej)或同源定向重组(hdr)修复。
[0333]
在一些情况下,使靶dna(与crispr-cas效应子蛋白和crispr-cas效应子指导rna)接触在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶dna与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合到靶dna中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶dna使得靶dna内的核苷酸缺失。
[0334]
在一些情况下,crispr-cas效应子指导rna(或编码crispr-cas效应子指导rna的dna)和crispr-cas效应子蛋白(或编码crispr-cas效应子蛋白的核酸,诸如rna或dna,例如一种或多种表达载体)与供体多核苷酸序列共同施用(例如,与靶核酸接触、向细胞施用等),所述供体多核苷酸序列包括与靶dna序列同源的至少一个区段,主题方法可用于将核酸物质添加(即插入或替代)到靶dna序列(例如以“敲入”核酸,例如编码蛋白质、sirna、mirna的核酸等),添加标签(例如,6xhis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(ha)、flag等),将调控序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(ires)、2a肽、起始密码子、终止密码子、剪接信号、定位信号等),修饰核酸序列(例如,引入突变、通过引入正确的序列去除致病突变)等。因此,包含crispr-cas效应子指导rna和crispr-cas效应子蛋白的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰dna,例如基因敲除、基因敲入、基因编辑、基因标签等,例如,如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法,农业中遗传修饰的生物体的生产,出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产,
ips细胞诱导,生物研究,用于缺失或替代的病原体基因的靶向等中所使用的。
[0335]
在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指待在crispr-cas效应子蛋白切割的位点处插入的核酸序列(例如,在dsdna切割之后、对靶dna进行切口之后、对靶dna进行双切口之后等)。供体多核苷酸可含有与靶位点处的基因组序列足够的同源性(例如与侧接靶位点,例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)的核苷酸序列或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%的同源性),以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25个、50个、100个或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
[0336]
供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可(例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对)。在一些实施方案中,供体序列包含侧接两个同源区的非同源序列,以使得靶dna区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与目标dna区域同源并且不意图插入到目标dna区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。
[0337]
供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评估供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如,表示靶向基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。可替代地,这些序列差异可包括侧接重组序列,诸如flp、loxp序列等,所述侧接重组序列可在去除标记序列之后的时间里激活。
[0338]
在一些情况下,供体序列作为单链dna提供给细胞。在一些情况下,供体序列作为双链dna提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护(例如,免受核酸外切降解),并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端,并且/或者可将自身互补寡核苷酸连接至一个或两个末端。参见例如chang等人(1987)proc.natl.acad sci usa 84:4959-4963;nehls等人(1996)science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基以及使用修饰的核苷酸间键联,例如像硫代磷酸酯、氨基磷酸酯和o-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分
子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与剂(诸如脂质体或泊洛沙姆)复合的核酸引入,或者可通过病毒(例如,腺病毒aav)来递送,如本文其他地方对于编码crispr-cas效应子指导rna和/或crispr-cas效应子融合多肽和/或供体多核苷酸的核酸所述。
[0339]
转基因非人生物体
[0340]
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的crispr-cas效应子多肽的核苷酸序列的核酸;包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体,所述转基因非人生物体产生本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽。本公开提供一种转基因非人生物体,所述转基因非人生物体包含编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列。
[0341]
转基因非人动物
[0342]
本公开提供一种转基因非人动物,所述动物包含转基因,所述转基因包含含有编码crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类(例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、非人哺乳动物(例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫(例如,蚊子;农业害虫等)。在一些情况下,转基因非人动物是蛛形纲动物。
[0343]
编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如,cmv启动子)、诱导型启动子(例如,热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
[0344]
转基因植物
[0345]
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的crispr-cas效应子多肽的核苷酸序列的核酸;包含编码本公开的crispr-cas效应子融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因植物,所述转基因植物产生本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽。本公开提供一种转基因植物,所述转基因植物包含编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列。在一些实施方案中,转基因植物的基因组包含主题核酸。在一些实施方案中,转基因植物对于遗传修饰是纯合的。在一些实施方案中,转基因植物对于遗传修饰是杂合的。
[0346]
将外源核酸引入植物细胞中的方法在本领域中是众所周知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链dna病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择一般取决于待转化的细胞类型和发生转化所在的环境(即体外、离体或体内)。
[0347]
基于土壤细菌根瘤土壤杆菌(agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(agrobacterium)的野生型形式含有ti(肿瘤诱导)质粒,该质粒引导在宿主植物上生长的致瘤冠瘿的产生。ti质粒的肿瘤诱导t-dna区向植物基因组的转移需要ti质粒编码的毒力基因以及t-dna边缘序列,所述t-dna边缘序列是描绘待转移区域的一组正向dna重复序列。基于土壤杆菌属的载体是ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的目标核酸序列替代。
[0348]
土壤杆菌属介导的转化一般采用共合体载体或二元载体系统,其中ti质粒的组分在辅助载体(所述辅助载体永久驻留在土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被t-dna序列界定的目标基因)之间分配。多种二元载体在本领域中是众所周知的并且可例如从clontech(palo alto,calif.)商购获得。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法在本领域中也是众所周知的。参见例如glick和thompson(编),methods in plant molecular biology and biotechnology,boca raton,fla.:crc press(1993)。
[0349]
微粒介导的转化还可用来产生主题转基因植物。首先由klein等人(nature 327:70-73(1987))描述的这种方法依赖于微粒(诸如金或钨),所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀包被有所需的核酸分子。微粒颗粒使用诸如biolistic pd-1000(biorad;hercules calif.)的装置在高速下被加速到被子植物组织中。
[0350]
可将本公开的核酸(例如,包含编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列的核酸(例如,重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体,然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于weissbach和weissbach,(1989)methods for plant molecular biology academic press以及gelvin等人,(1990)plant molecular biology manual,kluwer academic publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的ti质粒的那些,以及由herrera-estrella等人(1983)nature 303:209,bevan(1984)nucl acid res.12:8711-8721,klee(1985)bio/technolo 3:637-642公开的那些。可替代地,非ti载体可用来通过使用游离dna递送技术将dna转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米(christou(1991)bio/technology 9:957-9和4462)和玉米(gordon-kamm(1990)plant cell 2:603-618)。未成熟胚也可以是通过使用粒子枪的直接dna递送技术(weeks等人(1993)plant physiol 102:1077-1084;vasil(1993)bio/technolo 10:667-674;wan和lemeaux(1994)plant physiol 104:37-48)和土壤杆菌属介导的dna转移(ishida等人(1996)nature biotech 14:745-750)的单子叶植物的良好靶组织。用于将dna引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(danieli等
人nat.biotechnol 16:345-348,1998;staub等人nat.biotechnol 18:333-338,2000;o’neill等人plant j.3:729-738,1993;knoblauch等人nat.biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号wo 95/16783;以及boynton等人,methods in enzymology 217:510-536(1993);svab等人,proc.natl.acad.sci.usa 90:913-917(1993);和mcbride等人,proc.natl.acad.sci.usa 91:7301-7305(1994))。适用于生物弹轰击、原生质体的聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链dna载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
[0351]
可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈植物、林业植物和藤本植物。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆和大米。
[0352]
本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征是存在整合到基因组中的主题核酸,和通过本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。
[0353]
编码本公开的crispr-cas效应子多肽或crispr-cas效应子融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
[0354]
本公开的非限制性方面的实例
[0355]
上文所述的本发明主题的方面(包括实施方案)可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下,下文提供本公开的某些非限制性方面,其编号为1-121。对本领域技术人员在阅读本公开后将显而易见的是,每个单独编号的方面都可与之前或之后单独编号的方面中的任一个一起使用或组合。这意图为所有此类方面的组合提供支持,并且不限于下文明确提供的方面的组合:
[0356]
方面1.一种组合物,所述组合物包含:a)crispr-cas效应子多肽,或编码所述crispr-cas效应子多肽的核酸分子,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和b)crispr-cas效应子指导rna,或一种或多种编码所述crispr-cas效应子指导rna的dna分子。
[0357]
方面2.如方面1所述的组合物,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
[0358]
方面3.如方面1或方面2所述的组合物,其中所述crispr-cas效应子指导rna包含与图7中所描绘的crrna序列中的任一者具有80%、90%、95%、98%、99%或100%核苷酸序列同一性的核苷酸序列。
[0359]
方面4.如方面1或方面2所述的组合物,其中所述crispr-cas效应子多肽与核定位信号(nls)融合。
[0360]
方面5.如方面1-4中任一项所述的组合物,其中所述组合物包含脂质。
[0361]
方面6.如方面1-4中任一项所述的组合物,其中a)和b)在脂质体内。
[0362]
方面7.如方面1-4中任一项所述的组合物,其中a)和b)在颗粒内。
[0363]
方面8.如方面1-7中任一项所述的组合物,所述组合物包含以下一项或多项:缓冲剂、核酸酶抑制剂和蛋白酶抑制剂。
[0364]
方面9.如方面1-8中任一项所述的组合物,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
[0365]
方面10.如方面1-9中任一项所述的组合物,其中所述crispr-cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
[0366]
方面11.如方面1-9中任一项所述的组合物,其中所述crispr-cas效应子多肽是无催化活性的crispr-cas效应子多肽(dcrispr-cas效应子)。
[0367]
方面12.如方面10或方面11所述的组合物,其中所述crispr-cas效应子多肽在ruvc-i结构域、ruvc-ii结构域和ruvc-iii结构域中的一者或多者中包含一个或多个氨基酸取代。
[0368]
方面13.如方面1-12中任一项所述的组合物,所述组合物还包含dna供体模板。
[0369]
方面14.一种crispr-cas效应子融合多肽,所述crispr-cas效应子融合多肽包含:与异源多肽融合的crispr-cas效应子多肽,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
[0370]
方面15.如方面14所述的crispr-cas效应子融合多肽,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
[0371]
方面16.如方面14所述的crispr-cas效应子融合多肽,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有85%或更高同一性的氨基酸序列。
[0372]
方面17.如方面14-16中任一项所述的crispr-cas效应子融合多肽,其中所述crispr-cas效应子多肽是仅能切割双链靶核酸分子的一条链的切口酶。
[0373]
方面18.如方面14-17中任一项所述的crispr-cas效应子融合多肽,其中所述crispr-cas效应子多肽是无催化活性的crispr-cas效应子多肽(dcrispr-cas效应子)。
[0374]
方面19.如方面17或方面18所述的crispr-cas效应子融合多肽,其中所述crispr-cas效应子多肽在ruvc-i结构域、ruvc-ii结构域和ruvc-iii结构域中的一者或多者中包含一个或多个氨基酸取代。
[0375]
方面20.如方面14-19中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽与所述crispr-cas效应子多肽的n末端和/或c末端融合。
[0376]
方面21.如方面14-20中任一项所述的crispr-cas效应子融合多肽,所述crispr-cas效应子融合多肽包含核定位信号(nls)。
[0377]
方面22.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽是提供与靶细胞或靶细胞类型上的细胞表面部分的结合的靶向多肽。
[0378]
方面23.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出修饰靶dna的酶活性。
[0379]
方面24.如方面23所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出
一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、dna修复活性、dna损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
[0380]
方面25.如方面24所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
[0381]
方面26.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
[0382]
方面27.如方面26所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
[0383]
方面28.如方面26或方面27所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自o-glcnac转移酶)和脱糖基化活性。
[0384]
方面29.如方面28所述的crispr-cas效应子融合多肽,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
[0385]
方面30.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽是内体逃逸多肽。
[0386]
方面31.如方面30所述的crispr-cas效应子融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:glfxallxllxslwxlllxa(seq id no:12)和glfhallhllhslwhlllha(seq id no:13),其中每个x独立地选自赖氨酸、组氨酸和精氨酸。
[0387]
方面32.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽是叶绿体转运肽。
[0388]
方面33.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽包含蛋白转导结构域。
[0389]
方面34.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽是增加或降低转录的蛋白质。
[0390]
方面35.如方面34所述的crispr-cas效应子融合多肽,其中所述异源多肽是转录阻遏物结构域。
[0391]
方面36.如方面34所述的crispr-cas效应子融合多肽,其中所述异源多肽是转录激活结构域。
[0392]
方面37.如方面14-21中任一项所述的crispr-cas效应子融合多肽,其中所述异源多肽是蛋白结合结构域。
[0393]
方面38.一种核酸,所述核酸包含编码方面14-37中任一项所述的crispr-cas效应子融合多肽的核苷酸序列。
[0394]
方面39.如方面38所述的核酸,其中编码所述crispr-cas效应子融合多肽的所述
核苷酸序列可操作地连接至启动子。
[0395]
方面40.如方面39所述的核酸,其中所述启动子在真核细胞中是功能性的。
[0396]
方面41.如方面40所述的核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0397]
方面42.如方面39-41中任一项所述的核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
[0398]
方面43.如方面38-42中任一项所述的核酸,其中所述核酸是重组表达载体。
[0399]
方面44.如方面43所述的核酸,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
[0400]
方面45.如方面39所述的核酸,其中所述启动子在原核细胞中是功能性的。
[0401]
方面46.如方面38所述的核酸,其中所述核酸分子是mrna。
[0402]
方面47.一种或多种核酸,所述一种或多种核酸包含:
[0403]
(a)编码crispr-cas效应子指导rna的核苷酸序列;和
[0404]
(b)编码crispr-cas效应子多肽的核苷酸序列,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列。
[0405]
方面48.如方面47所述的一种或多种核酸,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有80%或更高同一性的氨基酸序列。
[0406]
方面49.如方面47所述的一种或多种核酸,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸具有85%或更高同一性的氨基酸序列。
[0407]
方面50.如方面47-49中任一项所述的一种或多种核酸,其中所述crispr-cas效应子指导rna包含与图7中所示的crrna序列中的任一者具有80%或更高同一性的核苷酸序列。
[0408]
方面51.如方面47-50中任一项所述的一种或多种核酸,其中所述crispr-cas效应子多肽与核定位信号(nls)融合。
[0409]
方面52.如方面47-51中任一项所述的一种或多种核酸,其中编码所述crispr-cas效应子指导rna的所述核苷酸序列可操作地连接至启动子。
[0410]
方面53.如方面47-52中任一项所述的一种或多种核酸,其中编码所述crispr-cas效应子多肽的所述核苷酸序列可操作地连接至启动子。
[0411]
方面54.如方面52或方面53所述的一种或多种核酸,其中可操作地连接至编码所述crispr-cas效应子指导rna的所述核苷酸序列的所述启动子和/或可操作地连接至编码所述crispr-cas效应子多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。
[0412]
方面55.如方面54所述的一种或多种核酸,其中所述启动子在以下一项或多项中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0413]
方面56.如方面53-55中任一项所述的一种或多种核酸,其中所述启动子是以下一项或多项:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
[0414]
方面57.如方面47-56中任一项所述的一种或多种核酸,其中所述一种或多种核酸
是一种或多种重组表达载体。
[0415]
方面58.如方面57所述的一种或多种核酸,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
[0416]
方面59.如方面53所述的一种或多种核酸,其中所述启动子在原核细胞中是功能性的。
[0417]
方面60.一种真核细胞,所述真核细胞包含以下一项或多项:
[0418]
a)crispr-cas效应子多肽,或包含编码所述crispr-cas效应子多肽的核苷酸序列的核酸,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
[0419]
b)crispr-cas效应子融合多肽,或包含编码所述crispr-cas效应子融合多肽的核苷酸序列的核酸,其中所述融合多肽中存在的crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
[0420]
c)crispr-cas效应子指导rna,或包含编码所述crispr-cas效应子指导rna的核苷酸序列的核酸。
[0421]
方面61.如方面60所述的真核细胞,所述真核细胞包含编码所述crispr-cas效应子多肽的核酸,其中所述核酸整合到所述细胞的基因组dna中。
[0422]
方面62.如方面60或方面61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、蛛形纲动物细胞、真菌细胞、鸟类细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
[0423]
方面63.一种细胞,所述细胞包含方面14-37中任一项所述的crispr-cas效应子融合多肽,或包含编码所述crispr-cas效应子融合多肽的核苷酸序列的核酸。
[0424]
方面64.如方面63所述的细胞,其中所述细胞是原核细胞。
[0425]
方面65.如方面63或方面64所述的细胞,所述细胞包含含有编码所述crispr-cas效应子融合多肽的核苷酸序列的核酸,其中所述核酸分子整合到所述细胞的基因组dna中。
[0426]
方面66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:
[0427]
a)crispr-cas效应子多肽,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
[0428]
b)crispr-cas效应子指导rna,所述crispr-cas效应子指导rna包含与所述靶核酸的靶序列杂交的指导序列,其中所述接触导致通过所述crispr-cas效应子多肽对所述靶核酸的修饰。
[0429]
方面67.如方面66所述的方法,其中所述修饰是对所述靶核酸的切割。
[0430]
方面68.如方面66或方面67所述的方法,其中所述靶核酸选自:双链dna、单链dna、rna、基因组dna和染色体外dna。
[0431]
方面69.如方面66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
[0432]
方面70.如方面66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
[0433]
方面71.如方面66-68中任一项所述的方法,其中所述接触在体内在细胞内部发
生。
[0434]
方面72.如方面70或方面71所述的方法,其中所述细胞是真核细胞。
[0435]
方面73.如方面72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0436]
方面74.如方面70或方面71所述的方法,其中所述细胞是原核细胞。
[0437]
方面75.如方面66-74中任一项所述的方法,其中所述接触导致基因组编辑。
[0438]
方面76.如方面66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述crispr-cas效应子多肽,或包含编码所述crispr-cas效应子多肽的核苷酸序列的核酸;和(b)所述crispr-cas效应子指导rna,或包含编码所述crispr-cas效应子指导rna的核苷酸序列的核酸。
[0439]
方面77.如方面76所述的方法,其中所述接触还包括:将dna供体模板引入所述细胞中。
[0440]
方面78.如方面66-77中任一项所述的方法,其中所述crispr-cas效应子指导rna包含与图7中所示的crrna序列中的任一者具有80%或更高同一性的核苷酸序列。
[0441]
方面79.如方面66-78中任一项所述的方法,其中所述crispr-cas效应子多肽与核定位信号融合。
[0442]
方面80.一种调节从靶dna的转录,修饰靶核酸,或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:
[0443]
a)crispr-cas效应子融合多肽,所述crispr-cas效应子融合多肽包含与异源多肽融合的crispr-cas效应子多肽,其中所述融合多肽中存在的所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
[0444]
b)crispr-cas效应子指导rna,所述crispr-cas效应子指导rna包含与所述靶核酸的靶序列杂交的指导序列。
[0445]
方面81.如方面80所述的方法,其中所述crispr-cas效应子指导rna包含与图7中所示的crrna序列中的任一者具有80%或更高同一性的核苷酸序列。
[0446]
方面82.如方面80或方面81所述的方法,其中所述crispr-cas效应子融合多肽包含核定位信号。
[0447]
方面83.如方面80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。
[0448]
方面84.如方面80-83中任一项所述的方法,其中所述靶核酸选自:双链dna、单链dna、rna、基因组dna和染色体外dna。
[0449]
方面85.如方面80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
[0450]
方面86.如方面80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。
[0451]
方面87.如方面80-84中任一项所述的方法,其中所述接触在体内在细胞内部发
生。
[0452]
方面88.如方面86或方面87所述的方法,其中所述细胞是真核细胞。
[0453]
方面89.如方面88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0454]
方面90.如方面86或方面87所述的方法,其中所述细胞是原核细胞。
[0455]
方面91.如方面80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:(a)所述crispr-cas效应子融合多肽,或包含编码所述crispr-cas效应子融合多肽的核苷酸序列的核酸;和(b)所述crispr-cas效应子指导rna,或包含编码所述crispr-cas效应子指导rna的核苷酸序列的核酸。
[0456]
方面92.如方面80-91中任一项所述的方法,其中所述crispr-cas效应子多肽是无催化活性的crispr-cas效应子多肽(dcrispr-cas效应子多肽)。
[0457]
方面93.如方面80-92中任一项所述的方法,其中所述crispr-cas效应子多肽在ruvc-i结构域、ruvc-ii结构域和ruvc-iii结构域中的一者或多者中包含一个或多个氨基酸取代。
[0458]
方面94.如方面80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶dna的酶活性。
[0459]
方面95.如方面94所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、dna修复活性、dna损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
[0460]
方面96.如方面95所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
[0461]
方面97.如方面80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。
[0462]
方面98.如方面97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
[0463]
方面99.如方面97或方面98所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如,来自o-glcnac转移酶)和脱糖基化活性。
[0464]
方面100.如方面99所述的方法,其中所述异源多肽表现出一种或多种选自以下的酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
[0465]
方面101.如方面80-93中任一项所述的方法,其中所述异源多肽是增加或降低转录的蛋白质。
[0466]
方面102.如方面101所述的方法,其中所述异源多肽是转录阻遏物结构域。
[0467]
方面103.如方面101所述的方法,其中所述异源多肽是转录激活结构域。
[0468]
方面104.如方面80-93中任一项所述的方法,其中所述异源多肽是蛋白结合结构域。
[0469]
方面105.一种转基因的多细胞非人生物体,所述转基因的多细胞非人生物体的基因组包含转基因,所述转基因包含编码以下一项或多项的核苷酸序列:
[0470]
a)crispr-cas效应子多肽,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;
[0471]
b)crispr-cas效应子融合多肽,其中所述融合多肽中存在的crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有50%或更高氨基酸序列同一性的氨基酸序列;和
[0472]
c)crispr-cas效应子指导rna。
[0473]
方面106.如方面105所述的转基因的多细胞非人生物体,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所示的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
[0474]
方面107.如方面105所述的转基因的多细胞非人生物体,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所示的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
[0475]
方面108.如方面105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。
[0476]
方面109.一种系统,所述系统包含:
[0477]
a)crispr-cas效应子多肽和crispr-cas效应子指导rna;
[0478]
b)crispr-cas效应子多肽、crispr-cas效应子指导rna和dna供体模板;
[0479]
c)方面14-37中任一项所述的crispr-cas效应子融合多肽和crispr-cas效应子指导rna;
[0480]
d)方面14-37中任一项所述的crispr-cas效应子融合多肽、crispr-cas效应子指导rna和dna供体模板;
[0481]
e)编码crispr-cas效应子多肽的mrna和crispr-cas效应子指导rna;
[0482]
f)编码crispr-cas效应子多肽的mrna、crispr-cas效应子指导rna和dna供体模板;
[0483]
g)编码方面14-37中任一项所述的crispr-cas效应子融合多肽的mrna和crispr-cas效应子指导rna;
[0484]
h)编码方面14-37中任一项所述的crispr-cas效应子融合多肽的mrna、crispr-cas效应子指导rna和dna供体模板;
[0485]
i)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码crispr-cas效应子多肽的核苷酸序列,和ii)编码crispr-cas效应子指导rna的核苷酸序列;
[0486]
j)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码crispr-cas效应子多肽的核苷酸序列、ii)编码crispr-cas效应子指导rna的核苷酸序列,和iii)
dna供体模板;
[0487]
k)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码方面14-37中任一项所述的crispr-cas效应子融合多肽的核苷酸序列,和ii)编码crispr-cas效应子指导rna的核苷酸序列;以及
[0488]
l)一种或多种重组表达载体,所述一种或多种重组表达载体包含:i)编码方面14-37中任一项所述的crispr-cas效应子融合多肽的核苷酸序列、ii)编码crispr-cas效应子指导rna的核苷酸序列,和dna供体模板。
[0489]
方面110.如方面109所述的crispr-cas效应子系统,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有80%或更高氨基酸序列同一性的氨基酸序列。
[0490]
方面111.如方面109所述的crispr-cas效应子系统,其中所述crispr-cas效应子多肽包含与图6a至图6bb中任一者中所描绘的氨基酸序列具有95%或更高氨基酸序列同一性的氨基酸序列。
[0491]
方面112.如方面109-111中任一项所述的crispr-cas效应子系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
[0492]
方面113.如方面109-111中任一项所述的crispr-cas效应子系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
[0493]
方面114.一种试剂盒,所述试剂盒包含方面109-113中任一项所述的crispr-cas效应子系统。
[0494]
方面115.如方面114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
[0495]
方面116.如方面114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
[0496]
方面117.一种无菌容器,所述无菌容器包含方面109-116中任一项所述的crispr-cas效应子系统。
[0497]
方面118.如方面117所述的无菌容器,其中所述容器是注射器。
[0498]
方面119.一种可植入装置,所述可植入装置包含方面109-116中任一项所述的crispr-cas效应子系统。
[0499]
方面120.如方面119所述的可植入装置,其中所述crispr-cas效应子系统在基质内。
[0500]
方面121.如方面119所述的可植入装置,其中所述crispr-cas效应子系统在储库中。
[0501]
实施例
[0502]
提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述,并且并非意图限制本发明人看待其发明的范围,也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值(例如量、温度等)的精确性,但一些实验误差和偏差应加以说明。除非另外指示,否则份为重量份,分子量为重均分子量,温度以摄氏度计,并且压力在大气压下或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内的(肌内地);i.p.,腹膜内的(腹膜内地);s.c.,皮下的(皮下地)等。
[0503]
实施例1:
[0504]
从多个不同的生态系统中生成了宏基因组数据集,并重建了数百个长度在200kbp至716kbp之间的巨大噬菌体基因组。手动整理至完成34个基因组,包括迄今为止报告的最大的噬菌体基因组。扩展的基因库包括多种新的crispr-cas系统、trna、trna合成酶、trna修饰酶、起始和延伸因子以及核糖体蛋白。噬菌体crispr具有使宿主转录因子和翻译基因沉默的能力,可能作为更大的相互作用网络的一部分,拦截翻译以将生物合成重定向到噬菌体编码的功能。一些噬菌体重新利用细菌系统进行噬菌体防御来消除竞争性噬菌体。在系统发育上定义了来自人和其他动物微生物组、海洋、湖泊、沉积物、土壤和建筑环境的巨大噬菌体的七个主要进化枝。结论是,大量基因库存反映了一种保守的生物策略,这种策略可在广泛的细菌宿主范围内观察到,并导致巨大噬菌体在地球生态系统中的分布。
[0505]
展示了数百个长度为》200kbp的噬菌体序列,这些序列是从各种生态系统所产生的微生物组数据集中重建的。重建了迄今为止已知最大的三个噬菌体完整基因组,长度可达642kbp。图形摘要提供了方法和主要发现的概述。这项研究扩展了对噬菌体生物多样性的理解,并揭示了生态系统的多样性,在这些生态系统中,噬菌体的基因组大小可与小细胞细菌相匹敌。
[0506]
生态系统采样
[0507]
宏基因组数据集来自人粪便和口腔样品、其他动物粪便样品、淡水湖泊和河流、海洋生态系统、沉积物、温泉、土壤、深层地下栖息地和建筑环境(图5)。对于这些的子组,先前已发表了对细菌、古细菌和真核生物的分析。显然不是细菌、古细菌、古细菌病毒、真核或真核病毒的基因组序列根据其基因目录归为噬菌体或类质粒。对长度接近或》200kbp的从头组装片段进行环化测试,并选择一个子组进行手动验证和整理直至完成(参见方法)。
[0508]
基因组大小和基本特征
[0509]
重建了358个噬菌体、3个质粒和4个噬菌体-质粒序列(图5)。排除推断为质粒的其他序列(参见方法),仅保留那些编码crispr-cas基因座的序列(参见下文)。与噬菌体的分类一致,鉴定了多种噬菌体相关基因,包括参与裂解和编码结构蛋白的基因,并记录了其他预期的噬菌体基因组特征。一些噬菌体预测的蛋白质很大,长度可达7694个氨基酸。其中许多被暂时注释为结构蛋白。将180个噬菌体序列环化,其中34个手动整理至完成,在一些情况下,方式是解析复杂的重复区域及其编码的蛋白质(参见方法)。一些基因组在双向复制中显示出清晰的gc歪斜信号,这一信息限制了它们的复制起始点。三个最大的完整的、手动整理的且环化的噬菌体基因组的长度分别为634、636和643kbp,代表了迄今为止报告的最大的噬菌体基因组。以前,最大的环化噬菌体基因组的长度为596kbp(paez-espino等人(2016)同上)。同一项研究报告了一个长度为630kbp的环状基因组,但这是一个人工制品。在img-vr中,拼接序列的问题非常突出,因此这些数据没有被纳入进一步的分析。来自该研究、refseq和已发表研究的完整和环化基因组被用来描述噬菌体基因组大小分布的当前视图(方法)。完整噬菌体的中位基因组大小为约52kbp(图1a),与之前报告的约54kpp的平均大小相似(paez-espino等人(2016)同上)。因此,此处报告的序列大大扩展了具有异常大基因组的噬菌体的库存(图1b)。
[0510]
有趣的是,鉴定出两个长度为712kbp和》716kbp的相关序列并进行了手动整理(图5)。基于其整体基因组含量和末端酶基因的存在,将它们归类为噬菌体。在基因组两端由小重复序列组成的几个kb长的复杂区域混淆了组装。如果重复区域能够合理化,这些基因组
有望被关闭。
[0511]
一些基因组的编码密度非常低(9个《75%),因为使用的遗传密码不同于用于基因预测的遗传密码。针对lak噬菌体也报告了类似的现象(devoto等人(2019)nat microbiol以及ivanova等人(2014)science 344:909-913)。与之前的研究不同的是,这些基因组似乎使用了遗传密码16,其中tag通常是一个终止密码子,编码一个氨基酸。
[0512]
仅在一种情况下,鉴定出一个》200kbp的序列,基于向侧翼细菌基因组序列转变将其归类为原噬菌体。然而,大约有一半的基因组没有被环化,因此不能排除它们来自原噬菌体。某些基因组中存在整合酶,提示在某些条件下存在溶源性生活方式。
[0513]
宿主、多样性和分布
[0514]
一个有趣的问题与具有巨大基因组的噬菌体的进化史有关。它们是最近在正常大小的噬菌体进化枝内基因组扩张的结果,还是大量的基因库存是一种既定的、持久的策略?为了研究这一点,构建了在所有大小的噬菌体公共数据库中用作背景序列的大末端酶亚单位(图2)和主要衣壳蛋白的系统发育树(方法)。来自大噬菌体基因组的许多序列聚类在一起,定义了进化枝。对数据库序列的基因组大小信息的分析表明,属于这些进化枝的公共序列来自基因组长度至少为120kbp的噬菌体。最大的进化枝,这里称为mahaphage(maha在梵语中是巨大的意思),包括本研究中所有最大的基因组以及来自人和动物微生物组的lak基因组(devoto等人(2019)同上)。另外六个明确定义的大噬菌体簇也被鉴定出来,它们在不同的语言中被命名为“巨大的”。这些进化枝的存在确立了大基因组大小是一种相对稳定的性状。在这七个进化枝中,噬菌体从各种环境类型中取样,表明这些大型噬菌体及其宿主在整个生态系统中的多样化。还检查了足够密切相关的使得基因组在很大程度上可以对齐的噬菌体的环境分布。在17个例子中,这些噬菌体出现在至少两种生物群落类型中。
[0515]
为了确定细菌宿主系统发育与噬菌体进化枝的关联程度,使用来自相同或相关样品中细菌的crispr间隔序列靶向以及噬菌体上发生的正常宿主相关基因的系统发育来鉴定噬菌体宿主(参见下文)。还测试了噬菌体基因库存的细菌隶属关系的预测价值(方法),发现在每种情况下,crispr间隔序列靶向和门级系统发育图谱与基因库存特征一致。因此,所述方法被用来预测许多噬菌体的宿主的门级隶属关系。结果确定了厚壁菌门和变形杆菌门宿主的重要性,并表明与其他环境相比,厚壁菌门噬菌体在人和动物肠道中的患病率更高(图5)。值得注意的是,预测所有噬菌体的四个最大的基因组(长度为634-716kbp)在拟杆菌门中复制,具有540-552kbp基因组的lak噬菌体也是如此(devoto等人(2019)同上),所有簇均在mahaphage内。总体而言,预测在系统发育上分组在一起的噬菌体会在同一门的细菌中复制。
[0516]
代谢、转录、翻译
[0517]
噬菌体基因组编码预测定位于细菌膜或细胞表面的蛋白质。这些可能影响宿主对其他噬菌体感染的易感性。人们认为几乎所有先前报告的基因类别都在感染期间增强宿主代谢。许多噬菌体的基因参与嘌呤和嘧啶的从头生物合成步骤以及使核酸和核糖核酸以及核苷酸磷酸化状态相互转变的多个步骤。有趣的是,这些基因与那些有着非常小的细胞和假定的共生生活方式的细菌的基因非常相似(castelle和banfield(2018)cell 172:1181-1197)。
[0518]
值得注意的是,许多噬菌体具有预测功能在转录和翻译中的基因。噬菌体每个基
因组编码多达64个trna,其序列与其宿主的序列不同。通常,每个基因组的trna数量随着基因组长度的增加而增多(图1)。噬菌体每个基因组通常有多达16个trna合成酶,这些酶与噬菌体宿主的酶相关,但又截然不同。噬菌体可能使用这些蛋白质为它们自己的trna变体提供宿主来源的氨基酸。基因组的一个子组具有用于trna修饰和修复作为宿主防御噬菌体感染的一部分而切割的trna的基因。还确定了每个基因组多达三个可能的核糖体蛋白,其中最常见的是rps21(一种最近才在噬菌体中报告的现象)(mizuno等人(2019)nat.commun.10:752);图3)。有趣的是,注意到噬菌体rps21序列具有富含精氨酸、赖氨酸和苯丙氨酸的n末端延伸:结合核酸的残基。据预测,这些噬菌体核糖体蛋白会取代核糖体中的宿主蛋白(mizuno等人(2019)同上),并且这些延伸从核糖体表面靠近翻译起始位点的位置突出来定位噬菌体mrna。
[0519]
一些噬菌体的基因预测会在其他蛋白质合成步骤中发挥作用,包括确保高效翻译。一些编码起始因子1或3或两者,有时也编码延伸因子g、tu、ts和释放因子。还确定了编码核糖体再循环因子的基因,以及拯救在受损转录物上停滞的核糖体并触发异常蛋白质的降解的tmrna和小蛋白b(smpb)。tmrna也被噬菌体用来感知宿主细胞的生理状态,当宿主体内停滞的核糖体数量很高时,tmrna可以诱导细胞裂解。
[0520]
这些观察表明,一些大型噬菌体可以通过许多方式实质性地拦截和重定向核糖体功能。由于噬菌体mrna序列需要与宿主16s rrna的3’末端结合以启动翻译,因此预测了它们的mrna核糖体结合位点。在大多数情况下,噬菌体mrna具有规范的shine dalgarno(sd)序列,另有约15%具有非标准的sd结合位点。然而,有趣的是,其基因组编码可行或可能的rps1的噬菌体很少具有可识别或规范的sd序列。因此,噬菌体编码的rps1可以选择性地启动噬菌体mrna的翻译。总体而言,噬菌体基因似乎通过拦截最早的翻译步骤,将宿主的蛋白质生产能力重定向为有利于噬菌体基因。这些推论与一些真核病毒的发现相一致,真核病毒控制着蛋白质合成的每个阶段(jaafar和kieft(2019)nat.rev.microbiol.17:110-123)。有趣的是,一些假定的大型质粒也有类似的翻译相关基因组。
[0521]
大约一半的噬菌体基因组有1至50个长度大于25nt的序列,可以折叠成完美的发夹。回文(具有二重对称性的序列)几乎完全是基因间的,并且每个回文在基因组中都是独一无二的。一些回文,但不是全部,被预测为rho独立的终止子,因此提供了基因作为独立调控单元的功能的线索(方法)。然而,一些回文长度高达74bp,并且34个基因组的实例长度≥40nt,似乎比正常的终止子更大。这些几乎只发生在mahaphage中,可能有替代或额外的功能,诸如调节mrna通过核糖体的运动。
[0522]
crispr-cas介导的相互作用
[0523]
鉴定出噬菌体上几乎所有主要类型的crispr-cas系统,包括cas9、最近描述的v-i型(yan等人(2019)science 363:88-91),以及v-f型系统的新亚型(harrington等人(2018)science 362:839

842.)。ii类系统(ii型和v型)是首次在噬菌体中报告。大多数效应核酸酶(用于干扰)具有保守的催化残基,这意味着它们可能是功能性的。
[0524]
与之前描述的具有crispr系统的噬菌体例子(seed等人(2013)nature 494:489-491)不同,几乎所有的噬菌体crispr系统都缺乏间隔序列获取机制(cas1、cas2和cas4),而且许多系统缺乏可识别的干扰用基因。例如,两个相关噬菌体都有i-c型变异系统,该系统缺少cas1和cas2,并用解旋酶蛋白代替cas3。他们还拥有第二个系统,该系统中含有一个新
的候选的约750aa v型效应子蛋白,所述效应子蛋白出现在crispr阵列近侧。在一些情况下,缺乏干扰和间隔序列整合用基因的噬菌体与其宿主具有相似的crispr重复序列,因此可能利用宿主合成的cas蛋白实现这些功能。或者,缺乏效应核酸酶的系统可以在不发生切割的情况下抑制靶序列的转录(luo等人(2015)nucleic acids res.43:674-681;stachler和marchfelder(2016)j.biol.chem.291:15226-15242)。
[0525]
噬菌体编码的crispr阵列通常是紧凑的(3-55个重复序列;每一阵列中位数为6)。这一范围大大小于通常在细菌基因组中发现的范围(toms和barrangou(2017)biol.direct 12:20)。一些噬菌体间隔序列靶向其他噬菌体的核心结构和调控基因。因此,噬菌体显然增加了宿主的免疫武器库,以防止竞争性噬菌体的感染。
[0526]
鉴定出了若干编码各种类型的crispr-cas系统的大型质粒或类质粒基因组。其中一些系统也缺乏cas1和cas2。最常见的是,间隔序列靶向其他质粒的动员和接合相关基因,以及噬菌体的核酸酶和结构蛋白。
[0527]
一些噬菌体编码的crispr基因座具有间隔序列,所述间隔序列靶向同一样品或来自同一研究的样品中的细菌。假设靶向细菌是这些噬菌体的宿主,这一推论得到了其他宿主预测分析的支持。一些具有靶向细菌染色体的间隔序列的基因座编码可以切割宿主染色体的cas蛋白,而另一些则不会。可以使宿主基因的靶向失效或改变其调控,这在噬菌体感染周期中可能是有利的。一些噬菌体crispr间隔序列靶向细菌基因间区域,可能通过阻断启动子或沉默非编码rna来干扰基因组调控。
[0528]
crispr靶向细菌染色体的最有趣的实例之一是参与转录和翻译的基因。例如,一个噬菌体靶向宿主基因组中的σ
70
转录因子,同时编码σ
70
的基因。此前有报道称噬菌体携带抗σ因子劫持σ70,这也可能发生在一些基因组编码抗σ因子的巨大噬菌体上。在另一个实例中,噬菌体间隔序列靶向宿主甘氨酰trna合成酶。
[0529]
有趣的是,没有证据表明宿主编码的间隔序列靶向任何携带crispr的噬菌体,这意味着还没有发现噬菌体-宿主-crispr相互作用的成分。然而,噬菌体crispr靶向其他也被细菌crispr靶向的噬菌体(图4)表明,噬菌体-宿主关联被噬菌体系统发育图谱广泛证实。
[0530]
一些大型假单胞菌噬菌体编码抗crispr(acr)(bondy-denomy等人(2015)nature 526:136-139;pawluk等人(2016)nat microbiol 1:16085)和组装核样隔室的蛋白质,将它们的复制基因组与宿主防御和其他细菌系统分开。鉴定出了在与acrva5、acrva2和acriia7聚类的巨大噬菌体基因组中编码的蛋白质,这些蛋白质可起到acr的作用。还鉴定了定位于“噬菌体核”的微管蛋白同源物(phuz),以及与蛋白质屏障成分相关的蛋白质。因此,噬菌体“核”可能是大型噬菌体中相对常见的特征。
[0531]
方法
[0532]
噬菌体和质粒基因组鉴定
[0533]
在当前研究中生成的数据集、来自先前研究的数据集、tara oceans微生物组(karsenti等人(2011)plos biol.9:e1001177)和global oceans virome(gov;(roux等人(2016)nature 537:689-693))中搜索可能来源于基因组长度为》200kbp的噬菌体的序列组件。读段组装、基因预测和初始基因注释遵循先前报告的标准方法(wrighton等人(2014)isme j.8:1452-1463)。
orthologous groups r90(vogdb.org)中搜索蛋白质,进一步进行功能注释。使用细菌模型利用trnascan-se 2.0(lowe和eddy,(1997)nucleic acids res.25:955

964)鉴定trna。使用aragorn v1.2.38(laslett和canback,(2004)nucleic acids res.32:11

16)给tmrna分配细菌/植物遗传密码。使用两步程序将蛋白质序列聚类成家族。使用快速灵敏的蛋白质序列搜索软件mmseqs(hauser等人(2016)bioinformatics 32:1323

1330)完成第一蛋白质聚类。使用e值:0.001、灵敏度:7.5和覆盖率:0.5进行全比对全(all-vs-all)序列搜索。基于成对相似性构建序列相似性网络,并执行mmseqs的集合覆盖贪心算法来定义蛋白质亚簇。由此产生的亚簇被定义为亚家族。为了测试远距离同源性,使用hmm-hmm比较将亚家族分组为蛋白质家族。使用mmseqs2的result2msa参数比对具有至少两个蛋白质成员的每个亚家族的蛋白质,并使用hhpred套件从多个序列比对中构建hmm配置文件。然后使用hhpred套件(参数为-v 0-p 50-z 4-z 32000-b 0-b 0)中的hhblits(remmert等人(2011)nat.methods 9:173

175)对这些亚家族进行相互比较。对于概率评分≥95%且覆盖率≥0.50的亚家族,采用相似性评分(概率x覆盖率)作为在使用markov聚类算法(膨胀参数为2.0)进行最终聚类时输入网络的权重。这些簇被定义为蛋白质家族。使用geneious repeat finder识别发夹(回文,基于在正向和反向上相同的重叠重复序列)并使用vmatch(kurtz(2003)同上)在数据集范围内进行定位。将具有100%相似性的》25bp的重复序列制成表格。
[0541]
用于大小比较的参考基因组
[0542]
利用ncbi病毒门户,并从细菌宿主中仅选择完整的dsdna基因组,恢复refseq v92基因组。从img/vr下载基因组(paez-espino等人(2016)同上),只保留预测细菌宿主的标记为“环状”的序列组件。许多基因组是错误拼接重复组装的结果。鉴于img/vr中存在基于错误拼接的序列,本研究仅考虑该来源中》200kb的序列;其中的一个子组作为人工序列被删除。
[0543]
宿主预测
[0544]
通过考虑每个噬菌体基因组的每个cds的uniprot分类学特征,预测噬菌体的细菌宿主的门隶属关系。对每个噬菌体基因组的门级匹配进行总计,命中次数最多的门被认为是潜在宿主门。然而,只有当这个门的计数是下一个计数最多的门的3倍时,才会被指定为暂定的噬菌体宿主门。使用crispr靶向进一步分配和验证噬菌体宿主。在重建每个噬菌体基因组的相同环境下,在》1kbp的序列组件上预测crispr序列。提取间隔序列并使用blastn-short(altschul等人(1990)j.mol.biol.215:403-410)针对同一位点的基因组进行搜索。含有匹配长度为》24bp且具有≤1个错配或与基因组具有至少90%序列同一性的间隔序列的序列组件被视为目标。在噬菌体的情况下,匹配用于推断噬菌体-宿主关系。在所有情况下,基于分类学分析和crispr靶向的宿主门预测结果完全一致。类似地,宿主的门是基于也在宿主基因组中出现的噬菌体基因(例如,参与翻译和核苷酸反应)的系统发育分析来预测的。基于计算的分类学特征和系统发育树的推论也完全一致。
[0545]
替代遗传密码
[0546]
在使用标准细菌密码(密码11)进行基因预测导致看似异常低的编码密度的情况下,研究了潜在的替代遗传密码。除了使用fast and accurate genetic code inference and logo(facil;(dutilh等人(2011)bioinformatics 27:1929-1933))进行预测外,鉴定了功能明确的基因(例如聚合酶、核酸酶),并鉴定了比预期短的终止基因的终止密码子。然
后使用glimmer和prodigal集合重新预测基因,这样密码子就不会被解释为终止密码子。对其他重新目的化终止密码子组合进行了评估,由于不太可能进行基因融合预测,排除了候选密码(例如,密码6,只有一个终止密码子)。
[0547]
通过使用真核环境重新预测trna,在一些比预期长的伪trna中鉴定出内含子(因为在细菌和噬菌体中trna扫描没有发现内含子)。
[0548]
末端酶系统发育分析
[0549]
大末端酶系统发育树是通过从上述注释管线中恢复大末端酶来构建的。保留与pfam、tigrfams和vog匹配》30比特得分(bits core)的cds。无论比特得分如何,对任何命中大末端酶的cds都使用hhblits(steinegger等人bioinformatics 21:951-960)针对uniclust30_2018_08数据库进行搜索。然后针对pdb70数据库进一步搜索所得比对。在手动验证后,还将聚类在具有大末端酶hmm的蛋白质家族中的其余cds包括在内。使用hhpred(steinegger等人同上)和jp red(cole等人(2008)nucleic acids res.36:w197-201)对检测到的大末端酶进行手动验证。在本研究中将来自于》200kb(paez-espino等人(2016)同上)噬菌体基因组和来自refseq r92的所有》200kb的完整dsdna噬菌体基因组的大末端酶也包含在噬菌体cds的蛋白质家族聚类中。使用cd-hit将所得末端酶以95%氨基酸同一性(aai)聚类以减少冗余(huang等人(2010)bioinformatics 26:680-682)。通过在refseq蛋白质数据库中搜索所得cds集合并保留前10个最佳命中,将较小的噬菌体基因组包括在内。那些与pfam、tigrfams或vo g没有大的末端酶匹配的命中被排除在进一步考虑之外,其余的集合被聚类为90%aai。使用mafft v7.407(
‑‑
localpair
‑‑
maxiterate 1000)对最后一个大末端酶cds集合进行比对并删除比对分数差的序列,并对所得集合进行重新比对。使用iqtree v1.6.9(nguyen等人(2015)mol.biol.evol.32:268-274)推断系统发育树。
[0550]
噬菌体编码的trna合成酶树
[0551]
使用一组来自ncbi的最接近的参考集合和来自当前研究的细菌基因组,为噬菌体编码的trna合成酶、核糖体和起始因子蛋白序列构建系统发育树。
[0552]
crispr-cas基因座检测和宿主鉴定
[0553]
使用与鉴定细菌crispr-cas基因座相同的方法鉴定噬菌体编码的crispr-cas基因座,将使用minced(github.com/ctskennerton/minced)和crisprdetect(biswas等人2016)从crispr基因座的重复序列之间提取的间隔序列与从同一位点重建的序列进行比较并将靶标分类为细菌、噬菌体或其他。
[0554]
由于许多噬菌体宿主无法通过crispr靶向来鉴定(可能是因为噬菌体在含有敏感宿主的样品中增殖,或者靶标发生的突变足以避免间隔序列检测),因此使用额外的证据来确定宿主身份。由于这些方法的不确定性,可能的噬菌体预测仅在门级别上进行。在这一分析中,计算了在任何基因组上编码的具有与每个门的最佳预测蛋白质匹配的基因的分数。只有当最具代表性的门的频率超过第二常见门的频率≥3倍时,才被提议为暂定的细菌宿主。基于从crispr靶向或系统发育分析确认的宿主门信息,该阈值被证实为保守的。
[0555]
数据可用性
[0556]
补充文件“genbank”包括本研究报告的基因组序列的genbank格式文件。所有读段都保藏在ncbi中的短读段存档(如果尚未存放在那里)和基因组序列中。
[0557]
虽然本发明已经参考其特定实施方案进行描述,但是本领域技术人员应理解,可
在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外,为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围,可进行许多修改。所有此类修改意图处于所附权利要求的范围内。
  •  标签:  
  • 相关阅读
    暂无相关信息