一种单碱基编辑载体及其构建和应用的制作方法

1.本发明涉及生物技术领域，具体涉及一种单碱基编辑载体及其构建和应用。

背景技术：

2.传统育种中利用的遗传变异主要来自于自然突变、物理或化学诱变，存在变异概率低、周期长、位点不可控等缺点。成簇规律间隔短回文重复序列(clustered regularly interspaced short palindromic repeats/crispr associated proteins，crispr/cas)系统作为第三代基因编辑技术，由单链引导rna(single-guide rna,sgrna)与切割靶序列的cas内切核酸酶组成，其主要依赖sgrna引导核酸内切酶在目标基因组位置产生双链断裂(double-strand break,dsb)，而dsb可以通过非同源末端连接(non-homologous end joining,nhej)或同源重组(homology recombination,hr)2种方式进行修复，修复过程中会引起靶标位置核苷酸序列的缺失、插入或者替换，从而实现基因编辑。
3.为满足不同的编辑目的，研究人员以crispr/cas系统为基础，通过融合表达cas9突变蛋白、胞嘧啶脱氨酶或人工进化的腺嘌呤脱氨酶，开发出能够对靶位点进行精准单碱基编辑的系统。该系统在不引起dna双链断裂的情况下，实现胞嘧啶(cytosine,c)转化胸腺嘧啶(thymine,t)/鸟嘌呤(guanine,g)转化腺嘌呤(adenine,a)的替换且通过不断改进大大提高单碱基编辑效率，减少插入和删除(insertion and deletion,indel)和非预期突变。该系统已成功在小麦(triticumaestivum)、水稻(oryza sativa)、棉花(gossypium)、玉米(zea mays)等物种上实现安全高效的单碱基替换编辑。但目前该系统仅利用ncas9蛋白突变体(cas9 nicknase,ncas9)或dcas9蛋白突变体(deactivated cas9,dcas9)作为效应蛋白，所识别的pam序列为鸟嘌呤/胞嘧啶富集区。因此利用现有的碱基编辑系统无法在腺嘌呤/胸腺嘧啶富集区域进行编辑操作。

技术实现要素：

4.本发明针对目前亟需一种可以在腺嘌呤/胸腺嘧啶富集区域进行编辑操作的系统，提供了一种单碱基编辑载体及其构建和应用。
5.为此，本发明一方面提供了一种单碱基编辑载体，其包含dfncpf1序列和crrna序列。
6.在本发明优选的实施方案中，所述的单碱基编辑载体为dfncpf1-cbe-bt2，载体结构如图2b所示。
7.本发明另一方面提供了包含本发明所述的单碱基编辑载体的宿主细胞。
8.在本发明优选的实施方案中，所述的宿主细胞为玉米原生质体。
9.本发明另一方面提供了一种单碱基编辑载体的构建方法，其包括如下步骤：
10.1、构建包含dfncpf1序列的载体；
11.2、合成包含crrna序列的表达框；
12.3、构建包含dfncpf1序列和crrna序列的单碱基编辑载体。
13.在本发明优选的实施方案中，所述的单碱基编辑载体的构建方法，其包括如下步骤：
14.1、以pb-ncas9-pbe载体为骨架，切除ncas9序列，以puc57-dfncpf1载体为模板，扩增dfncpf1序列，将dfncpf1序列连入线性化的pb-ncas9-pbe载体，构建dfncpf1-pbe载体，并切除osu3-sgrna-scaffold表达框；
15.2、选择osu6启动子，mature-crrna序列，合成osu6-crrna-polyt表达框，并放入puc57-simple载体；
16.3、设计包含玉米bt2基因靶序列及同源臂的引物，以osu6-crrna-polyt载体为模板进行扩增，连入经酶切线性化的dfncpf1-pbe载体，构建dfncpf1-cbe-bt2载体。
17.本发明另一方面提供了本发明所述的单碱基编辑载体在对靶序列上特定碱基进行定向替换中的应用，其能够识别ttn作为原型间隔序列毗邻基序(pam)，并对靶位点进行单碱基编辑。
18.在本发明优选的实施方案中，所述单碱基编辑发生在靶位点5’端8-12bp的编辑框内，单碱基编辑类型是将鸟嘌呤(g)转换为胸腺嘧啶(t)，或者将胞嘧啶(c)转换为腺嘌呤(a)。
19.在本发明更加优选的实施方案中，所述的单碱基编辑为将靶位点5’端第11位碱基的胞嘧啶(c)转换为腺嘌呤(a)。
20.本发明最后一方面提供了采用本发明所述的单碱基编辑载体转化的植物体，其中优选为玉米，更加优选为玉米原生质体。
21.由上述描述可知，与现有技术采用的cas9突变蛋白相比，本发明采用了fncpf1蛋白，其属于cpf1(crispr from prevotella and francisella 1,cpf1)。虽然与cas9同属于class2蛋白家族，但其具有如下的效果和优势。
22.1、cas9需要crispr衍生的rna(crispr derived rna,crrna)与反式激活rna(trans-activating rna,tracrrna)靶向dna，而fncpf1仅需crrna作为向导，且fncpf1具有加工crrna的能力。
23.2、cas9及其直系同源蛋白在靶位点3’端识别富含g的pam(5
’‑
ngg-3’)，而fncpf1以及其直系同源蛋白在靶位点的5’端识别富含t的pam[5
’‑
(t)ttn-3’]，可以在腺嘌呤/胸腺嘧啶富集区域进行编辑操作。
[0024]
3、fncpf1仅具有保守的ruvc核酸酶结构域，而cas9具有hnh结构域与ruvc结构域。
[0025]
4、fncpf1在目标dna中产生交错的末端断裂，而cas9介导的双链断裂切口为平末端。
[0026]
5、crispr/fncpf1系统的脱靶效率低于crispr/cas9系统。
附图说明
[0027]
图1：dfncpf1氨基酸序列。
[0028]
图2：靶位点表达元件以及dfncpf1-cbe-bt2载体结构。
[0029]
2a：osu6-crrna表达框序列；
[0030]
2b：dfncpf1-cbe-bt2载体结构。
[0031]
图3：蓝白斑筛选鉴定结果。
[0032]
3a：三种突变类型以及对应的单菌落测序峰图；
[0033]
3b：20个单菌落的测序比对序列。
[0034]
图4：扩增片段二代测序分析结果。
[0035]
4a：靶标序列单碱基编辑结果热图；
[0036]
4b：靶序列单碱基突变类型及reads占比情况；
[0037]
4c：靶序列胞嘧啶变化情况。
[0038]
图5：脱靶位点测序结果比对。
[0039]
5a：r2 ot a测序结果；
[0040]
5b：r2 ot b测序结果；
[0041]
5c：r2 ot c测序结果。
具体实施方式
[0042]
下面通过实施例对本发明作进一步的详细说明，旨在用于说明本发明而非限定本发明。应当指出，对于本领域技术人员而言，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也同样落入本发明的保护范围之内。
[0043]
实施例1：dfncpf1-cbe-bt2载体构建
[0044]
以pb-ncas9-pbe载体为骨架，利用限制性内切酶aflii和mlui切除ncas9。
[0045]
fncpf1为cpf1效应蛋白，为创制dfncpf1蛋白突变体，获得了fncpf1氨基酸序列，如序列2所示。并通过序列比对确定dfncpf1的突变位点，即d917a，e1006a，d1227a，具体见附图1。
[0046]
根据单子叶植物基因组密码子特点，对其进行优化，创制可在玉米中外源表达的dfncpf1序列，并放入puc57中间载体。
[0047]
以puc57-dfncpf1载体为模板pcr扩增已合成的dfncpf1序列，回收酶切载体以及pcr产物，通过同源重组酶连入线性化的pb-ncas9-pbe载体，替换ncas9序列为dfncpf1序列，构建dfncpf1-pbe载体，并用hindiii酶切掉其osu3-sgrna-scaffold表达框。
[0048]
为获得靶位点信息，通过crispr rgen tools网站(http://www.rgenome.net/cas-designer/)进行靶位点分析，在bt2基因序列的第二外显子区域上挑选打分相对较高，且富含c
·
g碱基的序列作为crispr的靶点。
[0049]
选择osu6启动子，mature-crrna序列，合成osu6-crrna-polyt表达框，具体序列如序列3或附图2a所示，并将其放入puc57-simple载体。
[0050]
设计包含bt2基因靶序列及同源臂的引物，以osu6-crrna-polyt载体为模板进行扩增，通过同源重组酶连入经限制性内切酶hindiii线性化的dfncpf1-pbe载体，构建成ubi-rapobec1-dfncpf1-osu6-crrna-bt2载体，得到靶向玉米内源基因bt2的胞嘧啶单碱基编辑双元载体，命名为dfncpf1-cbe-bt2，载体结构见附图2b，载体序列如序列1所示。
[0051]
载体构建过程中采用的特异性引物见表1。
[0052]
表1引物名称及序列
[0053][0054]
pcr体系(50μl)：2
×
phanta master mix 25μl，模板1μl，正、反向引物(10μmol
·
l-1
)各2μl，nuclease-free h2o 20μl。反应程序：95℃预变性5min；95℃变性15s，60℃退火15s，72℃延伸(dfncpf1 4min；osu6-crrna表达框20s)，扩增35个循环；72℃再延伸5min。
[0055]
酶切体系(50μl)：限制性内切酶2μl，模板5μg，cutsmart buffer 5μl，nuclease-free h2o补至体系为50μl。37℃孵育2.5h至酶解完全。
[0056]
实施例2：玉米原生质体制备及转化
[0057]
准备30株避光土培13d的玉米黄花苗，取第二叶中间较嫩部分并切至1～2mm丝。将其浸泡至20ml酶解液当中(1％纤维素酶r-10，0.2％离析酶r-10，0.4mol
·
l-1
d-甘露醇，20mmol
·
l-1
kcl，20mmol
·
l-1
mes，10mmol
·
l-1
cacl2，0.1％bsa)，黑暗中室温震荡(40r
·
min-1
)酶解(4-6h)。使用350目尼龙膜过滤酶解产物并置于50ml离心管，4℃，100g
·
min-1
离心3min后弃上清。使用预冷w5 buffer【2mmol
·
l-1
mes(ph 5.7)，154mmol
·
l-1
nacl，125mmol
·
l-1
cacl2，5mmol
·
l-1
kcl】重悬沉淀，洗涤沉淀1次。离心后弃上清，再次加入w5溶液，冰上静置30min。弃掉上清，加入适量mmg buffer【4mmol
·
l-1
mes(ph 5.7)，0.4mmol
·
l-1
d-甘露醇，15mmol
·
l-1
mgcl2】使原生质体浓度达到2
×
107个
·
ml-1
。
[0058]
将100μg目的载体与5μg对照载体加入1ml原生质体mmg悬浮液当中，混匀后冰置10min。加入1ml预制peg-ca
2+
溶液(40％peg-4000，200mmol
·
l-1
d-甘露醇，100mmol
·
l-1
cacl2)混匀，室温避光放置15min。加入2倍体积w5 buffer，清洗2次后加入20ml w5 buffer。最后将原生质体培养液置入细胞培养皿(1％bsa孵育0.5h)，避光28℃培养12-16h。
[0059]
实施例3：靶基因编辑结果初筛
[0060]
在470nm激发光、525nm发射光条件下，使用全自动荧光倒置显微镜，观察原生质体中绿色荧光信号的表达情况，初步判定转化效率。
[0061]
采用ctab法提取转化原生质体基因组dna，使用2
×
phanta max master mix高保真dna聚合酶，通过两种改良的聚合酶链式反应-限制性核酸内切酶(polymerase chain reaction/rstriction endonuclease,pcr/re)方法对编辑位点进行检测：
[0062]
1、扩增靶位点序列后，使用bglⅱ内切酶酶切扩增产物判断编辑情况。
[0063]
2、bglⅱ内切酶酶切基因组dna来富集已编辑序列。以酶切产物为模板，巢式pcr特异扩增目的序列并sanger测序检测编辑情况。其中巢式pcr反应体系及反应程序、基因组dna酶切体系均与实施例1中一致，第二轮扩增的反应体系中模板为1μl第一轮pcr产物。
[0064]
经上述步骤1或步骤2检测，发现编辑现象后，以步骤2中巢式pcr产物为模板进行ta克隆检测。按照北京全式金生物公司的cloning kit的实验步骤转化载体至大肠杆菌感受态细胞中。挑选20个白色单克隆，进行sanger测序，分析编辑情况。
[0065]
结果发现靶位点序列存在3种不同突变类型，主要发生在靶位点5’端8-12bp的编辑框内，其中单菌落碱基变化类型5个为g
→
t，5个为c
→
a，2个为c
→
a与g
→
t，剩余8个则没有发生编辑，具体见附图3，说明该载体对靶位点具有一定编辑能力。
[0066]
实施例4：靶基因编辑结果二代测序检测
[0067]
经过初步鉴定后，以原生质体基因组dna为模板，巢式pcr特异扩增靶位点序列，巢式pcr反应体系及反应程序与实施例3中一致。将扩增产物交由深圳华大基因股份有限公司构建测序文库，文库质控合格后由该公司bgi自主测序平台dnbseq
tm
进行文库测序。采用华大soapnuke软件过滤数据，去除接头污染和低质量reads。将高质量clean data根据以下标准使用python语言进行数据可视化分析：
[0068]
1、reads数超过1000且质量不低于5；
[0069]
2、相同变化的reads超过1000条则判定为一种突变类型；
[0070]
3、位点编辑效率＝(编辑位点reads数/总reads数)
×
100％；
[0071]
4、基因插入缺失频率＝(该片段发生indel的reads数/该片段样品中找到完整编辑区域的reads数)
×
100％。
[0072]
通过建库测序，共拼接出6903954条质量合格的reads，其中6469637条reads定位到靶序列。超过1000条reads发生相同变化，则会被判定为一种突变类型，以此标准将数据分类汇总后制成热图，具体见附图4a。
[0073]
其中占比最多的突变类型为胞嘧啶碱基颠换为腺嘌呤碱基(c
→
a)，共151594条reads，位于靶位点5＇端第11个碱基。
[0074]
根据位点编辑效率＝(编辑位点reads数/总reads数)
×
100％，显示该位点的编辑效率为2.5％。
[0075]
为分析dfncpf1介导单碱基编辑系统的编辑偏好位点，将各碱基的变化情况及对应编辑效率汇总，具体见附图4b。发现除了c
→
a外，位点编辑效率相对较高的为0.9％的g
→
t、0.3％的g
→
c以及0.2％的c
→
g，分别发生在靶位点5’端第8个碱基、第23与24个碱基。
[0076]
由此可见，本发明所用单碱基编辑载体主要作用为产生胞嘧啶到胸腺嘧啶的改变，因此统计了靶序列中胞嘧啶变化的种类，具体见附图4c。结果表明，靶位点5’末端出现胞嘧啶转换为胸腺嘧啶(c
→
t)，位点的编辑效率为0.1％，具体见附图4b；位于靶序列5’端第11个碱基也出现c
→
t现象，但该点发生变化的reads数仅为1073，位点编辑效率不足0.02％。
[0077]
实施例5：脱靶效率分析
[0078]
为分析dfncpf1-cbe-bt2编辑载体是否存在脱靶情况，根据已设计靶位点序列，使用crispr rgen tools网站(http://www.rgenome.net/cas-designer/)进行脱靶位点预测，设置mismatch number为5，并选择打分较高的3个靶位点。选择3个排名靠前的靶序列，
具体见表2，命名为r2-ot-a，r2-ot-b，r2-ot-c。
[0079]
表2 r2脱靶位点预测
[0080][0081][0082]
根据筛选结果从zm-b73-reference-gramene-4.0数据库查询基因序列，设计特异引物并以原生质体瞬时转化基因组dna为模板扩增，sanger测序鉴定编辑情况，其中pcr反应体系及反应程序与实施例1中一致。
[0083]
sanger测序结果显示未发现碱基突变，具体见附图5，说明dfncpf1-cbe-bt2编辑载体不存在脱靶情况。